Noņemiet faila rindu dublikātus

Es veidoju vārdnīcu ar visbiežāk lietotajām parolēm, populārākajām vai lietotāju visbiežāk izmantotajām parolēm (... nejautājiet, kāpēc ... HAHAHA), šim nolūkam es ņemu tekstu no citām vārdnīcām utt., bet, man šķiet, ka ir daudz paroļu dublikātu, un man ir jānovērš rindu dublikāti.

Tas ir, piemēram, ... mums ir šāds fails: pass.txt

Un tā saturs ir:

asdasd
Lola
mīlestība
asdasd
logi
admin
Linux
asdasd
mīlestība

 Kā redzam, mēs esam atkārtojuši «mīlestība»Un«asdasd«, Pēdējās 3 reizes. Kā noņemt rindu dublikātus?

Lai to izdarītu, ir vienkārši ar šo komandu:

cat pass.txt | sort | uniq > pass-listos.txt

Tas ģenerēs failu ar nosaukumu pass-ready.txt kas saturēs:

admin
asdasd
Linux
Lola
mīlestība
logi

Ko komanda dara, ir ĻOTI vienkārši ...

  1. kaķis pass.txt - »Uzskaitiet faila saturu.
  2. šķirot - »Kārtojiet saturu alfabētiskā secībā.
  3. unikāls - »Novērst rindu dublikātus.
  4. > pass-ready.txt - »Iepriekšējo komandu rezultāts, ielieciet to failā pass-ready.txt (kas, tā kā nav, to radīs)

Tas ir tik vienkārši ... Es tikko atklāju šo komandu šķirot jā, tas ir ļoti labi ... bet, kopā ar unikāls, tie ir mākslas dārgakmens 😀

Es ceru, ka jūs esat bijis noderīgs.

Sveicieni

tapetes: Ja vēlaties lejupielādēt fona tapeti «Es mīlu #! / Bin / bash»Šeit ir saite:

Lejupielādēt tapetes

Atstājiet savu komentāru

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti ar *

*

*

  1. Atbildīgais par datiem: Migels Ángels Gatóns
  2. Datu mērķis: SPAM kontrole, komentāru pārvaldība.
  3. Legitimācija: jūsu piekrišana
  4. Datu paziņošana: Dati netiks paziņoti trešām personām, izņemot juridiskus pienākumus.
  5. Datu glabāšana: datu bāze, ko mitina Occentus Networks (ES)
  6. Tiesības: jebkurā laikā varat ierobežot, atjaunot un dzēst savu informāciju.

  1.   Carlos teica

    Varat arī izmantot sort -u.

    Apsveicu ar emuāru, man tas patīk!

    1.    KZKG ^ Gaara teica

      Jā, pareizi.
      Nekas, liels paldies par komentēšanu 😀

      Laipni lūdzam 😉
      Sveicieni

  2.   Diego teica

    Problēma ir tā, ka tas maina vārdu secību, tas darbojas ... bet galu galā rezultāts daudz atšķiras no oriģināla secībā (kas varbūt dažos gadījumos ir svarīgi)

    1.    KZKG ^ Gaara teica

      Jā, patiešām, šie vārdi tiek sakārtoti alfabētiskā secībā, tādēļ, ja saturs bija nepieciešams BEZ variācijām, šis risinājums nav ideāls.

    2.    Carlos teica

      Neskrūvējieties apkārt, ja nu jūs neievietojat komandu sort? lūdzu padomājiet vēl nedaudz un lai viss nav sakošļāts.

      kaķis pass.txt | uniq> pass-ready.txt

      1.    Eliubers teica

        tas nedarbojas, es to izmēģināju

      2.    kniksis teica

        nedarbojas, jo "atkārtotām" rindām jābūt nepārtrauktām

  3.   bez nosaukuma teica

    paldies

    tas ir diezgan noderīgi

  4.   Giskards teica

    Ļoti labi! Vienkāršs un skaidrs risinājums. Man patīk tādas lietas 🙂
    Man jāatzīst, ka es būtu kaut ko darījis Python, taču šis risinājums ir labs.

    1.    KZKG ^ Gaara teica

      Gracias ^ - ^

  5.   tino teica

    Sveiki! ļoti labi!
    Lūdzu, lūdzu
    man derētu šāds piemērs:
    ABCD 1111
    DEFG 2222 45455
    ABCD 1111
    DEFG 2222

    Rindas ir vienādas, bet tām ir atstarpes un vēl dažas rakstzīmes ... vai tas pārbauda to pašu vārdu? vai pa līniju? Es paskaidroju?
    no šī brīža es jums ļoti pateicos.
    Ķēriens

    1.    KZKG ^ Gaara teica

      Sveiki, kā tas notiek
      Kā redzēju, tas salīdzina līnijas, nevis kolonnas, tāpēc piemērā, kuru jūs man sniedzat, tas noņemtu vai nu 1., vai 3., 2. un 4. rindu, kaut arī tās ir gandrīz identiskas, tās nav simtprocentīgi identiskas, jo tām ir atšķirības kolonna. 😉

      Paldies par komentāru ^ - ^

      1.    TINE teica

        Pateicoties tev!! pirms orākulam bija vajadzīga stunda, lai novērstu dublikātus ... tagad tas prasa 30 sekundes ar kaķu kārtošanu !!

  6.   MegaBedder teica

    Es to prasu PHP: S

    1.    KZKG ^ Gaara teica

      Uff ... Es esmu PHP, esmu ļoti, ļoti mazs, īsti neesmu programmētājs 🙁

      Es atvainojos

    2.    brunokascio teica

      PHP oficiālajā PHP dokumentācijā ir array_unique (…). Jūs atradīsit daudzas svarīgas un efektīvas funkcijas.

      Attiecībā uz kārtošanu, ja vien jums tas nav nepieciešams, tas nav nepieciešams ... Izpildes laiks un atmiņa tiek izšķiesti. (par to, kas tiek darīts amatā)

      Sveicieni!

  7.   geek teica

    Oho !! vārdnīca, ko izmantot kā rupju spēku !! XD

  8.   Gustavo teica

    Ļoti laba kārtošanas kombinācija ar uniq! Tas man ļoti palīdzēja noņemt rindu dublikātus.

    Gracias

  9.   Gustavo teica

    Karlosa komentārs, neskatoties uz viņa augstprātību, nav pamatots. Viņš saka izmantot:

    kaķis pass.txt | uniq> pass-ready.txt

    tomēr uniq priekšnoteikums ir faila pasūtīšana. Jums jau iepriekš bija jādomā par to nedaudz vairāk vai jāinformē par sevi.

  10.   Eliubers teica

    ļoti labi, jūs ietaupījāt man daudz laika, lai palaistu manu basu

  11.   Flintstones teica

    awk '! array_temp [$ 0] ++' pass.txt> pass-ready.txt
    ar to līnijas tiek likvidētas bez pasūtījuma.

  12.   minimāli teica

    Liels paldies par ieguldījumu!

    Lai gan būtu forši, ja varētu to padarīt unikālu, nemainot kārtību, bet, hei, viegla un noderīga komanda!

  13.   Felipe Gutierrez teica

    Paldies, tas man ļoti palīdzēja 😉

  14.   Ernesto teica

    Man tas ir
    C 000006158880201502051056088364 C00-06158880
    C 000007601673201503051056088364 C00-07601673
    C 000008659304201504051056088364 C00-08659304
    T 0809074070562015120818144287185 REAÑO RUBIÑOS EMILIA DORIS
    T 0809092979972016010818144287185 REAÑO RUBIÑOS EMILIA DORIS
    C 000005398451201501231044214375 C00-05398451
    C 000007674996201503051000000286 C00-07674996
    C 000008514288201504051000000463 C00-08514288
    C 000011613498201506051056088070 C00-11613498

    Kā es varu dabūt, lai failā krāsotu tikai katra abonenta dublikātus un atstātu tos, kas nav dublikāti, citā?

    abonents atrodas 23. pozīcijā (10 pozīcijas)

  15.   Fernando teica

    kārtot -u -k 1,1 File.txt> result.txt

    Tādējādi fails tiek sakārtots pēc pirmā lauka

  16.   Es esmu diego teica

    2020. gads un joprojām kalpo, liels paldies!

  17.   Sarah teica

    Bạn co thể hướng dẫn cách loại bỏ các dòng trùng lặp của nhiều faila teksta trong Linux vai Windows được không? Cũng như trường hợp của bạn, khi tôi tạo file từ điển vì tôi chia nội dung ra nên Có khá nhiều file và chắc chắn con nhiều dòng trùng lặp giữa Các file. Viedoklis: 1. fails của tôi co 5 dòng, fails 2 co 15 dòng (co 2 dòng trùng lặp với File 1. Tôi muốn co kết quả, File 1 vẫn giữ nguyên 5 dòng, File 2 ir tikai bỏ 2 dòng giống file 1 .
    Như bạn biết co nhiều li do chúng ta ko thể gộp các file txt đó lại với nhau, vì những faila teksts ừ điển rất ư là nhiều ký, chẳng hạn như Rockyou. Thực tế tôi muốn thực hiện điều này bên Windows hơn, và chắc chắn ko thể gộp chúng ở bên Windows được. 🙂 Hy vọng nhận được phản hồi từ bạn!