Odeberte duplicitní řádky ze souboru

Dělám slovník nejpoužívanějších hesel, populárních nebo často nejčastěji používaných uživateli (... neptej se proč ... HAHAHA), k tomu beru text z jiných slovníků atd., ale ocitl jsem se v situaci, že existuje mnoho duplicitních hesel, a musím odstranit duplicitní řádky.

To je například ... máme následující soubor: pass.txt

A jeho obsah je:

asdasd
lola
láska
asdasd
okna
administrátor
linux
asdasd
láska

 Jak vidíme, opakovali jsme «láska"Y"asdasd«, Poslední 3krát. Jak odstranit duplicitní řádky?

Je to jednoduché pomocí tohoto příkazu:

cat pass.txt | sort | uniq > pass-listos.txt

Tím se vygeneruje soubor s názvem pass-ready.txt který bude obsahovat:

administrátor
asdasd
linux
lola
láska
okna

Příkaz je VELMI jednoduchý ...

  1. kočičí pas.txt - »Seznam obsahu souboru.
  2. druh - »Seřadit obsah abecedně.
  3. unikátní - »Odstranit duplicitní řádky.
  4. > pass-ready.txt - »Výsledek předchozích příkazů, vložte do souboru pass-ready.txt (který, protože neexistuje, jej vytvoří)

Je to tak jednoduché ... právě jsem objevil ten příkaz druh ano, je to velmi dobré ... ale společně s unikátní, jsou klenotem umění 😀

Doufám, že jste byli nápomocni.

pozdravy

Tapeta: Chcete-li stáhnout tapetu «Miluji #! / Bin / bash"Tady je odkaz:

Stáhnout tapetu

Zanechte svůj komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *

*

*

  1. Odpovědný za údaje: Miguel Ángel Gatón
  2. Účel údajů: Ovládací SPAM, správa komentářů.
  3. Legitimace: Váš souhlas
  4. Sdělování údajů: Údaje nebudou sděleny třetím osobám, s výjimkou zákonných povinností.
  5. Úložiště dat: Databáze hostovaná společností Occentus Networks (EU)
  6. Práva: Vaše údaje můžete kdykoli omezit, obnovit a odstranit.

  1.   Carlos řekl

    Můžete také použít sort -u.

    Gratuluji k blogu, líbí se mi to!

    1.    KZKG ^ Gaara řekl

      Jo, správně.
      Nic, moc děkuji za komentář 😀

      Vítejte 😉
      pozdravy

  2.   Diego řekl

    Problém je v tom, že mění pořadí slov, funguje to ... ale nakonec se výsledek hodně liší od originálu v pořadí (což možná v některých případech záleží)

    1.    KZKG ^ Gaara řekl

      Ano, opravdu, toto objednává slova abecedně, takže pokud byl obsah potřebný BEZ variant, toto řešení není ideální.

    2.    Carlos řekl

      Nezlobte se, co když vás napadne, že nedáte příkaz sort? prosím přemýšlejte trochu víc a nenechte vše rozkousat.

      kočičí pas.txt | uniq> pass-ready.txt

      1.    Eliuber řekl

        nefunguje to, zkusil jsem to

      2.    poskakovat řekl

        nefunguje, protože „opakované“ řádky musí být spojité

  3.   bez názvu řekl

    díky

    je to docela užitečné

  4.   giskard řekl

    Velmi dobře! Jednoduché a jasné řešení. Mám rád takové věci 🙂
    Musím přiznat, že bych v Pythonu něco udělal, ale toto řešení je v pořádku.

    1.    KZKG ^ Gaara řekl

      díky ^ - ^

  5.   Tino řekl

    Ahoj! velmi dobře!
    Mám dotaz prosím
    fungovalo by to pro následující příklad:
    ABCD 1111
    DEFG 2222 45455
    ABCD 1111
    DEFG 2222

    Řádky jsou stejné, ale mají mezery a několik dalších znaků ... kontroluje to stejné slovo? nebo po řádku? Vysvětluji?
    od nynějška vám moc děkuji.
    Objetí

    1.    KZKG ^ Gaara řekl

      Dobrý den,
      Jak jsem viděl, porovnává to řádky a ne sloupce, takže v příkladu, který mi dáte, by se odstranil buď 1. řádek, nebo 3., 2. a 4. řádek, i když jsou téměř identické, nejsou 100% identické, protože mají sloupec rozdílu. 😉

      Děkujeme za komentář ^ - ^

      1.    TINO řekl

        Díky tobě!! než věštbě trvalo hodinu, než odstranily duplikáty ... teď to s kočičím druhem trvá 30 sekund !!

  6.   MegaBedder řekl

    Vyžaduji to v PHP: S

    1.    KZKG ^ Gaara řekl

      Uff ... používám PHP, protože jsem velmi, velmi krátký, nejsem opravdu programátor en

      Je mi to líto.

    2.    brunocascio řekl

      Pro php je v oficiální dokumentaci PHP array_unique (…), najdete mnoho důležitých a efektivních funkcí ..

      Pokud jde o druh, pokud to nepotřebujete, není to nutné ... Čas spuštění a paměť jsou zbytečné. (za to, co se děje v příspěvku)

      Zdravím!

  7.   geek řekl

    Wow !! slovník, který lze použít jako hrubou sílu !! XD

  8.   Gustavo řekl

    Velmi dobrá kombinace sort s uniq! Hodně mi pomohlo odstranit duplicitní řádky.

    díky

  9.   Gustavo řekl

    Carlosův komentář, navzdory své aroganci, není platný. Říká, že používá:

    kočičí pas.txt | uniq> pass-ready.txt

    podmínkou uniq je však to, že soubor je objednán. Měl jsi o tom trochu víc přemýšlet nebo se o tom předem informovat.

  10.   Eliuber řekl

    velmi dobře, ušetřil jsi mi spoustu času běháním mého bash

  11.   Flintstones řekl

    awk '! array_temp [$ 0] ++' pass.txt> pass-ready.txt
    s tím jsou linky eliminovány bez nutnosti objednávat.

  12.   miniminimální řekl

    Velice vám děkuji za vstup!

    I když by bylo skvělé, kdybychom jej mohli udělat jedinečným bez změny pořadí, ale hej, snadný a užitečný příkaz!

  13.   Felipe Gutierrez řekl

    Děkuji, hodně mi to pomohlo 😉

  14.   Ernesto řekl

    mám tohle
    C000006158880201502051056088364 C00-06158880
    C000007601673201503051056088364 C00-07601673
    C000008659304201504051056088364 C00-08659304
    T 0809074070562015120818144287185REAÑO RUBIÑOS EMILIA DORIS
    T 0809092979972016010818144287185REAÑO RUBIÑOS EMILIA DORIS
    C000005398451201501231044214375 C00-05398451
    C000007674996201503051000000286 C00-07674996
    C000008514288201504051000000463 C00-08514288
    C000011613498201506051056088070 C00-11613498

    Jak se dostanu k tomu, aby mě namaloval do souboru pouze duplikáty na předplatitele a nechal ty, které nejsou duplikáty, v jiném?

    předplatitel je na poz 23 (10 pozic)

  15.   Fernando řekl

    sort -u -k 1,1 File.txt> result.txt

    Tím se soubor seřadí podle prvního pole

  16.   Jsem diego řekl

    2020 a stále slouží, moc děkuji!

  17.   Sarah řekl

    Chcete-li co nejdříve najít více souborů, můžete si stáhnout souborový text z Linuxu nebo Windows? Přidat další soubor, khi tôi tạo soubor từdīnn vì tôi chia nội dung ra nên Ch kh nhiều soubor v chắc chắn con nhiều dòng trùng lặp giữa Các soubor. Ví dụ: Soubor 1 za 5 dní, soubor 2 za 15 dní (za 2 dny za souborem 1. Soubor za sebou, soubor 1 za 5 dní, soubor 2 jen za 2, za 1 za XNUMX .
    Co se týče toho, co se děje, udělejte si ze souboru soubor txt đó lại với nhau, n nữ text file file file file file file file file file file file file file file file file file file file file file file file file file file file file file file file Rockyckyckyckyckyckyckyckyckyckyckyckyckyckyckyckyckyckyckyckyckyckyckycky Rockycky Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Thực tếi tôi muốn thực hiện à ày bên Windows hơn, và chắc chắn ko thể gộp chúng ở bên Windows đuc. 🙂 Hy před více dny!