Dělám slovník nejpoužívanějších hesel, populárních nebo často nejčastěji používaných uživateli (... neptej se proč ... HAHAHA), k tomu beru text z jiných slovníků atd., ale ocitl jsem se v situaci, že existuje mnoho duplicitních hesel, a musím odstranit duplicitní řádky.
To je například ... máme následující soubor: pass.txt
A jeho obsah je:
asdasd
lola
láska
asdasd
okna
administrátor
linux
asdasd
láska
Jak vidíme, opakovali jsme «láska"Y"asdasd«, Poslední 3krát. Jak odstranit duplicitní řádky?
Je to jednoduché pomocí tohoto příkazu:
cat pass.txt | sort | uniq > pass-listos.txt
Tím se vygeneruje soubor s názvem pass-ready.txt který bude obsahovat:
administrátor
asdasd
linux
lola
láska
okna
Příkaz je VELMI jednoduchý ...
- kočičí pas.txt - »Seznam obsahu souboru.
- druh - »Seřadit obsah abecedně.
- unikátní - »Odstranit duplicitní řádky.
- > pass-ready.txt - »Výsledek předchozích příkazů, vložte do souboru pass-ready.txt (který, protože neexistuje, jej vytvoří)
Je to tak jednoduché ... právě jsem objevil ten příkaz druh ano, je to velmi dobré ... ale společně s unikátní, jsou klenotem umění 😀
Doufám, že jste byli nápomocni.
pozdravy
Můžete také použít sort -u.
Gratuluji k blogu, líbí se mi to!
Jo, správně.
Nic, moc děkuji za komentář 😀
Vítejte 😉
pozdravy
Problém je v tom, že mění pořadí slov, funguje to ... ale nakonec se výsledek hodně liší od originálu v pořadí (což možná v některých případech záleží)
Ano, opravdu, toto objednává slova abecedně, takže pokud byl obsah potřebný BEZ variant, toto řešení není ideální.
Nezlobte se, co když vás napadne, že nedáte příkaz sort? prosím přemýšlejte trochu víc a nenechte vše rozkousat.
kočičí pas.txt | uniq> pass-ready.txt
nefunguje to, zkusil jsem to
nefunguje, protože „opakované“ řádky musí být spojité
díky
je to docela užitečné
Velmi dobře! Jednoduché a jasné řešení. Mám rád takové věci 🙂
Musím přiznat, že bych v Pythonu něco udělal, ale toto řešení je v pořádku.
díky ^ - ^
Ahoj! velmi dobře!
Mám dotaz prosím
fungovalo by to pro následující příklad:
ABCD 1111
DEFG 2222 45455
ABCD 1111
DEFG 2222
Řádky jsou stejné, ale mají mezery a několik dalších znaků ... kontroluje to stejné slovo? nebo po řádku? Vysvětluji?
od nynějška vám moc děkuji.
Objetí
Dobrý den,
Jak jsem viděl, porovnává to řádky a ne sloupce, takže v příkladu, který mi dáte, by se odstranil buď 1. řádek, nebo 3., 2. a 4. řádek, i když jsou téměř identické, nejsou 100% identické, protože mají sloupec rozdílu. 😉
Děkujeme za komentář ^ - ^
Díky tobě!! než věštbě trvalo hodinu, než odstranily duplikáty ... teď to s kočičím druhem trvá 30 sekund !!
Vyžaduji to v PHP: S
Uff ... používám PHP, protože jsem velmi, velmi krátký, nejsem opravdu programátor en
Je mi to líto.
Pro php je v oficiální dokumentaci PHP array_unique (…), najdete mnoho důležitých a efektivních funkcí ..
Pokud jde o druh, pokud to nepotřebujete, není to nutné ... Čas spuštění a paměť jsou zbytečné. (za to, co se děje v příspěvku)
Zdravím!
Wow !! slovník, který lze použít jako hrubou sílu !! XD
Velmi dobrá kombinace sort s uniq! Hodně mi pomohlo odstranit duplicitní řádky.
díky
Carlosův komentář, navzdory své aroganci, není platný. Říká, že používá:
kočičí pas.txt | uniq> pass-ready.txt
podmínkou uniq je však to, že soubor je objednán. Měl jsi o tom trochu víc přemýšlet nebo se o tom předem informovat.
velmi dobře, ušetřil jsi mi spoustu času běháním mého bash
awk '! array_temp [$ 0] ++' pass.txt> pass-ready.txt
s tím jsou linky eliminovány bez nutnosti objednávat.
Velice vám děkuji za vstup!
I když by bylo skvělé, kdybychom jej mohli udělat jedinečným bez změny pořadí, ale hej, snadný a užitečný příkaz!
Děkuji, hodně mi to pomohlo 😉
mám tohle
C000006158880201502051056088364 C00-06158880
C000007601673201503051056088364 C00-07601673
C000008659304201504051056088364 C00-08659304
T 0809074070562015120818144287185REAÑO RUBIÑOS EMILIA DORIS
T 0809092979972016010818144287185REAÑO RUBIÑOS EMILIA DORIS
C000005398451201501231044214375 C00-05398451
C000007674996201503051000000286 C00-07674996
C000008514288201504051000000463 C00-08514288
C000011613498201506051056088070 C00-11613498
Jak se dostanu k tomu, aby mě namaloval do souboru pouze duplikáty na předplatitele a nechal ty, které nejsou duplikáty, v jiném?
předplatitel je na poz 23 (10 pozic)
sort -u -k 1,1 File.txt> result.txt
Tím se soubor seřadí podle prvního pole
2020 a stále slouží, moc děkuji!
Chcete-li co nejdříve najít více souborů, můžete si stáhnout souborový text z Linuxu nebo Windows? Přidat další soubor, khi tôi tạo soubor từdīnn vì tôi chia nội dung ra nên Ch kh nhiều soubor v chắc chắn con nhiều dòng trùng lặp giữa Các soubor. Ví dụ: Soubor 1 za 5 dní, soubor 2 za 15 dní (za 2 dny za souborem 1. Soubor za sebou, soubor 1 za 5 dní, soubor 2 jen za 2, za 1 za XNUMX .
Co se týče toho, co se děje, udělejte si ze souboru soubor txt đó lại với nhau, n nữ text file file file file file file file file file file file file file file file file file file file file file file file file file file file file file file file Rockyckyckyckyckyckyckyckyckyckyckyckyckyckyckyckyckyckyckyckyckyckyckycky Rockycky Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Thực tếi tôi muốn thực hiện à ày bên Windows hơn, và chắc chắn ko thể gộp chúng ở bên Windows đuc. 🙂 Hy před více dny!