Fjern dupliserte linjer fra en fil

Jeg lager en ordbok over de mest brukte passordene, de mest populære eller ofte brukte av brukerne (... Ikke spør hvorfor ... HAHAHA), for dette tar jeg tekst fra andre ordbøker osv., men jeg befinner meg i den situasjonen at det er mange dupliserte passord, og jeg må eliminere duplikatlinjene.

Det vil si for eksempel ... vi har følgende fil: pass.txt

Og innholdet er:

asdasd
lola
elsker
asdasd
vinduer
admin
linux
asdasd
elsker

Som vi ser har vi gjentatt «elsker»Y«asdasd«, Sistnevnte 3 ganger. Hvordan fjerne dupliserte linjer?

Å gjøre det er enkelt, med denne kommandoen:

cat pass.txt | sort | uniq > pass-listos.txt

Dette vil generere en fil som heter pass-ready.txt som vil inneholde:

admin
asdasd
linux
lola
elsker
vinduer

Hva kommandoen gjør er veldig enkelt ...

kattpass.txt - »Liste innholdet i filen.
Sorter - »Sorter innholdet alfabetisk.
unik - »Fjern dupliserte linjer.
> pass-ready.txt - »Resultatet av de forrige kommandoene, legg det i filen pass-ready.txt (som, da den ikke eksisterer, vil skape den)

Det er så enkelt ... Jeg oppdaget nettopp at kommandoen Sorter ja, det er veldig bra ... men sammen med unik, de er en juvel av kunst 😀

Jeg håper du har vært behjelpelig.

Hilsen

Bakgrunn: Hvis du vil laste ned bakgrunnsbilde «Jeg elsker #! / Bin / bash"Her er lenken:

Last ned bakgrunnsbilde

Legg igjen kommentaren Avbryt svar

Carlos sa
hace 12 år

Du kan også bruke sorter -u.

Gratulerer med bloggen, jeg elsker det!

Svar til Carlos
1. KZKG ^ Gaara sa
  hace 12 år
  
  Ja sikkert.
  Ingenting, tusen takk for at du kommenterer 😀
  
  Velkommen 😉
  Hilsen
  
  Svar på KZKG ^ Gaara
Diego sa
hace 12 år

Problemet med det er at det endrer rekkefølgen på ordene, det fungerer ... men til slutt skiller resultatet seg mye fra originalen i rekkefølgen (som kanskje i noen tilfeller betyr noe)

Svar til Diego
1. KZKG ^ Gaara sa
  hace 12 år
  
  Ja, dette ordner ordene alfabetisk, så hvis innholdet var nødvendig UTEN variasjoner, er ikke denne løsningen den ideelle.
  
  Svar på KZKG ^ Gaara
2. Carlos sa
  hace 11 år
  
  Ikke skru rundt, hva om du ikke legger sorteringskommandoen? Vennligst tenk litt mer og ikke ha alt tygget opp.
  
  cat pass.txt | uniq> pass-ready.txt
  
  Svar til Carlos
  1. Eliuber sa
    hace 9 år
    
    det virker ikke, jeg prøvde det
    
    Svar til Eliuber
  2. bob sa
    hace 6 år
    
    fungerer ikke fordi "gjentatte" linjer må være kontinuerlige
    
    Svar på bob
ikke navngitt sa
hace 12 år

takk

det er ganske nyttig

Svar til ikke-navngitt
giskard sa
hace 12 år

Veldig bra! En enkel og tydelig løsning. Jeg liker sånne ting 🙂
Jeg må innrømme at jeg ville ha gjort noe i Python, men denne løsningen er bra.

Svar til Giskard
1. KZKG ^ Gaara sa
  hace 12 år
  
  Takk ^ - ^
  
  Svar på KZKG ^ Gaara
tino sa
hace 11 år

Hallo! veldig bra!
Jeg har et spørsmål
det ville fungere for meg for følgende eksempel:
ABCD 1111
DEFG 2222 45455
ABCD 1111
DEFG 2222

Radene er de samme, men de har mellomrom og noen få tegn til ... ser dette etter det samme ordet? eller etter linje? Jeg forklarer?
fra nå av takker jeg veldig mye.
En klem

Svar på tino
1. KZKG ^ Gaara sa
  hace 11 år
  
  Hei, hvordan har du det?
  Som jeg så, sammenligner dette linjer og ikke kolonner, så i eksemplet du gir meg vil dette fjerne enten 1. linje eller 3., 2. og 4. linje, selv om de er nesten identiske, er de ikke 100% identiske fordi de har en forskjellskolonne. 😉
  
  Takk for kommentaren ^ - ^
  
  Svar på KZKG ^ Gaara
  1. TINE sa
    hace 11 år
    
    Takket være deg!! før det tok en time for orakel å eliminere duplikater ... nå tar det 30 sekunder med kattesorten !!
    
    Svar på TINO
MegaBedder sa
hace 11 år

Jeg trenger det i PHP: S

Svar på MegaBedder
1. KZKG ^ Gaara sa
  hace 11 år
  
  Uff ... Jeg bruker PHP fordi jeg er veldig, veldig kort, jeg er egentlig ikke programmerer
  
  Jeg beklager
  
  Svar på KZKG ^ Gaara
2. brunocascio sa
  hace 11 år
  
  For php er det array_unique (…) i den offisielle PHP-dokumentasjonen. Du finner mange viktige og effektive funksjoner ..
  
  Når det gjelder typen, er det ikke nødvendig med mindre du trenger det ... Utførelsestid og minne er bortkastet. (for det som gjøres i innlegget)
  
  Greetings!
  
  Svar på brunocascio
nerd sa
hace 11 år

Wow !! en ordbok å bruke som brute force !! XD

Svar på frikilui
Gustavo sa
hace 11 år

Veldig bra kombinasjonen av sort med uniq! Det hjalp meg mye å fjerne dupliserte linjer.

Takk

Svar til Gustavo
Gustavo sa
hace 11 år

Til tross for arrogansen er Carlos kommentar ikke gyldig. Han sier å bruke:

cat pass.txt | uniq> pass-ready.txt

En forutsetning for uniq er imidlertid at filen er bestilt. Du burde ha tenkt på det litt mer eller informert deg om før.

Svar til Gustavo
Eliuber sa
hace 9 år

veldig bra, du sparte meg mye tid på å kjøre meg

Svar til Eliuber
Flintstones sa
hace 9 år

awk '! array_temp [$ 0] ++' pass.txt> pass-ready.txt
med dette elimineres linjene uten å måtte bestille.

Svar på Pedro Flintstone
minimum sa
hace 8 år

Tusen takk for bidraget!

Selv om det ville være kult å kunne gjøre det unikt uten å endre rekkefølgen, men hei, en enkel og nyttig kommando!

Svar på miniminiyo
Felipe Gutierrez sa
hace 8 år

Takk, det hjalp meg veldig 😉

Svar til Felipe Gutiérrez
ernesto sa
hace 8 år

jeg har dette
C000006158880201502051056088364 C00-06158880
C000007601673201503051056088364 C00-07601673
C000008659304201504051056088364 C00-08659304
T 0809074070562015120818144287185 REAÑO RUBIÑOS EMILIA DORIS
T 0809092979972016010818144287185 REAÑO RUBIÑOS EMILIA DORIS
C000005398451201501231044214375 C00-05398451
C000007674996201503051000000286 C00-07674996
C000008514288201504051000000463 C00-08514288
C000011613498201506051056088070 C00-11613498

Hvordan får jeg det til å kun male duplikater per abonnent i en fil og legge de som ikke er duplikater i en annen?

abonnenten er i pos 23 (10 posisjoner)

Svar på ernesto
Fernando sa
hace 7 år

sorter -u -k 1,1 File.txt> result.txt

Dette sorterer filen etter det første feltet

Svar til Fernando
Jeg er Diego sa
hace 4 år

2020 og serverer fremdeles, tusen takk!

Svar på SoyDiego
sarah sa
hace 3 år

Bạn co thể hướng dẫn cách loại bỏ các dòng trùng lặp của nhiều file text trong Linux or Windows được không? Cũng như trường hợp của bạn, khi tôi tạo file từ điển vì tôi chia nội dung ra nên Có khá nhiều file và chắc chắn con nhiều dòng trùng lặp giữa Các file. Ví dụ: File 1 của tôi co 5 dòng, file 2 co 15 dòng (co 2 dòng trùng lặp với File 1. Tôi muốn co kết quả, File 1 vẫn giữ nguyên 5 dòng, File 2 thì only bỏ 2 dòng giống file 1 .
Như bạn biết co nhiều li do chúng ta ko thể gộp các file txt đó lại với nhau, vì những file text từ điển rất ư là nhiều ký, chẳng hạn như Rockyou. Thực tế tôi muốn thực hiện điều này bên Windows hơn, và chắc chắn ko thể gộp chúng ở bên Windows được. 🙂 Hy vọng nhận được phản hồi từ bạn!

Svar til sarah