Suprimeix línies duplicades d'un fitxer

Estic fent un diccionari de contrasenyes més usats, els populars o freqüentment més usats pels usuaris (... no preguntin el per què ... JAJAJA), Per això estic prenent text d'altres diccionaris etc, però, em veig en la situació que hi ha muuuchos passwords duplicats, i necessito eliminar les línies duplicades.

O sigui, per exemple ... tenim el següent arxiu: pass.txt

I el seu contingut és:

asdasd
lola
amor
asdasd
finestres
admin
linux
asdasd
amor

Com veiem, tenim repetit «amor»i«asdasd«, Aquest últim 3 vegades. ¿Com eliminar les línies duplicades?

Per fer-ho és simple, amb aquesta comanda:

cat pass.txt | sort | uniq > pass-listos.txt

Això ens generarà un fitxer anomenat pass-listos.txt que contindrà:

admin
asdasd
linux
lola
amor
finestres

El que fa la comanda és MOLT simple ...

cat pass.txt - »Llista el contingut de l'arxiu.
sort - »Ordena el contingut alfabèticament.
únic - »Elimina les línies duplicades.
> Pass-listos.txt - »El resultat de les ordres anteriors, posa-ho a l'arxiu pass-listos.txt (que, com no existeix, el crearà)

Així de simple ... recentment descobreixo que la comanda sort sí, és molt bo ... però, unit a únic, Són una joia d'art 😀

Espero els hagi estat d'utilitat.

Salutacions

paper pintat: Si voleu baixar el wallpaper «I Love #! / Bin / bash»Aquí tenen el link:

Descàrrega Wallpaper

27 comentaris, deixa el teu

Deixa el teu comentari Cancel lar la resposta

Carlos va dir
fa 12 anys

També es pot fer servir sort -u.

Felicitats pel blog, m'encanta!

Respondre Carlos
1. KZKG ^ Gaara va dir
  fa 12 anys
  
  Síp cert.
  Res, moltes gràcies a tu per comentar 😀
  
  Benvingut 😉
  Salutacions
  
  Respondre KZKG ^ Gaara
Diego va dir
fa 12 anys

El problema amb això és que et canvia l'ordre de les paraules, funciona ... però a la fi el resultat difereix bastant de l'original en l'ordre (que potser en algun cas import)

Respondre a Diego
1. KZKG ^ Gaara va dir
  fa 12 anys
  
  Síp en efecte, això ordena les paraules alfabèticament, de manera que si el contingut es necessitava SENSE variacions, aquí aquesta solució no és la idònia.
  
  Respondre KZKG ^ Gaara
2. Carlos va dir
  fa 11 anys
  
  No fotis, ¿i si se t'ocorre no posar la comanda sort? si us plau, a pensar una mica més i no tenir tot mastegat.
  
  cat pass.txt | uniq> pass-listos.txt
  
  Respondre Carlos
  1. Eliuber va dir
    fa 9 anys
    
    no funciona ja ho probe
    
    Respondre a Eliuber
  2. bob va dir
    fa 6 anys
    
    no funciona perquè les línies «repetides» han d'estar contínues
    
    Respondre a bob
sense nom va dir
fa 12 anys

gràcies

és força útil

Respondre a nonamed
Giskard va dir
fa 12 anys

Molt bo! Una solució simple i clara. M'agraden les coses així 🙂
He de reconèixer que jo hauria fet alguna cosa en Python però aquesta solució està molt bé.

Respondre a Giskard
1. KZKG ^ Gaara va dir
  fa 12 anys
  
  Gràcias ^ - ^
  
  Respondre KZKG ^ Gaara
tino va dir
fa 11 anys

hola! molt bo!
tinc una consulta si us plau,
em funcionaria per al següent exemple:
ABCD 1111
DEFG 2222 45455
ABCD 1111
DEFG 2222

Les files són iguals però tenen espais i alguns caràcters més ... això comprova per paraula igual? o per renglon? m'explico?
des de ja, et agraeixo un munt.
Una abraçada

Respondre encert
1. KZKG ^ Gaara va dir
  fa 11 anys
  
  Hola que tal,
  Segons vaig veure, això compara línies i no columnes, de manera que en l'exemple que em poses això trauria o la 1ra línia o la 3ra, la 2dóna i 4ta línia tot i que són gairebé idèntiques, no són 100% idèntiques ja que tenen una columna de diferència. 😉
  
  Gràcies pel comentari ^ - ^
  
  Respondre KZKG ^ Gaara
  1. TINO va dir
    fa 11 anys
    
    Gràcies a vós !! abans trigava uan hora per oracle per eliminar duplicats ... ara trigo 30 segons amb el cat sort !!
    
    Respondre a TINO
MegaBedder va dir
fa 11 anys

Jo ho requereixo en PHP: S

Respondre a MegaBedder
1. KZKG ^ Gaara va dir
  fa 11 anys
  
  Uff ... jo de PHP és que camino molt i molt curt, no sóc programador en realitat 🙁
  
  Em sap greu.
  
  Respondre KZKG ^ Gaara
2. brunocasci va dir
  fa 11 anys
  
  Per php hi array_unique (...) en la documentació oficial de PHP trobaràs moltes funcions importants i eficients ..
  
  Pel que fa a l'sort, llevat que ho necessitis, no cal ... Es malgasta temps d'ejecucion i memòria. (Per al que es fa en el post)
  
  Salutacions!
  
  Respondre a brunocascio
frikilui va dir
fa 11 anys

Wow !! un diccionari per a usar-lo com a força bruta !! XD

Respondre a frikilui
Gustavo va dir
fa 11 anys

Molt bona la combinació de sort amb uniq! Em va ajudar molt per eliminar línies duplicades.

Gràcias

Respondre a Gustavo
Gustavo va dir
fa 11 anys

El comentari de Carles, malgrat la seva supèrbia, no és vàlid. Ell diu d'usar:

cat pass.txt | uniq> pass-listos.txt

però un prerequisit de uniq és que l'arxiu estigui ordenat. Ho hauria d'haver pensat una mica més o informar-se abans.

Respondre a Gustavo
Eliuber va dir
fa 9 anys

molt bo, em vas estalviar una gran quantitat de temps a l'executar el meu bash

Respondre a Eliuber
Pedro Picapedra va dir
fa 9 anys

awk '! array_temp [$ 0] ++' pass.txt> pass-listos.txt
amb això s'eliminen les línies sense haver de ordenar.

Respondre a Pedro Picapedra
miniminiyo va dir
fa 8 anys

Moltes gràcies per l'aportació!

Encara que molaria poder fer-ho únic sense canviar l'ordre, però bé, una ordre fàcil i útil!

Respondre a miniminiyo
Felipe Gutiérrez va dir
fa 8 anys

Gràcies, em va servir moltíssim 😉

Respondre a Felipe Gutiérrez
ernesto va dir
fa 8 anys

tinc això
C 000006158880201502051056088364 C00-06158880
C 000007601673201503051056088364 C00-07601673
C 000008659304201504051056088364 C00-08659304
T 0809074070562015120818144287185REAÑO Rubinos EMILIA DORIS
T 0809092979972016010818144287185REAÑO Rubinos EMILIA DORIS
C 000005398451201501231044214375 C00-05398451
C 000007674996201503051000000286 C00-07674996
C 000008514288201504051000000463 C00-08514288
C 000011613498201506051056088070 C00-11613498

com faig perquè em pinti en un arxiu només els duplicats per abonat i em deixi en un altre els que no són duplicats

l'abonat està en la post 23 (10 posicions)

Respondre a ernesto
Fernando va dir
fa 7 anys

sort -u -k 1,1 fitxer.txt> resultado.txt

Això ordena l'arxiu pel primer camp

Respondre a Fernando
SoyDiego va dir
fa 4 anys

2020 i segueix servint, moltes gràcies!

Respondre a SoyDiego
sarah va dir
fa 3 anys

Bạn car The Huong donen CACH Loai Bỏ các dòng Trung Lap của nhiều file text trong Linux or Windows được không? Cung Nhu Trường hop của bạn, khi Toi tạo file từ điển vaig veure toi chia nội dung ra Nen car Kha nhiều file và Chac Chan car nhiều dòng Trung Lap Giua các file. Vaig veure Du: File 1 của toi car maig dòng, file 5 car 2 dòng (car febrer dòng Trung Lap voi File 15. toi muon car kết qua, File 2 van Giù Nguyên 1 dòng, File 1 Thi es Loai Bỏ 5 dòng Giong file 2.
Nhu bạn Biet car nhiều lí do Chung ta ko the GOP các file txt DJO lại Voi nhau, vaig veure Nhung file text từ điển Rat u la nhiều KY, Chang han Nhu RockYou. Thuc et toi muon Thuc Hiện điều này Bên Windows Hon, và Chac Chan ko the GOP Chung o Ben Windows được. 🙂 Hy Vong Nhan được Phan Hoi từ bạn!

Respondre a sarah

DesdeLinux

Elimina línies duplicades d'un arxiu

Deixa el teu comentari Cancel lar la resposta