Правя речник на най-използваните пароли, популярните или често използвани от потребителите (... Не питай защо ... HAHAHA), за това взимам текст от други речници и т.н., но, попаднах в ситуацията, че има много дублиращи се пароли и трябва да премахна дублиращите се редове.
Това е например ... имаме следния файл: pass.txt
А съдържанието му е:
asdasda
Лола
обичам
asdasda
прозорци
администратор
Linux
asdasda
обичам
Както виждаме, ние повтаряхме «обичам»Y«asdasda«, Последният 3 пъти. Как да премахна дублирани редове?
За да направите това, е просто, с тази команда:
cat pass.txt | sort | uniq > pass-listos.txt
Това ще генерира файл, наречен pass-ready.txt който ще съдържа:
администратор
asdasda
Linux
Лола
обичам
прозорци
Това, което прави командата, е МНОГО просто ...
- котешки пас.txt - »Избройте съдържанието на файла.
- вид - »Сортирайте съдържанието по азбучен ред.
- уникален - »Премахване на дублиращи се редове.
- > pass-ready.txt - »Резултатът от предишните команди, поставете го във файла pass-ready.txt (който, тъй като не съществува, ще го създаде)
Толкова е просто ... Току-що открих, че командата вид да, много е добре ... но, заедно с уникален, те са бижу на изкуството 😀
Надявам се да сте били полезни.
поздрави
Можете също да използвате sort -u.
Поздравления за блога, обичам го!
Да бе.
Нищо, много благодаря за коментара 😀
Добре дошли 😉
поздрави
Проблемът с това е, че променя реда на думите, работи ... но в крайна сметка резултатът се различава много от оригинала в реда (което може би в някои случаи има значение)
Да наистина, това подрежда думите по азбучен ред, така че ако съдържанието е необходимо БЕЗ вариации, това решение не е идеалното.
Не се прецаквайте, ами ако не поставите командата за сортиране? моля, помислете още малко и да не се дъвче всичко.
cat pass.txt | uniq> pass-ready.txt
не работи, опитах го
не работи, защото "повтарящите се" редове трябва да са непрекъснати
благодаря
това е доста полезно
Много добре! Просто и ясно решение. Харесвам подобни неща 🙂
Трябва да призная, че щях да направя нещо в Python, но това решение е добре.
благодаря ^ - ^
Здравейте! много добре!
Имам запитване, моля
ще работи за мен за следния пример:
ABCD 1111
DEFG 2222 45455
ABCD 1111
DEFG 2222
Редовете са еднакви, но имат интервали и още няколко знака ... проверява ли това за същата дума? или по линия? Обяснявам?
отсега нататък много ви благодаря.
Прегръдка
Здравейте как става това
Както видях, това сравнява редове, а не колони, така че в примера, който ми дадете, това би премахнало или 1-ви ред, или 3-ти, 2-ри и 4-ти ред, въпреки че са почти идентични, те не са 100% еднакви, има колона за разлика. 😉
Благодаря за коментара ^ - ^
Благодарение на теб!! преди отнемаше час на oracle да премахне дублиращите ... сега отнема 30 секунди при сортирането на котките !!
Изисквам го в PHP: S
Uff ... Използвам PHP, защото съм много, много нисък, всъщност не съм програмист
Извинете.
За php има array_unique (...) в официалната PHP документация ще намерите много важни и ефективни функции ..
По отношение на сортирането, освен ако не се нуждаете, не е необходимо ... Времето за изпълнение и паметта се губят. (за това, което е направено в публикацията)
Поздрави!
Еха !! речник, който да се използва като груба сила !! XD
Много добра комбинация от sort с uniq! Много ми помогна да премахна дублиращи се редове.
благодаря
Коментарът на Карлос, въпреки арогантността му, не е валиден. Той казва да използва:
cat pass.txt | uniq> pass-ready.txt
обаче предпоставка на uniq е файлът да е подреден. Трябваше да помислите малко повече или да се информирате преди това.
много добре, спестихте ми много време за управление на моя баш
awk '! array_temp [$ 0] ++' pass.txt> pass-ready.txt
с това линиите се елиминират, без да се налага да поръчвате.
Благодаря ви много за приноса!
Макар че би било страхотно да можете да го направите уникален, без да променяте реда, но хей, лесна и полезна команда!
Благодаря ти, много ми помогна 😉
имам това
C000006158880201502051056088364 C00-06158880
C000007601673201503051056088364 C00-07601673
C000008659304201504051056088364 C00-08659304
T 0809074070562015120818144287185 REAÑO RUBIÑOS EMILIA DORIS
T 0809092979972016010818144287185 REAÑO RUBIÑOS EMILIA DORIS
C000005398451201501231044214375 C00-05398451
C000007674996201503051000000286 C00-07674996
C000008514288201504051000000463 C00-08514288
C000011613498201506051056088070 C00-11613498
Как да го накарам да ме нарисува във файл само дубликатите на абонат и да оставя недубликатите в друг?
абонатът е в поз 23 (10 позиции)
сортиране -u -k 1,1 File.txt> result.txt
Това сортира файла по първото поле
2020 г. и все още служи, много благодаря!
B con co thể hướng dẫn cách loại bỏ các dòng trùng lặp của nhiều file text trong Linux or Windows được không? Cũng như trường hợp của bạn, khi tôi tạo файл từ điển vì tôi chia nội dung ra nên Có khá nhiều файл v chắc chắn con nhiều dòng trùng lặp giữa Các файл. Визуализация: Файл 1 е съвместен с 5 дни, файл 2 е с 15 дни (файлът е съвместен с 2 файла Файл 1. Този файл е съвместен, Файл 1 е създаден 5 дни, Файл 2 е само с файл 2 с 1 файл) .
Như bạn biết co nhiều li do chúng ta ko thể gộp các файл txt đó lại với nhau, vì những текст на файла từ điển rất ư là nhiều ký, chẳng hạn như Rockyou. Thực tế tôi muốn thực hiện điều này bên Windows hơn, và chắc chắn ko thể gộp chúng ở bên Windows được. 🙂 Hy vọng nhận được phản hồi từ bạn!