Ako OCR PDF a povoliť výber a vyhľadávanie textu

Ako OCR do PDF a ako povoliť výber a vyhľadávanie textu

Predpokladajme, že máte PDF, ktoré bolo vytvorené pomocou skenera alebo ktoré vám bolo odovzdané, ale obsahuje informácie vo forme obrázka. Volá sa postup, ktorému musíme predložiť naše milované PDF OCR: proces, ktorý automaticky identifikuje symboly alebo znaky patriace k určitej abecede, od obrázka po jeho uloženie vo forme údajov, s ktorými môžeme interagovať pomocou programu na úpravu textu alebo podobne.

pdfocr je jednoduchý nástroj, ktorý vytvára nové PDF s vloženou textovou vrstvou a umožňuje používateľovi vyberať text a vyhľadávať v ňom slová bez zmeny konečného vzhľadu PDF.

Na čo pdfocr NIE JE:

Toto funguje, iba ak PDF obsahuje informácie vo forme obrázka; ak ste exportovali PDF z OpenOffice, má už vloženú textovú vrstvu, takže tento postup je zbytočný.

Ako nainštalovať pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get aktualizácie
sudo apt-get nainštalovať pdfocr

Ako používať pdfocr:

Otvorte terminál, prejdite do adresára, kde sa nachádza PDF, ktorý chcete previesť, a zadajte nasledujúci text (nahraďte súbor input.pdf súborom PDF, ktorý chcete previesť, a output.pdf názvom nového súboru s vloženou textovou vrstvou)

pdfocr -i vstup.pdf -o výstup.pdf

Počkajte, kým sa na každej stránke PDF precvičí OCR, a vytvorí sa konečný upravený súbor. To by malo trvať niekoľko sekúnd na stránku, v závislosti od rozlíšenia súboru PDF.

Zanechajte svoj komentár Zrušiť odpoveď

Rudolf Lara dijo
hace 11 rokov

rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Čítanie zoznamu balíkov ... Hotovo
Vytváranie stromu závislostí
Čítajú sa informácie o stave ... Hotovo
E: Balík pdfocr sa nepodarilo nájsť
rodolfo @ rodolfo-desktop: ~ $

Odpovedať Rodolfovi Lare
Použime Linux dijo
hace 11 rokov

Nezabudli ste pridať zodpovedajúci PPA?
Tento PPA má pravdepodobne verzie pdfocr pre staršie verzie Ubuntu. Myslite si, že tento príspevok je už niekoľko mesiacov starý. Myšlienka je každopádne rovnaká. Prejdite na Launchpad a vyhľadajte PPA, ktorá obsahuje verzie pdfocr pre Maverick.
Na zdravie! Pavla.

Reagujte na Poďme používať Linux
jvare dijo
hace 11 rokov

Bude to predmetom testovania, aby sme zistili, ako to funguje

Odpovedať Jvare
Použime Linux dijo
hace 11 rokov

Do toho! Dajte nám vedieť, či ste boli úspešní !! Ak to nefunguje, môžeme sa pokúsiť pomôcť aj vám! Na zdravie! Pavla.

Reagujte na Poďme používať Linux
a01653 dijo
hace 11 rokov

Dobrý deň,
Program som otestoval na pdf a výsledok nie je veľmi dobrý. Som zvyknutý na profesionálneho akrobata 8 a hľadal niečo podobné. Aplikácia Acrobat odovzdá pomocné programy do súborov, aby vyčistila a narovnala naskenované súbory PDF a získala tak lepší zdroj pre ocr. Viete, či existuje riešenie tohto problému.

Pozdrav

Odpovedajte na a01653
Použime Linux dijo
hace 11 rokov

Ahoj! Počul som, že Tesseract je najlepší OCR opensource. Neviem, či to bude dobré. Tiež si musíte trochu zašpiniť ruky, aby to fungovalo. Tu je niekoľko pokynov. Ak ste úspešní, dajte nám vedieť, pretože ak to bude fungovať, pravdepodobne sa z toho nakoniec stane príspevok.

Najskôr nainštalujte balíčky „tesseract 2.03-4“ a „imagemagick“ pomocou programu Synaptic, „xsane2tess“ z „http://download.tuxfamily.org/guadausers/guadaV4/“.

Potom vytvorte priečinok tmp v priečinku: / home / yourusername / tmp

Potom otvorte Xsane a nakonfigurujte ho, kartu Predvoľby–> Konfigurácia–> OCR a vyplňte nasledujúce:

Príkaz OCR -> xsane2tess -l spa
Voľba vstupného súboru -> -i
Voľba výstupného súboru -> -o
Voľba výstupu -fd interface -> -x

V konfiguráciách Xsane na karte „Uložiť“ v časti s názvom dočasný adresár skontrolujte, či existuje priečinok „tmp“, ktorý ste vytvorili v priečinku „/ home / yourusername“.

Nechám vám tiež stránku s podrobnosťami o tom, ako robiť OCR v Ubuntu: https://help.ubuntu.com/community/OCR

Reagujte na Poďme používať Linux
Použime Linux dijo
hace 11 rokov

Ďalšia metóda, ktorú som tam objavil x, je nasledovná:

Za predpokladu, že skener už bol systémom pripojený a rozpoznaný

1. Otvorím Systém> Správa> Synaptický správca balíkov (v GNOME)

2. Vyhľadávam a framework na inštaláciu tesseract-ocr-spa (na skenovanie v španielčine) a gscan2pdf

3. Na skenovanie otvorím Aplikácie> Grafika> gscan2pdf

A pripravený.

Reagujte na Poďme používať Linux
Trubadúr dijo
hace 10 rokov

Ahoj kamarát, ďakujem pekne, pravdou je, že tesseract je dobrý nástroj, ale veľmi obmedzený v porovnaní s knihami s „problematickým“ skenovaním. Na druhej strane sa tento softvér ľahšie prispôsobuje ... 😀

Odpovedať Trovadordebarro
Juan Anez dijo
hace 10 rokov

V procese digitalizácie obrázkov sa konvertujú súbory PDF-A, ktoré musia byť OCR. Aké citlivé je na výsledok skenovanie čiernobielo alebo v odtieňoch sivej? Čo sa odporúča?

Odpovedať juan anez