Ako OCR do PDF a ako povoliť výber a vyhľadávanie textu

Predpokladajme, že máte PDF, ktoré bolo vytvorené pomocou skenera alebo ktoré vám bolo odovzdané, ale obsahuje informácie vo forme obrázka. Volá sa postup, ktorému musíme predložiť naše milované PDF OCR: proces, ktorý automaticky identifikuje symboly alebo znaky patriace k určitej abecede, od obrázka po jeho uloženie vo forme údajov, s ktorými môžeme interagovať pomocou programu na úpravu textu alebo podobne.


pdfocr je jednoduchý nástroj, ktorý vytvára nové PDF s vloženou textovou vrstvou a umožňuje používateľovi vyberať text a vyhľadávať v ňom slová bez zmeny konečného vzhľadu PDF.

Na čo pdfocr NIE JE:

Toto funguje, iba ak PDF obsahuje informácie vo forme obrázka; ak ste exportovali PDF z OpenOffice, má už vloženú textovú vrstvu, takže tento postup je zbytočný.

Ako nainštalovať pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get aktualizácie
sudo apt-get nainštalovať pdfocr

Ako používať pdfocr:

Otvorte terminál, prejdite do adresára, kde sa nachádza PDF, ktorý chcete previesť, a zadajte nasledujúci text (nahraďte súbor input.pdf súborom PDF, ktorý chcete previesť, a output.pdf názvom nového súboru s vloženou textovou vrstvou)

pdfocr -i vstup.pdf -o výstup.pdf

Počkajte, kým sa na každej stránke PDF precvičí OCR, a vytvorí sa konečný upravený súbor. To by malo trvať niekoľko sekúnd na stránku, v závislosti od rozlíšenia súboru PDF.


Zanechajte svoj komentár

Vaša e-mailová adresa nebude zverejnená. Povinné položky sú označené *

*

*

  1. Zodpovedný za údaje: Miguel Ángel Gatón
  2. Účel údajov: Kontrolný SPAM, správa komentárov.
  3. Legitimácia: Váš súhlas
  4. Oznamovanie údajov: Údaje nebudú poskytnuté tretím stranám, iba ak to vyplýva zo zákona.
  5. Ukladanie dát: Databáza hostená spoločnosťou Occentus Networks (EU)
  6. Práva: Svoje údaje môžete kedykoľvek obmedziť, obnoviť a vymazať.

  1.   Rudolf Lara dijo

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    Čítanie zoznamu balíkov ... Hotovo
    Vytváranie stromu závislostí
    Čítajú sa informácie o stave ... Hotovo
    E: Balík pdfocr sa nepodarilo nájsť
    rodolfo @ rodolfo-desktop: ~ $

  2.   Použime Linux dijo

    Nezabudli ste pridať zodpovedajúci PPA?
    Tento PPA má pravdepodobne verzie pdfocr pre staršie verzie Ubuntu. Myslite si, že tento príspevok je už niekoľko mesiacov starý. Myšlienka je každopádne rovnaká. Prejdite na Launchpad a vyhľadajte PPA, ktorá obsahuje verzie pdfocr pre Maverick.
    Na zdravie! Pavla.

  3.   jvare dijo

    Bude to predmetom testovania, aby sme zistili, ako to funguje

  4.   Použime Linux dijo

    Do toho! Dajte nám vedieť, či ste boli úspešní !! Ak to nefunguje, môžeme sa pokúsiť pomôcť aj vám! Na zdravie! Pavla.

  5.   a01653 dijo

    Dobrý deň,
    Program som otestoval na pdf a výsledok nie je veľmi dobrý. Som zvyknutý na profesionálneho akrobata 8 a hľadal niečo podobné. Aplikácia Acrobat odovzdá pomocné programy do súborov, aby vyčistila a narovnala naskenované súbory PDF a získala tak lepší zdroj pre ocr. Viete, či existuje riešenie tohto problému.

    Pozdrav

  6.   Použime Linux dijo

    Ahoj! Počul som, že Tesseract je najlepší OCR opensource. Neviem, či to bude dobré. Tiež si musíte trochu zašpiniť ruky, aby to fungovalo. Tu je niekoľko pokynov. Ak ste úspešní, dajte nám vedieť, pretože ak to bude fungovať, pravdepodobne sa z toho nakoniec stane príspevok.

    Najskôr nainštalujte balíčky „tesseract 2.03-4“ a „imagemagick“ pomocou programu Synaptic, „xsane2tess“ z „http://download.tuxfamily.org/guadausers/guadaV4/“.

    Potom vytvorte priečinok tmp v priečinku: / home / yourusername / tmp

    Potom otvorte Xsane a nakonfigurujte ho, kartu Predvoľby–> Konfigurácia–> OCR a vyplňte nasledujúce:

    Príkaz OCR -> xsane2tess -l spa
    Voľba vstupného súboru -> -i
    Voľba výstupného súboru -> -o
    Voľba výstupu -fd interface -> -x

    V konfiguráciách Xsane na karte „Uložiť“ v časti s názvom dočasný adresár skontrolujte, či existuje priečinok „tmp“, ktorý ste vytvorili v priečinku „/ home / yourusername“.

    Nechám vám tiež stránku s podrobnosťami o tom, ako robiť OCR v Ubuntu: https://help.ubuntu.com/community/OCR

  7.   Použime Linux dijo

    Ďalšia metóda, ktorú som tam objavil x, je nasledovná:

    Za predpokladu, že skener už bol systémom pripojený a rozpoznaný

    1. Otvorím Systém> Správa> Synaptický správca balíkov (v GNOME)

    2. Vyhľadávam a framework na inštaláciu tesseract-ocr-spa (na skenovanie v španielčine) a gscan2pdf

    3. Na skenovanie otvorím Aplikácie> Grafika> gscan2pdf

    A pripravený.

  8.   Trubadúr dijo

    Ahoj kamarát, ďakujem pekne, pravdou je, že tesseract je dobrý nástroj, ale veľmi obmedzený v porovnaní s knihami s „problematickým“ skenovaním. Na druhej strane sa tento softvér ľahšie prispôsobuje ... 😀

  9.   Juan Anez dijo

    V procese digitalizácie obrázkov sa konvertujú súbory PDF-A, ktoré musia byť OCR. Aké citlivé je na výsledok skenovanie čiernobielo alebo v odtieňoch sivej? Čo sa odporúča?