Jak OCR PDF a povolit výběr a vyhledávání textu

Jak OCR do PDF a povolit výběr a vyhledávání textu

Předpokládejme, že máte PDF, které bylo vytvořeno pomocí skeneru nebo které vám bylo předáno, ale obsahuje informace ve formě obrázku. Volá se postup, kterému musíme odeslat naše milované PDF OCR: proces, který automaticky identifikuje symboly nebo znaky, které patří k určité abecedě, od obrázku k jeho uložení ve formě dat, se kterými můžeme interagovat pomocí programu pro úpravy textu apod.

pdfocr je jednoduchý nástroj, který vytváří nový PDF s vloženou textovou vrstvou a umožňuje uživateli vybírat text a hledat v něm slova, aniž by změnil konečný vzhled PDF.

K čemu pdfocr NENÍ:

To funguje, pouze pokud PDF obsahuje informace ve formě obrázku; pokud jste exportovali PDF z OpenOffice, má již vloženou textovou vrstvu, takže tento postup není nutný.

Jak nainstalovat pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get install pdfocr

Jak používat pdfocr:

Otevřete terminál, přejděte do adresáře, kde se nachází soubor PDF, který chcete převést, a zadejte následující (nahraďte soubor input.pdf souborem PDF, který chcete převést, a output.pdf názvem nového souboru s vloženou textovou vrstvou)

pdfocr -i vstup.pdf -o výstup.pdf

Počkejte, až se každá stránka vašeho PDF procvičí OCR a vytvoří se finální upravený soubor. To by mělo trvat několik sekund na stránku, v závislosti na rozlišení vašeho PDF.

Zanechte svůj komentář Zrušit odpověď

Rudolf Lara řekl
před 11 let

rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Čtení seznamu balíků ... Hotovo
Vytváření stromu závislostí
Čtení informací o stavu ... Hotovo
E: Balíček pdfocr nelze najít
rodolfo @ rodolfo-desktop: ~ $

Odpověď Rodolfovi Laru
Pojďme použít Linux řekl
před 11 let

Nezapomněli jste přidat odpovídající PPA?
Tento PPA pravděpodobně obsahuje verze pdfocr pro starší verze Ubuntu. Mysli na to, že tento příspěvek je již starý několik měsíců. Myšlenka je stejná. Přejděte na Launchpad a vyhledejte PPA, která obsahuje verze pdfocr pro Maverick.
Na zdraví! Pavel.

Odpovězte na Pojďme používat Linux
jvare řekl
před 11 let

Bude to otázkou testování, abychom zjistili, jak to funguje

Odpovědět Jvare
Pojďme použít Linux řekl
před 11 let

Pokračuj! Dejte nám vědět, pokud jste byli úspěšní !! Pokud to nefunguje, můžeme se také pokusit vám pomoci! Na zdraví! Pavel.

Odpovězte na Pojďme používat Linux
a01653 řekl
před 11 let

Dobrý den,
Testoval jsem program ve formátu PDF a výsledek není příliš dobrý. Jsem zvyklý na profesionální akrobat 8 a hledal něco podobného. Acrobat předává do souborů nástroje, které čistí a narovnávají naskenované soubory PDF, a tak získávají lepší zdroj pro OCR. Víte, jestli pro to existuje řešení.

pozdravy

Odpověď na a01653
Pojďme použít Linux řekl
před 11 let

Ahoj! Slyšel jsem, že Tesseract je nejlepší OCR opensource. Nevím, jestli to bude dobré. Také si musíte trochu zašpinit ruce, aby to fungovalo. Zde je několik pokynů. Pokud jste úspěšní, dejte mi prosím vědět, protože pokud to bude fungovat, pravděpodobně se nakonec stane příspěvkem.

Nejprve nainstalujte balíčky „tesseract 2.03-4“ a „imagemagick“ pomocí Synaptic, „xsane2tess“ z „http://download.tuxfamily.org/guadausers/guadaV4/“.

Poté vytvořte složku tmp v: / home / yourusername / tmp

Poté otevřete Xsane pro jeho konfiguraci, Předvolby–> Konfigurace–> karta OCR a vyplňte následující:

Příkaz OCR -> xsane2tess -l spa
Možnost vstupního souboru -> -i
Možnost výstupního souboru -> -o
Možnost výstupu -fd interface -> -x

V konfiguracích Xsane na kartě „Uložit“ v části, kde je uveden dočasný adresář, zkontrolujte, zda existuje složka „tmp“, kterou jste vytvořili v „/ home / yourusername“.

Také vám nechám stránku s podrobnostmi o tom, jak dělat OCR v Ubuntu: https://help.ubuntu.com/community/OCR

Odpovězte na Pojďme používat Linux
Pojďme použít Linux řekl
před 11 let

Další metoda, kterou jsem tam objevil x, je následující:

Za předpokladu, že skener již byl připojen a systém jej rozpoznal

1. Otevřu Systém> Správa> Synaptic Package Manager (v GNOME)

2. Hledám a framework pro instalaci tesseract-ocr-spa (pro skenování ve španělštině) a gscan2pdf

3. Pro skenování otevřu Aplikace> Grafika> gscan2pdf

A připraven.

Odpovězte na Pojďme používat Linux
Trubadúr řekl
před 10 let

Ahoj příteli, moc děkuji, pravdou je, že tesseract je dobrý nástroj, ale velmi omezený ve srovnání s knihami s „problematickým“ skenováním. Na druhou stranu se tento software přizpůsobuje snadněji ... 😀

Odpovědět Trovadordebarro
Juan Anez řekl
před 10 let

V procesu digitalizace obrázků se soubory PDF-A převádějí, musí být OCRed. Jak citlivé je na výsledek skenování černobíle nebo ve stupních šedi? Co se doporučuje?

Odpovědět juan anez