Jak OCR do PDF a povolit výběr a vyhledávání textu

Předpokládejme, že máte PDF, které bylo vytvořeno pomocí skeneru nebo které vám bylo předáno, ale obsahuje informace ve formě obrázku. Volá se postup, kterému musíme odeslat naše milované PDF OCR: proces, který automaticky identifikuje symboly nebo znaky, které patří k určité abecedě, od obrázku k jeho uložení ve formě dat, se kterými můžeme interagovat pomocí programu pro úpravy textu apod.


pdfocr je jednoduchý nástroj, který vytváří nový PDF s vloženou textovou vrstvou a umožňuje uživateli vybírat text a hledat v něm slova, aniž by změnil konečný vzhled PDF.

K čemu pdfocr NENÍ:

To funguje, pouze pokud PDF obsahuje informace ve formě obrázku; pokud jste exportovali PDF z OpenOffice, má již vloženou textovou vrstvu, takže tento postup není nutný.

Jak nainstalovat pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get install pdfocr

Jak používat pdfocr:

Otevřete terminál, přejděte do adresáře, kde se nachází soubor PDF, který chcete převést, a zadejte následující (nahraďte soubor input.pdf souborem PDF, který chcete převést, a output.pdf názvem nového souboru s vloženou textovou vrstvou)

pdfocr -i vstup.pdf -o výstup.pdf

Počkejte, až se každá stránka vašeho PDF procvičí OCR a vytvoří se finální upravený soubor. To by mělo trvat několik sekund na stránku, v závislosti na rozlišení vašeho PDF.


Zanechte svůj komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *

*

*

  1. Odpovědný za údaje: Miguel Ángel Gatón
  2. Účel údajů: Ovládací SPAM, správa komentářů.
  3. Legitimace: Váš souhlas
  4. Sdělování údajů: Údaje nebudou sděleny třetím osobám, s výjimkou zákonných povinností.
  5. Úložiště dat: Databáze hostovaná společností Occentus Networks (EU)
  6. Práva: Vaše údaje můžete kdykoli omezit, obnovit a odstranit.

  1.   Rudolf Lara řekl

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    Čtení seznamu balíků ... Hotovo
    Vytváření stromu závislostí
    Čtení informací o stavu ... Hotovo
    E: Balíček pdfocr nelze najít
    rodolfo @ rodolfo-desktop: ~ $

  2.   Pojďme použít Linux řekl

    Nezapomněli jste přidat odpovídající PPA?
    Tento PPA pravděpodobně obsahuje verze pdfocr pro starší verze Ubuntu. Mysli na to, že tento příspěvek je již starý několik měsíců. Myšlenka je stejná. Přejděte na Launchpad a vyhledejte PPA, která obsahuje verze pdfocr pro Maverick.
    Na zdraví! Pavel.

  3.   jvare řekl

    Bude to otázkou testování, abychom zjistili, jak to funguje

  4.   Pojďme použít Linux řekl

    Pokračuj! Dejte nám vědět, pokud jste byli úspěšní !! Pokud to nefunguje, můžeme se také pokusit vám pomoci! Na zdraví! Pavel.

  5.   a01653 řekl

    Dobrý den,
    Testoval jsem program ve formátu PDF a výsledek není příliš dobrý. Jsem zvyklý na profesionální akrobat 8 ​​a hledal něco podobného. Acrobat předává do souborů nástroje, které čistí a narovnávají naskenované soubory PDF, a tak získávají lepší zdroj pro OCR. Víte, jestli pro to existuje řešení.

    pozdravy

  6.   Pojďme použít Linux řekl

    Ahoj! Slyšel jsem, že Tesseract je nejlepší OCR opensource. Nevím, jestli to bude dobré. Také si musíte trochu zašpinit ruce, aby to fungovalo. Zde je několik pokynů. Pokud jste úspěšní, dejte mi prosím vědět, protože pokud to bude fungovat, pravděpodobně se nakonec stane příspěvkem.

    Nejprve nainstalujte balíčky „tesseract 2.03-4“ a „imagemagick“ pomocí Synaptic, „xsane2tess“ z „http://download.tuxfamily.org/guadausers/guadaV4/“.

    Poté vytvořte složku tmp v: / home / yourusername / tmp

    Poté otevřete Xsane pro jeho konfiguraci, Předvolby–> Konfigurace–> karta OCR a vyplňte následující:

    Příkaz OCR -> xsane2tess -l spa
    Možnost vstupního souboru -> -i
    Možnost výstupního souboru -> -o
    Možnost výstupu -fd interface -> -x

    V konfiguracích Xsane na kartě „Uložit“ v části, kde je uveden dočasný adresář, zkontrolujte, zda existuje složka „tmp“, kterou jste vytvořili v „/ home / yourusername“.

    Také vám nechám stránku s podrobnostmi o tom, jak dělat OCR v Ubuntu: https://help.ubuntu.com/community/OCR

  7.   Pojďme použít Linux řekl

    Další metoda, kterou jsem tam objevil x, je následující:

    Za předpokladu, že skener již byl připojen a systém jej rozpoznal

    1. Otevřu Systém> Správa> Synaptic Package Manager (v GNOME)

    2. Hledám a framework pro instalaci tesseract-ocr-spa (pro skenování ve španělštině) a gscan2pdf

    3. Pro skenování otevřu Aplikace> Grafika> gscan2pdf

    A připraven.

  8.   Trubadúr řekl

    Ahoj příteli, moc děkuji, pravdou je, že tesseract je dobrý nástroj, ale velmi omezený ve srovnání s knihami s „problematickým“ skenováním. Na druhou stranu se tento software přizpůsobuje snadněji ... 😀

  9.   Juan Anez řekl

    V procesu digitalizace obrázků se soubory PDF-A převádějí, musí být OCRed. Jak citlivé je na výsledek skenování černobíle nebo ve stupních šedi? Co se doporučuje?