Jak skenovat dokumenty a používat OCR v systému Linux

Vyzkoušeli jste Simple Scan, výchozí program Ubuntu, ale byli jste zklamaní, že nepodporuje OCR atd.? Je zároveň XSANE příliš komplikovaný pro jednoduchý úkol, který jste si stanovili? Chybí vám, jak snadné bylo skenovat dokumenty pomocí Omnipage?

Není divu ... pojďme se podívat, jak skenovat a provádět OCR v naskenovaných dokumentech velmi, velmi jednoduchým způsobem. Výsledky vás ohromí.

Jak skenovat ve 2 jednoduchých krocích

1.- Instalovat gscan2pdf & tesseract-ocr (spolu s příslušnou jazykovou sadou). To znamená, že pokud se chystáte skenovat dokumenty v angličtině, nainstalujte si tesseract-ocr-eng; Pokud jsou ve španělštině, nainstalujte si tesseract-ocr-eng a tak.

sudo apt-get install gscan2pdf tesseract-ocr tesseract-ocr-eng

2.- Zbytek je docela přímočarý pro ty z vás, kteří někdy skenovali a OCR dokumentovali ve Windows. otevřel jsem gscan2pdf, naskenujte dokument, přejděte na Možnosti> OCR a vyberte Tesserakt jako OCR engine. Existují i ​​jiné motory, ale Tesseract je zdaleka nejvýkonnějším motorem. Nakonec můžete finální dokument uložit jako PDF, DJVU atd. chystat se Soubor> Uložit.

Poznámka: Při ukládání naskenovaných dokumentů je nejlepší je ukládat ve formátu DJVU (kvalita je stejná jako ve formátu PDF, ale existuje velmi důležitý rozdíl ve velikosti).

Následující video je v angličtině, ale stačí ho vidět, abyste pochopili, jak vše funguje.


Zanechte svůj komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *

*

*

  1. Odpovědný za údaje: Miguel Ángel Gatón
  2. Účel údajů: Ovládací SPAM, správa komentářů.
  3. Legitimace: Váš souhlas
  4. Sdělování údajů: Údaje nebudou sděleny třetím osobám, s výjimkou zákonných povinností.
  5. Úložiště dat: Databáze hostovaná společností Occentus Networks (EU)
  6. Práva: Vaše údaje můžete kdykoli omezit, obnovit a odstranit.

  1.   Anonymní řekl

    Alex: Mnoho hráčů má problém dostat «kamarádské pásmo» s dívkami, které mají rádi.
    Poté, co zmatené Melisse vysvětlil, že není Waldo,
    ale Hon Ludovick Watson, souhlasí, že půjde
    Anglie. Vaše otázka také musí být dostatečně JEDNODUCHÁ
    aby odpověděla bez hromady myšlenek.

    Tady je můj webový blog - Tao of Badass recenze

  2.   bachitux řekl

    Všimněte si, že balíčky jsou k dispozici také ve Fedoře. 🙂

  3.   kaple řekl

    Mám dva skenery, jeden je Canon Scan 5000f pro dokumenty A4 a druhý je Braun NovoScan pro skenování negativů a diapozitivů. Po instalaci obslužného programu gscan2 a restartu se nezobrazí žádný ze skenerů. co se stalo? Proč nevidíte skenery?

  4.   Pojďme použít Linux řekl

    Žádní přátelé, ale v matematických funkcích OCRing nemá smysl.

    V každém případě by měli provést OCR s okolním textem (což vysvětluje tyto funkce nebo cokoli jiného) a že tyto funkce zůstanou jako obrázky.
    Na zdraví! Pavel.

  5.   Ne z Brooklynu řekl

    Hej, pokud jsi přišel s řešením svého problému, rád bych věděl.

  6.   Juan Vallejo řekl

    Myslím, že jsem trochu pozdě, ale mám otázku. Jsem student inženýrství a hledám nějaký způsob, jak digitalizovat a vyčistit své poznámky, ale problém je, že většina těchto poznámek je plná matematických symbolů, grafů a funkcí. Existuje v současné době něco, co mi může pomoci?

  7.   Pojďme použít Linux řekl

    Skvělý! Dobré rande! V Arch Tesseract je v oficiálních úložištích, ale ne v gscan2pdf. Musíte si jej nainstalovat přes yaourt.

  8.   elcaliman13142 řekl

    Mockrát vám děkuji, že mi to hodně pomohlo, linux zase dělají přátelštější milost

  9.   Pojďme použít Linux řekl

    Nemáš zač! Je mi potěšením pomoci.
    Objetí! Pavel.

  10.   Martin řekl

    Velmi dobře, hledal jsem to, zkusím to a řeknu, jak to půjde.

  11.   Mauro Nicolas Ybanez Girard řekl

    Díky, zkusím to!

  12.   Leonardo Hernandez řekl

    Když jdu spustit OCR s motorem Tesseract, dává mi to pouze možnost procesu v angličtině, i když jsem nainstaloval balíček tesseract-ocr-spa. Co mohu udělat?

  13.   jaime a isabel řekl

    Stáhnout gnscaner2pdf, ale nekontroluje, pouze vyhledává zařízení a ne, pokračuje v hledání po 15 minutách. Co se děje?