Как да сканирам документи и да приложа OCR в Linux

Пробвали ли сте Simple Scan, програмата по подразбиране в Ubuntu, но сте разочаровани да видите, че тя не поддържа OCR и т.н.? В същото време XSANE твърде сложен ли е за простата задача, която сте си поставили за задача? Липсва ли ви колко лесно беше да сканирате документи с Omnipage?

Е, нищо чудно ... нека да видим как да сканираме и да извършим OCR в сканираните документи по много, много прост начин. Ще бъдете изумени от резултатите.

Как да сканирам в 2 прости стъпки

1.- инсталирам gscan2pdf & тесеракт-окр (заедно със съответния езиков пакет). Тоест, в случай че ще сканирате документи на английски, инсталирайте teseract-ocr-eng; Ако са на испански, инсталирайте тесеракт-ocr-spa и така.

sudo apt-get инсталиране gscan2pdf tesseract-ocr tesseract-ocr-spa

2.- Останалото е доста лесно за тези, които някога са сканирали и OCR документ в Windows. аз отворих gscan2pdf, сканирайте документа, отидете на Опции> OCR и изберете тесеракт като OCR двигател. Има и други двигатели, но Tesseract е най-добре представящият се двигател. И накрая, можете да запазите окончателния документ като PDF, DJVU и т.н. отивам до Файл> Запазване.

Забележка: при запазване на сканирани документи е най-добре да ги запазите във формат DJVU (качеството е същото като PDF, но има много важна разлика в размера).

Следващото видео е на английски, но е достатъчно да го видите, за да разберете как работи всичко.


Оставете вашия коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

*

*

  1. Отговорен за данните: Мигел Анхел Гатон
  2. Предназначение на данните: Контрол на СПАМ, управление на коментари.
  3. Легитимация: Вашето съгласие
  4. Съобщаване на данните: Данните няма да бъдат съобщени на трети страни, освен по законово задължение.
  5. Съхранение на данни: База данни, хоствана от Occentus Networks (ЕС)
  6. Права: По всяко време можете да ограничите, възстановите и изтриете информацията си.

  1.   анонимен каза той

    Алекс: Много геймъри имат проблем да получат «приятел на зони» с момичета, които харесват.
    След като обясни на объркана Мелиса, че не е Уолдо,
    но Hon Ludovick Watson, тя се съгласява да отиде при
    Англия. Въпросът ви също трябва да е достатъчно ПРОСТО
    за да отговори без много мисъл.

    Ето моят уеб блог - Преглед на Tao of Badass

  2.   бахитукс каза той

    Забележете, че пакетите са налични и във Fedora. 🙂

  3.   параклис каза той

    Имам два скенера, единият е Canon Scan 5000f за документи A4, а другият е Braun NovoScan, за сканиране на негативи и слайдове. След като инсталирате помощната програма gscan2 и рестартирате, не виждате нито един от скенерите. какво стана? Защо не виждате скенерите?

  4.   Нека използваме Linux каза той

    Не обиждайте приятели, но няма смисъл да OCRing математически функции.

    Във всеки случай те трябва да направят OCR на околния текст (който обяснява тези функции или каквото и да е друго) и че функциите остават като изображения.
    Наздраве! Павел.

  5.   Не от Бруклин каза той

    Хей, ако сте намерили решение на проблема си, бих искал да знам.

  6.   Хуан Валехо каза той

    Мисля, че закъснях малко, но имам въпрос. Аз съм студент по инженерство и търся някакъв начин да дигитализирам и почистя бележките си, но проблемът е, че повечето от тези бележки са пълни с математически символи, графики и функции. В момента има ли нещо, което може да ми помогне?

  7.   Нека използваме Linux каза той

    Страхотен! Хубава среща! В Arch Tesseract той е в официалните хранилища, но не и gscan2pdf. Трябва да го инсталирате чрез yaourt.

  8.   Елкалиман13142 каза той

    Благодаря ви много, много ми помогна, те отново правят linux по-приятелска грация

  9.   Нека използваме Linux каза той

    Моля! За мен е удоволствие да мога да помогна.
    Прегръдка! Павел.

  10.   лястовица каза той

    Много добре го търсих, ще опитам и ще кажа как става това.

  11.   Мауро Николас Ибаниес Жирар каза той

    Благодаря, ще опитам!

  12.   Леонардо Ернандес каза той

    Когато отида да стартирам OCR с двигателя Tesseract, той ми дава само опцията за процеса на английски, въпреки че инсталирах пакета tesseract-ocr-spa. Какво мога да направя?

  13.   jaime и isabel каза той

    изтеглете gnscaner2pdf, но той не сканира, той само търси устройства и не спира да търси след 15 минути. Какво става?