Paano mag-scan ng mga dokumento at ilapat ang OCR sa Linux

Nasubukan mo na ba ang Simple Scan, ang default na programa ng Ubuntu, ngunit nabigo na makita na hindi nito sinusuportahan ang OCR, atbp.? Sa parehong oras, ang XSANE ay masyadong kumplikado para sa simpleng gawain na itinakda mong gawin? Na-miss mo ba kung gaano kadali ang pag-scan ng mga dokumento sa Omnipage?

Sa gayon, hindi nakakagulat ... tingnan natin kung paano i-scan at isagawa ang OCR sa mga na-scan na dokumento sa isang napaka, napaka-simpleng paraan. Mamangha ka sa mga resulta.

Paano mag-scan sa 2 simpleng mga hakbang

1. I-install gscan2pdf & tesseract-ocr (kasama ang kani-kanilang pack ng wika). Iyon ay, kung sakaling mag-scan ka ng mga dokumento sa Ingles, i-install tesseract-ocr-eng; Kung ang mga ito ay Espanyol, i-install tesseract-ocr-eng at kung gayon.

sudo apt-get install gscan2pdf tesseract-ocr tesseract-ocr-spa

2. Ang natitira ay medyo prangka para sa iyo na na-scan at nag-OCR ng isang dokumento sa Windows. binuksan ko gscan2pdf, i-scan ang dokumento, pumunta sa Mga Pagpipilian> OCR at piliin tesseract bilang isang makina ng OCR. Mayroong iba pang mga engine, ngunit ang Tesseract ay ang pinakamahusay na gumaganap na engine. Panghuli, maaari mong i-save ang panghuling dokumento bilang PDF, DJVU, atbp. papunta sa File> I-save.

Tandaan: kapag nagse-save ng mga na-scan na dokumento mas mahusay na i-save ang mga ito sa format na DJVU (ang kalidad ay kapareho ng isang PDF ngunit may isang napakahalagang pagkakaiba sa laki).

Ang sumusunod na video ay nasa English ngunit sapat na upang makita ito upang maunawaan kung paano gumagana ang lahat.


Ang nilalaman ng artikulo ay sumusunod sa aming mga prinsipyo ng etika ng editoryal. Upang mag-ulat ng isang pag-click sa error dito.

13 na puna, iwan mo na ang iyo

Iwanan ang iyong puna

Ang iyong email address ay hindi nai-publish.

*

*

  1. Responsable para sa data: Miguel Ángel Gatón
  2. Layunin ng data: Kontrolin ang SPAM, pamamahala ng komento.
  3. Legitimation: Ang iyong pahintulot
  4. Komunikasyon ng data: Ang data ay hindi maiparating sa mga third party maliban sa ligal na obligasyon.
  5. Imbakan ng data: Ang database na naka-host ng Occentus Networks (EU)
  6. Mga Karapatan: Sa anumang oras maaari mong limitahan, mabawi at tanggalin ang iyong impormasyon.

  1.   hindi kilala dijo

    Alex: Maraming mga manlalaro ang may problema sa pagkuha «kaibigan zoned» sa mga batang babae na gusto nila.
    Matapos ipaliwanag sa isang nalilito na Melissa na hindi siya si Waldo,
    ngunit ang Hon Ludovick Watson, sumasang-ayon siyang puntahan
    Inglatera. Ang iyong katanungan ay kailangan ding maging sapat na SIMPLE
    para sa kanya upang tumugon nang walang isang toneladang pag-iisip.

    Narito ang aking web blog - Tao ng Badass Review

  2.   bachitux dijo

    Pansinin na ang mga pakete ay magagamit din sa Fedora. 🙂

  3.   kapilya dijo

    Mayroon akong dalawang mga scanner, ang isa ay ang Canon Scan 5000f para sa mga dokumento ng A4, at ang isa pa ay ang Braun NovoScan, para sa pag-scan ng mga negatibo at slide. Pagkatapos i-install ang utility ng gscan2, at pag-reboot, wala kang makitang anumang mga scanner. anong nangyari? Bakit hindi mo makita ang mga scanner?

  4.   Gumamit tayo ng Linux dijo

    Walang mga kaibigan ng pagkakasala, ngunit walang point sa pag-andar ng OCRing matematika.

    Sa anumang kaso, dapat silang gumawa ng OCR sa nakapalibot na teksto (na nagpapaliwanag sa mga pagpapaandar na iyon o kung ano man) at na ang mga pagpapaandar ay mananatili bilang mga imahe.
    Cheers! Paul

  5.   HindiFromBrooklyn dijo

    Hoy, kung nakagawa ka ng isang solusyon sa iyong problema, nais kong malaman.

  6.   Juan Vallejo dijo

    Medyo huli na yata ako pero may tanong ako. Isa akong mag-aaral sa engineering at naghahanap ako ng ilang paraan upang mai-digitize at linisin ang aking mga tala, ngunit ang problema ay ang karamihan sa mga tala na iyon ay puno ng mga simbolo ng matematika, grapiko, at pag-andar. Mayroon bang kasalukuyang bagay na makakatulong sa akin?

  7.   Gumamit tayo ng Linux dijo

    Malaki! Magandang date! Sa Arch Tesseract ito ay nasa opisyal na mga repository, ngunit hindi gscan2pdf. Kailangan mong i-install ito sa pamamagitan ng iyoourt.

  8.   elcaliman13142 dijo

    Maraming salamat sa iyo, malaki ang naitulong nito sa akin, ginawan nila ng mas friendly na biyaya muli

  9.   Gumamit tayo ng Linux dijo

    Walang problema! Isang kasiyahan na nakatulong.
    Isang yakap! Paul

  10.   Martin dijo

    Napakahusay na hinahanap ko ito, susubukan ko at sasabihin ko kung paano ito nangyayari.

  11.   Mauro Nicolas Ybanez Girard dijo

    Salamat, susubukan ko!

  12.   Leonard Hernandez dijo

    Kapag nagpunta ako upang patakbuhin ang OCR gamit ang makina ng Tesseract binibigyan lamang ako nito ng pagpipilian ng proseso sa Ingles kahit na na-install ko ang package na tesseract-ocr-spa. Ano ang magagawa ko?

  13.   jaime at isabel dijo

    Mag-download ng gnscaner2pdf ngunit hindi ito nag-scan, naghahanap lamang ito ng mga aparato at hindi para dito, patuloy itong naghahanap pagkatapos ng 15 minuto. Anong meron

bool (totoo)