Kako skenirati dokumente in uporabiti OCR v Linuxu

Ste že poskusili Simple Scan, privzeti program v Ubuntuju, vendar ste bili razočarani, ko ste ugotovili, da ne podpira OCR itd.? Je hkrati XSANE prezapleten za preprosto nalogo, ki ste si jo zastavili? Ali pogrešate, kako enostavno je bilo skeniranje dokumentov z Omnipage?

No, ni čudno ... poglejmo, kako skenirati in izvesti OCR v zelo skeniranih dokumentih na zelo, zelo preprost način. Presenečeni boste nad rezultati.

Kako skenirati v dveh preprostih korakih

1.- namestitev gscan2pdf & teserakt-okr (skupaj z ustreznim jezikovnim paketom). To pomeni, da v primeru, da boste dokumente optično prebrali v angleščini, namestite teseract-ocr-eng; Če so v španščini, namestite teseract-ocr-spa in tako.

sudo apt-get namestite gscan2pdf tesseract-ocr tesseract-ocr-spa

2.- Ostalo je precej preprosto za tiste, ki so v sistemu Windows kdajkoli optično prebrali in optično prepoznali dokument. Odprl sem gscan2pdf, skenirajte dokument, pojdite na Možnosti> OCR in izberite Teseract kot OCR motor. Obstajajo tudi drugi motorji, toda Tesseract je daleč najuspešnejši motor. Končno lahko končni dokument shranite kot PDF, DJVU itd. bo Datoteka> Shrani.

Opomba: pri shranjevanju optično prebranih dokumentov je bolje, da jih shranite v obliki DJVU (kakovost je enaka kakovosti PDF, vendar je zelo pomembna razlika v velikosti).

Naslednji video je v angleščini, vendar je dovolj, da si ga ogledate, da razumete, kako vse deluje.


Pustite svoj komentar

Vaš e-naslov ne bo objavljen. Obvezna polja so označena z *

*

*

  1. Za podatke odgovoren: Miguel Ángel Gatón
  2. Namen podatkov: Nadzor neželene pošte, upravljanje komentarjev.
  3. Legitimacija: Vaše soglasje
  4. Sporočanje podatkov: Podatki se ne bodo posredovali tretjim osebam, razen po zakonski obveznosti.
  5. Shranjevanje podatkov: Zbirka podatkov, ki jo gosti Occentus Networks (EU)
  6. Pravice: Kadar koli lahko omejite, obnovite in izbrišete svoje podatke.

  1.   anonimni je dejal

    Alex: Številni igralci igrajo s težavo, da bi postali "prijatelji" z dekleti, ki jih imajo radi.
    Potem ko je zmedeni Melissi razložil, da ni Waldo,
    toda Hon Ludovick Watson se strinja, da bo šla
    Anglija. Tudi vaše vprašanje mora biti dovolj preprosto
    da bi se odzvala brez tone misli.

    Tu je moj spletni dnevnik - Pregled Tao of Badass

  2.   bachitux je dejal

    Upoštevajte, da so paketi na voljo tudi v Fedori. 🙂

  3.   kapela je dejal

    Imam dva optična bralnika, eden je Canon Scan 5000f za dokumente A4, drugi pa Braun NovoScan, za skeniranje negativov in diapozitivov. Po namestitvi pripomočka gscan2 in ponovnem zagonu ne vidite nobenega optičnega bralnika. kaj se je zgodilo? Zakaj ne vidite optičnih bralnikov?

  4.   Uporabimo Linux je dejal

    Brez zamere prijatelji, vendar ni smisla OCRing matematičnih funkcij.

    V vsakem primeru bi morali narediti OCR na okoliško besedilo (ki pojasnjuje te funkcije ali kar koli drugega) in da funkcije ostanejo kot slike.
    Na zdravje! Paul.

  5.   Ne iz Brooklyna je dejal

    Hej, če si našel rešitev za svojo težavo, bi rad vedel.

  6.   Juan Vallejo je dejal

    Mislim, da sem malo pozen, vendar imam vprašanje. Sem študent tehnike in iščem način za digitalizacijo in čiščenje zapiskov, vendar je težava v tem, da je večina zapiskov polna matematičnih simbolov, grafov in funkcij. Ali mi trenutno lahko kaj pomaga?

  7.   Uporabimo Linux je dejal

    Super! Dober zmenek! V Arch Tesseract je v uradnih skladiščih, ne pa tudi v gscan2pdf. Namestiti ga morate prek svojega leta.

  8.   elcaliman13142 je dejal

    Najlepša hvala, zelo mi je pomagalo, znova so naredili linux bolj prijazno milost

  9.   Uporabimo Linux je dejal

    Ni za kaj! V veselje mi je, da sem lahko pomagal.
    Objem! Paul.

  10.   Martin je dejal

    Zelo dobro sem ga iskal, poskusil bom in povedal, kako to poteka.

  11.   Mauro Nicolas Ybanez Girard je dejal

    Hvala, poskusil bom!

  12.   Leonard Hernandez je dejal

    Ko grem zagnati OCR z motorjem Tesseract, mi da samo možnost postopka v angleščini, čeprav sem namestil paket tesseract-ocr-spa. Kaj lahko naredim?

  13.   jaime in isabel je dejal

    prenesite gnscaner2pdf, vendar ne skenira, išče samo naprave in ne ustavi iskanja po 15 minutah. Kaj se dogaja?