Cómo escanear documentos y aplicar OCR en Linux

Kaip nuskaityti dokumentus ir pritaikyti OCR sistemoje „Linux“

Ar bandėte „Simple Scan“, numatytąją „Ubuntu“ programą, bet nusivylėte pamatę, kad ji nepalaiko OCR ir pan.? Ar tuo pačiu metu „XSANE“ yra per daug sudėtinga norint atlikti paprastą užduotį? Ar jums trūksta, kaip lengva buvo nuskaityti dokumentus naudojant „Omnipage“?

Na, nenuostabu ... pažiūrėkime, kaip nuskaityti ir atlikti OCR nuskaitytuose dokumentuose labai labai paprastai. Jūs būsite nustebinti rezultatais.

Kaip nuskaityti atlikus 2 paprastus veiksmus

1. Įrengti gscan2pdf & tesseraktas-ocr (kartu su atitinkamu kalbų paketu). Tai yra, jei ketinate nuskaityti dokumentus anglų kalba, įdiekite tesseract-ocr-eng; Jei jie yra ispanų kalba, įdiekite tesseract-ocr-eng ir tiek.

sudo apt-get install gscan2pdf tesseract-ocr tesseract-ocr-eng

2. Visa kita yra gana paprasta tiems, kurie kada nors skenavo ir OCR dokumentą „Windows“ sistemoje. atidariau gscan2pdf, nuskaitykite dokumentą, eikite į Funkcijos> OCR ir pasirinkite Testeraktas kaip OCR variklis. Yra ir kitų variklių, tačiau „Tesseract“ yra neabejotinai geriausiai veikiantis variklis. Galiausiai galite išsaugoti galutinį dokumentą kaip PDF, DJVU ir kt. ketina Failas> Išsaugoti.

Pastaba: išsaugant nuskaitytus dokumentus geriau juos išsaugoti DJVU formatu (kokybė yra tokia pati kaip PDF, tačiau yra labai svarbus dydžio skirtumas).

Šis vaizdo įrašas yra anglų kalba, tačiau pakanka jį pamatyti, kad suprastumėte, kaip viskas veikia.

Palikite komentarą Atšaukti atsakymą

anoniminis sakė
prieš 11 metai

Aleksas: Daugeliui žaidėjų kyla problema, kaip „patekti į draugus“ su patinkančiomis merginomis.
Pasimetusiai Melissai paaiškinęs, kad jis nėra Waldo,
bet The Hon Ludovick Watson ji sutinka eiti
Anglija. Jūsų klausimas taip pat turi būti pakankamai paprastas
kad ji atsakytų be daugybės minčių.

Čia yra mano internetinis dienoraštis - Tao iš Badass apžvalga

Atsakyti anonimui
„BachiTux“ sakė
prieš 11 metai

Atkreipkite dėmesį, kad paketus galima įsigyti ir „Fedora“. 🙂

Atsakykite „BachiTux“
koplyčia sakė
prieš 11 metai

Turiu du skaitytuvus, vienas yra „Canon Scan 5000f“, skirtas A4 formato dokumentams, kitas - „Braun NovoScan“, skirtas negatyvams ir skaidrėms nuskaityti. Įdiegę „gscan2“ įrankį ir perkraunami, nematote nė vieno skaitytuvo. kas nutiko? Kodėl nematote skaitytuvų?

Atsakyk koplyčiai
Panaudokime „Linux“ sakė
prieš 11 metai

Nėra įžeidžiančių draugų, bet nėra prasmės OCR matematikos funkcijoms.

Bet kokiu atveju jiems patogu OCR apgauti aplinkinį tekstą (kuris paaiškina tas ar kitas funkcijas) ir kad funkcijos išlieka kaip vaizdai.
Cheers! Paulius.

Atsakykite į „Naudokime Linux“
Ne iš Brooklyn sakė
prieš 11 metai

Ei, jei sugalvojai išspręsti savo problemą, norėčiau žinoti.

Atsakyti į NotFromBrooklyn
Juan Vallejo sakė
prieš 11 metai

Manau, kad šiek tiek vėluoju, bet man kyla klausimas. Esu inžinerijos studentas ir ieškau kažkokio būdo skaitmeninti ir išvalyti užrašus, tačiau problema ta, kad daugumoje tų užrašų gausu matematinių simbolių, grafikų ir funkcijų. Ar šiuo metu yra kažkas, kas man gali padėti?

Atsakymas Juanui Vallejo
Panaudokime „Linux“ sakė
prieš 11 metai

Puiku! Gera data! Arch Tesseract yra oficialiose saugyklose, bet ne gscan2pdf. Jūs turite jį įdiegti per „yaourt“.

Atsakykite į „Naudokime Linux“
Elcalimanas13142 sakė
prieš 11 metai

Labai ačiū, tai man labai padėjo, vėl padarykite „Linux“ draugiškesnę malonę

Atsakymas Elcaliman13142
Panaudokime „Linux“ sakė
prieš 11 metai

Prašom! Malonu, kad galėjau padėti.
Apkabinimas! Paulius.

Atsakykite į „Naudokime Linux“
kregždė sakė
prieš 11 metai

Labai gerai, aš to ieškojau, pabandysiu ir pasakysiu, kaip tai vyksta.

Atsakyti Martinui
Mauro Nicolás Ybáñezas Girardas sakė
prieš 11 metai

Aciu, pabandysiu!

Atsakymas Mauro Nicolás Ybáñez Girard
Leonardo Hernandezas sakė
prieš 10 metai

Kai einu paleisti OCR su „Tesseract“ varikliu, man suteikiama tik galimybė pasirinkti procesą angliškai, nors aš įdiegiau „tesseract-ocr-spa“ paketą. Ką aš galiu padaryti?

Atsakymas Leonardo Hernandezui
jaime ir isabel sakė
prieš 5 metai

atsisiųskite „gnscaner2pdf“, bet jis nenuskaito, ieško tik įrenginių ir nenustoja ieškoti po 15 min. Kas atsitiko?

Atsakyti į jaime ir isabel