Asiakirjojen skannaus ja OCR:n käyttäminen Linuxissa

Kuinka skannata asiakirjoja ja käyttää OCR: ää Linuxissa

Oletko kokeillut Simple Scania, Ubuntun oletusohjelmaa, mutta olet pettynyt huomatessasi, että se ei tue OCR: ää jne.? Onko XSANE samalla liian monimutkainen yksinkertaisen tehtävän suorittamiseen? Kaipaatko kuinka helppoa oli skannata asiakirjoja Omnipage-ohjelmalla?

No, ei ihme ... Katsotaanpa, kuinka skannata ja suorittaa OCR skannatuissa asiakirjoissa hyvin, hyvin yksinkertaisella tavalla. Tulet hämmästymään tuloksista.

Kuinka skannata kahdessa yksinkertaisessa vaiheessa

1.- Asentaa gscan2pdf & tesseract-okr (ja vastaava kielipaketti). Toisin sanoen, jos aiot skannata asiakirjoja englanniksi, asenna tesseract-ocr-eng; Jos ne ovat espanjaksi, asenna tesseract-ocr-eng ja niin.

sudo apt-get install gscan2pdf tesseract-ocr tesseract-ocr-eng

2.- Loput ovat melko suoraviivaisia niille, jotka ovat koskaan skannanneet ja kuvanneet asiakirjan Windowsissa. avasin gscan2pdf, skannaa asiakirja, siirry kohtaan Valinnat> Tekstintunnistus ja valitse Tesseract OCR-moottorina. On muitakin moottoreita, mutta Tesseract on ylivoimaisesti tehokkain moottori. Lopuksi voit tallentaa lopullisen asiakirjan PDF: nä, DJVU: na jne. menossa Tiedosto> Tallenna.

Huomaa: skannattuja asiakirjoja tallennettaessa on parempi tallentaa ne DJVU-muotoon (laatu on sama kuin PDF: n, mutta koossa on erittäin tärkeä ero).

Seuraava video on englanninkielinen, mutta sen katselu riittää ymmärtämään, miten kaikki toimii.

Jätä kommentti Peruuta vastaus

anonyymi dijo
sitten 11 vuotta

Alex: Monilla pelaajilla on ongelma saada "kaveri kaavoitettu" tyttöjen kanssa, joista he pitävät.
Selitettyään hämmentyneelle Melissalle, ettei hän ole Waldo,
mutta The Hon Ludovick Watson, hän suostuu menemään
Englanti. Kysymyksesi on myös oltava yksinkertainen
jotta hän voisi vastata ilman paljon ajatuksia.

Tässä on verkkoblogi - Tao of Badass arvostelu

Vastaa tuntemattomalle
bachitux dijo
sitten 11 vuotta

Huomaa, että paketteja on saatavana myös Fedorassa. 🙂

Vastaa BachiTux
kappeli dijo
sitten 11 vuotta

Minulla on kaksi skanneria, yksi on Canon Scan 5000f A4-asiakirjoille, ja toinen on Braun NovoScan negatiivien ja dioiden skannaamiseen. Kun olet asentanut gscan2-apuohjelman ja käynnistänyt sen uudelleen, et näe yhtään skanneria. mitä tapahtui? Miksi et näe skannereita?

Vastaa chapela
Käytetään Linuxia dijo
sitten 11 vuotta

Ei loukkaavia ystäviä, mutta matemaattisten funktioiden tekstintunnistuksessa ei ole mitään järkeä.

Joka tapauksessa heidän tulisi tehdä tekstintunnistus ympäröivälle tekstille (joka selittää nuo toiminnot tai mitä tahansa) ja että toiminnot pysyvät kuvina.
Kippis! Paul.

Vastaa Käytetään Linuxia
Ei Brooklynista dijo
sitten 11 vuotta

Hei, jos olet keksinyt ratkaisun ongelmasi, haluaisin tietää.

Vastaa NotFromBrooklynille
Juan Vallejo dijo
sitten 11 vuotta

Luulen, että olen vähän myöhässä, mutta minulla on kysymys. Olen insinööriopiskelija ja etsin jotakin tapaa digitalisoida ja puhdistaa muistiinpanoni, mutta ongelmana on, että suurin osa näistä muistiinpanoista on täynnä matemaattisia symboleja, kaavioita ja toimintoja. Onko tällä hetkellä jotain, joka voi auttaa minua?

Vastaa Juan Vallejo
Käytetään Linuxia dijo
sitten 11 vuotta

Loistava! Hyvä päivä! Arch Tesseractissa se on virallisissa arkistoissa, mutta ei gscan2pdf. Sinun on asennettava se yaourtin kautta.

Vastaa Käytetään Linuxia
elcaliman13142 dijo
sitten 11 vuotta

Kiitos paljon, se auttoi minua paljon, he tekevät linuxista taas ystävällisemmän armon

Vastaa Elcaliman13142: lle
Käytetään Linuxia dijo
sitten 11 vuotta

Ole hyvä! On ilo saada apua.
Halaus! Paul.

Vastaa Käytetään Linuxia
räystäspääsky dijo
sitten 11 vuotta

Etsin sitä hyvin, yritän ja kerron kuinka tämä menee.

Vastaa Martinille
Mauro Nicolas Ybanez Girard dijo
sitten 11 vuotta

Kiitos, yritän!

Vastaus Mauro Nicolás Ybáñez Girardille
Leonard Hernandez dijo
sitten 10 vuotta

Kun menen suorittamaan OCR: ää Tesseract-moottorilla, se antaa minulle vain vaihtoehdon prosessista englanniksi, vaikka asensin tesseract-ocr-spa -paketin. Mitä voin tehdä?

Vastaa Leonardo Hernandezille
jaime ja isabel dijo
sitten 5 vuotta

lataa gnscaner2pdf, mutta se ei skannaa, se etsii vain laitteita eikä lopeta hakua 15 minuutin kuluttua. Miten menee?

Vastaa jaime ja isabel