Kuinka skannata asiakirjoja ja käyttää OCR: ää Linuxissa

Oletko kokeillut Simple Scania, Ubuntun oletusohjelmaa, mutta olet pettynyt huomatessasi, että se ei tue OCR: ää jne.? Onko XSANE samalla liian monimutkainen yksinkertaisen tehtävän suorittamiseen? Kaipaatko kuinka helppoa oli skannata asiakirjoja Omnipage-ohjelmalla?

No, ei ihme ... Katsotaanpa, kuinka skannata ja suorittaa OCR skannatuissa asiakirjoissa hyvin, hyvin yksinkertaisella tavalla. Tulet hämmästymään tuloksista.

Kuinka skannata kahdessa yksinkertaisessa vaiheessa

1.- Asentaa gscan2pdf & tesseract-okr (ja vastaava kielipaketti). Toisin sanoen, jos aiot skannata asiakirjoja englanniksi, asenna tesseract-ocr-eng; Jos ne ovat espanjaksi, asenna tesseract-ocr-eng ja niin.

sudo apt-get install gscan2pdf tesseract-ocr tesseract-ocr-eng

2.- Loput ovat melko suoraviivaisia ​​niille, jotka ovat koskaan skannanneet ja kuvanneet asiakirjan Windowsissa. avasin gscan2pdf, skannaa asiakirja, siirry kohtaan Valinnat> Tekstintunnistus ja valitse Tesseract OCR-moottorina. On muitakin moottoreita, mutta Tesseract on ylivoimaisesti tehokkain moottori. Lopuksi voit tallentaa lopullisen asiakirjan PDF: nä, DJVU: na jne. menossa Tiedosto> Tallenna.

Huomaa: skannattuja asiakirjoja tallennettaessa on parempi tallentaa ne DJVU-muotoon (laatu on sama kuin PDF: n, mutta koossa on erittäin tärkeä ero).

Seuraava video on englanninkielinen, mutta sen katselu riittää ymmärtämään, miten kaikki toimii.


Jätä kommentti

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

*

*

  1. Vastuussa tiedoista: Miguel Ángel Gatón
  2. Tietojen tarkoitus: Roskapostin hallinta, kommenttien hallinta.
  3. Laillistaminen: Suostumuksesi
  4. Tietojen välittäminen: Tietoja ei luovuteta kolmansille osapuolille muutoin kuin lain nojalla.
  5. Tietojen varastointi: Occentus Networks (EU) isännöi tietokantaa
  6. Oikeudet: Voit milloin tahansa rajoittaa, palauttaa ja poistaa tietojasi.

  1.   anonyymi dijo

    Alex: Monilla pelaajilla on ongelma saada "kaveri kaavoitettu" tyttöjen kanssa, joista he pitävät.
    Selitettyään hämmentyneelle Melissalle, ettei hän ole Waldo,
    mutta The Hon Ludovick Watson, hän suostuu menemään
    Englanti. Kysymyksesi on myös oltava yksinkertainen
    jotta hän voisi vastata ilman paljon ajatuksia.

    Tässä on verkkoblogi - Tao of Badass arvostelu

  2.   bachitux dijo

    Huomaa, että paketteja on saatavana myös Fedorassa. 🙂

  3.   kappeli dijo

    Minulla on kaksi skanneria, yksi on Canon Scan 5000f A4-asiakirjoille, ja toinen on Braun NovoScan negatiivien ja dioiden skannaamiseen. Kun olet asentanut gscan2-apuohjelman ja käynnistänyt sen uudelleen, et näe yhtään skanneria. mitä tapahtui? Miksi et näe skannereita?

  4.   Käytetään Linuxia dijo

    Ei loukkaavia ystäviä, mutta matemaattisten funktioiden tekstintunnistuksessa ei ole mitään järkeä.

    Joka tapauksessa heidän tulisi tehdä tekstintunnistus ympäröivälle tekstille (joka selittää nuo toiminnot tai mitä tahansa) ja että toiminnot pysyvät kuvina.
    Kippis! Paul.

  5.   Ei Brooklynista dijo

    Hei, jos olet keksinyt ratkaisun ongelmasi, haluaisin tietää.

  6.   Juan Vallejo dijo

    Luulen, että olen vähän myöhässä, mutta minulla on kysymys. Olen insinööriopiskelija ja etsin jotakin tapaa digitalisoida ja puhdistaa muistiinpanoni, mutta ongelmana on, että suurin osa näistä muistiinpanoista on täynnä matemaattisia symboleja, kaavioita ja toimintoja. Onko tällä hetkellä jotain, joka voi auttaa minua?

  7.   Käytetään Linuxia dijo

    Loistava! Hyvä päivä! Arch Tesseractissa se on virallisissa arkistoissa, mutta ei gscan2pdf. Sinun on asennettava se yaourtin kautta.

  8.   elcaliman13142 dijo

    Kiitos paljon, se auttoi minua paljon, he tekevät linuxista taas ystävällisemmän armon

  9.   Käytetään Linuxia dijo

    Ole hyvä! On ilo saada apua.
    Halaus! Paul.

  10.   räystäspääsky dijo

    Etsin sitä hyvin, yritän ja kerron kuinka tämä menee.

  11.   Mauro Nicolas Ybanez Girard dijo

    Kiitos, yritän!

  12.   Leonard Hernandez dijo

    Kun menen suorittamaan OCR: ää Tesseract-moottorilla, se antaa minulle vain vaihtoehdon prosessista englanniksi, vaikka asensin tesseract-ocr-spa -paketin. Mitä voin tehdä?

  13.   jaime ja isabel dijo

    lataa gnscaner2pdf, mutta se ei skannaa, se etsii vain laitteita eikä lopeta hakua 15 minuutin kuluttua. Miten menee?