Cum să scanați documente și să aplicați OCR în Linux

Ați încercat Simple Scan, programul implicit din Ubuntu, dar ați fost dezamăgiți când ați văzut că nu acceptă OCR etc.? În același timp, este XSANE prea complicat pentru sarcina simplă pe care ți-ai propus-o să o faci? Ți-e dor de cât de ușor a fost scanarea documentelor cu Omnipage?

Ei bine, nu e de mirare ... să vedem cum să scanăm și să realizăm OCR în documentele scanate într-un mod foarte, foarte simplu. Veți fi uimiți de rezultate.

Cum se scanează în 2 pași simpli

1. - instala gscan2pdf & tesseract-ocr (împreună cu pachetul lingvistic respectiv). Adică, în cazul în care urmează să scanați documente în limba engleză, instalați tesseract-ocr-ing; Dacă sunt în spaniolă, instalați tesseract-ocr-ing Așadar.

sudo apt-get install gscan2pdf tesseract-ocr tesseract-ocr-eng

2. - Restul este destul de simplu pentru cei care au scanat vreodată și au înregistrat OCR un document în Windows. am deschis gscan2pdf, scanați documentul, accesați Opțiuni> OCR și selectați Tesseract ca motor OCR. Există alte motoare, dar Tesseract este de departe cel mai performant motor. În cele din urmă, puteți salva documentul final ca PDF, DJVU etc. merge la Fișier> Salvare.

Notă: atunci când salvați documente scanate, este mai bine să le salvați în format DJVU (calitatea este aceeași cu cea a unui PDF, dar există o diferență foarte importantă în dimensiune).

Următorul videoclip este în engleză, dar este suficient să-l vedeți pentru a înțelege cum funcționează totul.


Lasă comentariul tău

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

*

*

  1. Responsabil pentru date: Miguel Ángel Gatón
  2. Scopul datelor: Control SPAM, gestionarea comentariilor.
  3. Legitimare: consimțământul dvs.
  4. Comunicarea datelor: datele nu vor fi comunicate terților decât prin obligație legală.
  5. Stocarea datelor: bază de date găzduită de Occentus Networks (UE)
  6. Drepturi: în orice moment vă puteți limita, recupera și șterge informațiile.

  1.   Anonim el a spus

    Alex: Mulți jucători au o problemă în a-și face „prieteni împărțiți” cu fetele care le plac.
    După ce i-a explicat Melissei confuză că nu este Waldo,
    dar Onoratul Ludovick Watson, ea este de acord să meargă la
    Anglia. Întrebarea dvs. trebuie, de asemenea, să fie suficient de SIMPLĂ
    pentru ca ea să răspundă fără o grămadă de gânduri.

    Iată blogul meu web - Tao of Badass Review

  2.   bachitux el a spus

    Observați că pachetele sunt disponibile și în Fedora. 🙂

  3.   capelă el a spus

    Am două scanere, unul este Canon Scan 5000f pentru documente A4, iar celălalt este Braun NovoScan, pentru scanarea negativelor și a diapozitivelor. După instalarea utilitarului gscan2 și repornire, nu vedeți niciunul dintre scanere. Ce s-a întâmplat? De ce nu vezi scanerele?

  4.   Să folosim Linux el a spus

    Fără prieteni ofensați, dar nu are rost să funcționeze matematica OCRing.

    În orice caz, este convenabil pentru ei să OCR textul din jur (care explică acele funcții sau orice altceva) și că funcțiile rămân ca imagini.
    Noroc! Paul.

  5.   Nu de la Brooklyn el a spus

    Hei, dacă ai găsit o soluție la problema ta, aș vrea să știu.

  6.   Juan Vallejo el a spus

    Cred că am întârziat puțin, dar am o întrebare. Sunt student la inginerie și caut o modalitate de digitalizare și curățare a notelor mele, dar problema este că majoritatea acestor note sunt pline de simboluri matematice, grafice și funcții. Există în prezent ceva care să mă poată ajuta?

  7.   Să folosim Linux el a spus

    Grozav! Bună întâlnire! În Arch Tesseract se află în depozitele oficiale, dar nu și gscan2pdf. Trebuie să-l instalați prin yaourt.

  8.   elcaliman13142 el a spus

    Vă mulțumesc foarte mult că m-a ajutat foarte mult, faceți din nou grația Linux mai prietenoasă

  9.   Să folosim Linux el a spus

    Cu plăcere! Este o plăcere să fi putut ajuta.
    O imbratisare! Paul.

  10.   Martin el a spus

    Foarte bine căutam, voi încerca și voi spune cum merge.

  11.   Mauro Nicolas Ybanez Girard el a spus

    Mulțumesc, voi încerca!

  12.   Leonard Hernandez el a spus

    Când merg să rulez OCR cu motorul Tesseract, îmi oferă opțiunea procesului doar în limba engleză, chiar dacă am instalat pachetul tesseract-ocr-spa. Ce pot face?

  13.   jaime și isabel el a spus

    Descărcați gnscaner2pdf, dar nu scanează, pune doar căutarea dispozitivelor și nu pentru el, continuă să caute după 15 min. Ce faci?