Com escanejar documents i aplicar OCR en Linux

¿Vas intentar amb Simple Scan, el programa que ve per defecte en Ubuntu, però et desilusionaste a el veure que no suporta OCR, etc.? A el mateix temps, ¿XSane et resulta massa complicat per a la simple tasca que et vas proposar fer? ¿Estranyes el senzill que era escanejar documents amb Omnipage?

Bé, a no estranyar més ... veurem com escanejar i realitzar OCR en els docs escanejats d'una manera molt però molt senzill. Quedaràs sorprès amb els resultats.

Com escanejar en 2 simples passos

1.- instal·lar gscan2pdf & tesseract-ocr (Juntament amb el seu respectiu paquet d'idioma). O sigui, en cas que vagis a escanejar documents en anglès, instal tesseract-ocr-eng; si són en espanyol · la tesseract-ocr-spa i així.

suo apt-get install gscan2pdf tesseract-ocr tesseract-ocr-spa

2.- La resta és bastant senzill per a aquells que alguna vegada van escanejar i van fer OCR a un document en Windows. Vaig obrir gscan2pdf, Escaneja el document, andá a Opcions> OCR i selecciona tesseract com a motor de OCR. Hi ha altres motors, però Tesseract és, per lluny, el que llança millors resultats. Finalment, podeu desar el document final com PDF, DJVU, etc. anant a Arxiu> Desa.

Nota: a l'guardar els documents escanejats és millor guardar-los en format DJVU (la qualitat és la mateixa que la d'un PDF però hi ha una diferència molt important de mida).

El següent videito està en anglès però arriba amb veure-ho per entendre com funciona tot.


Deixa el teu comentari

La seva adreça de correu electrònic no es publicarà. Els camps obligatoris estan marcats amb *

*

*

  1. Responsable de les dades: Miguel Ángel Gatón
  2. Finalitat de les dades: Controlar l'SPAM, gestió de comentaris.
  3. Legitimació: El teu consentiment
  4. Comunicació de les dades: No es comunicaran les dades a tercers excepte per obligació legal.
  5. Emmagatzematge de les dades: Base de dades allotjada en Occentus Networks (UE)
  6. Drets: En qualsevol moment pots limitar, recuperar i esborrar la teva informació.

  1.   Anònim va dir

    Alex: Many gamers have problem getting «friend zoned» with girls they like.
    After Explaining to a confused Melissa that he is not Waldo,
    but The Hon Ludovick Watson, she agrees to go to
    England. Your question also needs to be SIMPLE enough
    for her to responia without a ton of thought.

    Here is my web blog - Tao of Badass Review

  2.   BachiTux va dir

    Avís que també estan disponibles els paquets en Fedora. 🙂

  3.   txapela va dir

    Tinc dos escàner, un és el Cànon Scan 5000f per a documents A4, i l'altre és Braun NovoScan, per escanejar negatius i diapositives. Després d'instal·lar la utilitat gscan2, i de reiniciar, no veu cap dels escàner. ¿Que ha passat? ¿Perquè no veu els escàner?

  4.   Fem servir Linux va dir

    Sense ofendre amics, però no té cap sentit fer OCR a funcions matemàtiques.

    En tot cas, els convé fer OCR a el text circumdant (que explica aquestes funcions o el que sigui) i que les funcions quedin com imatges.
    Salutacions! Pau.

  5.   NotFromBrooklyn va dir

    Escolta, si has donat amb una solució al teu proplema, m'agradaria saber-ho.

  6.   Juan Vallejo va dir

    Crec que arribo una mica tard però tinc una pregunta. Sóc estudiant d'enginyeria i estic buscant alguna forma de digitalitzar i passar a net els meus apunts però el problema està en què la majoria d'aquests apunts estan plens de símbols matemàtics, gràfiques i funcions. ¿Hi ha alguna cosa actualment que em pugui servir?

  7.   Fem servir Linux va dir

    Boníssim! Bona dada! En Arch Tesseract està en els repositoris oficials, però gscan2pdf no. Cal instal·lar a través d'yaourt.

  8.   Elcaliman13142 va dir

    moltes gràcies em va servir de molt, fan que linux sigui mes amistós gràcia de nou

  9.   Fem servir Linux va dir

    De res! És un plaer haver pogut ajudar.
    Una abraçada! Pau.

  10.   Martin va dir

    Molt buneo ho estava buscant provés i ja diré com va això.

  11.   Mauro Nicolau Ybáñez Girard va dir

    Gràcies, ho vaig a provar!

  12.   Leonardo Hernandez va dir

    Quan vaig a executar l'OCR amb el motor Tesseract només em dóna l'opció de el procés en Anglès tot i que vaig instal·lar el paquet tesseract-ocr-spa. ¿Que puc fer?

  13.   jaime i isabel va dir

    descarregui gnscaner2pdf però no escaneja només posa buscant dispositius i no per o sigui continua buscant Desprésde de 15 min. ¿Quepasa?