Cómo escanear documentos y aplicar OCR en Linux

¿Intentaste con Simple Scan, el programa que viene por defecto en Ubuntu, pero te desilusionaste al ver que no soporta OCR, etc.? Al mismo tiempo, ¿XSANE te resulta demasiado complicado para la simple tarea que te propusiste realizar? ¿Extrañás lo sencillo que era escanear documentos con Omnipage?

Bueno, a no extrañar más… vamos a ver cómo escanear y realizar OCR en los docs escaneados de un modo muy pero muy sencillo. Vas a quedar asombrado con los resultados.

Cómo escanear en 2 simples pasos

1.- Instalar gscan2pdf & tesseract-ocr (junto con su respectivo paquete de idioma). O sea, en caso de que vayas a escanear documentos en inglés, instalá tesseract-ocr-eng; si son en español instalá tesseract-ocr-spa y así.

sudo apt-get install gscan2pdf tesseract-ocr tesseract-ocr-spa

2.- El resto es bastante sencillo para aquellos que alguna vez escanearon e hicieron OCR a un documento en Windows. Abrí gscan2pdf, escaneá el documento, andá a Opciones > OCR y seleccioná Tesseract como motor de OCR. Existen otros motores, pero Tesseract es, por lejos, el que arroja mejores resultados. Por último, podés guardar el documento final como PDF, DJVU, etc. yendo a Archivo > Guardar.

Nota: al guardar los documentos escaneados es mejor guardarlos en formato DJVU (la calidad es la misma que la de un PDF pero hay una diferencia muy importante de tamaño).

El siguiente videito está en inglés pero alcanza con verlo para entender cómo funciona todo.

Deja tu comentario Cancelar la respuesta

Anonymous dijo
hace 11 años

Alex: Many gamers have a problem getting «friend zoned» with girls they like.
After explaining to a confused Melissa that he is not Waldo,
but The Hon Ludovick Watson, she agrees to go to
England. Your question also needs to be SIMPLE enough
for her to respond without a ton of thought.

Here is my web blog – Tao of Badass Review

Responder a Anonymous
BachiTux dijo
hace 11 años

Aviso que también están disponibles los paquetes en Fedora. 🙂

Responder a BachiTux
chapela dijo
hace 11 años

Tengo dos escáner, uno es el Canon Scan 5000f para documentos A4, y el otro es Braun NovoScan, para escanear negativos y diapositivas. Después de instalar la utilidad gscan2, y de reiniciar el sistema, no ve ninguno de los escáner. ¿que ha pasado? ¿porque no ve los escaner?

Responder a chapela
Usemos Linux dijo
hace 11 años

Sin ofender amigos, pero no tiene ningún sentido realizar OCR a funciones matemáticas.

En todo caso, les conviene realizar OCR al texto circundante (que explica dichas funciones o lo que sea) y que las funciones queden como imágenes.
Saludos! Pablo.

Responder a Usemos Linux
NotFromBrooklyn dijo
hace 11 años

Oye, si has dado con una solución a tu proplema, me gustaría saberlo.

Responder a NotFromBrooklyn
Juan Vallejo dijo
hace 11 años

Creo que llego un poco tarde pero tengo una pregunta. Soy estudiante de ingeniería y estoy buscando alguna forma de digitalizar y pasar a limpio mis apuntes pero el problema está en que la mayoría de esos apuntes están plagados de símbolos matemáticos, gráficas y funciones. ¿hay algo actualmente que me pueda servir?

Responder a Juan Vallejo
Usemos Linux dijo
hace 11 años

Buenísimo! Buen dato! En Arch Tesseract está en los repositorios oficiales, pero gscan2pdf no. Hay que instalarlo a través de yaourt.

Responder a Usemos Linux
Elcaliman13142 dijo
hace 11 años

muchas gracias me sirvio de mucho, hacen que linux sea mas amistoso gracia de nuevo

Responder a Elcaliman13142
Usemos Linux dijo
hace 11 años

De nada! Es un placer haber podido ayudar.
Un abrazo! Pablo.

Responder a Usemos Linux
Martin dijo
hace 11 años

Muy buneo lo estaba buscando probare y ya dire como va esto.

Responder a Martin
Mauro Nicolás Ybáñez Girard dijo
hace 11 años

Gracias, lo voy a probar!

Responder a Mauro Nicolás Ybáñez Girard
Leonardo Hernandez dijo
hace 10 años

Cuando voy a ejecutar el OCR con el motor Tesseract solo me da la opción del proceso en Inglés a pesar de que instalé el paquete tesseract-ocr-spa. ¿que puedo hacer?

Responder a Leonardo Hernandez
jaime e isabel dijo
hace 5 años

descargue gnscaner2pdf pero no escanea solo pone buscando dispositivos y no para osea sigue buscando despuesde de 15 min. ¿quepasa?

Responder a jaime e isabel