Cómo aplicar OCR a un PDF y habilitar la selección y búsqueda de texto

Supongamos que tenés un PDF que fue creado utilizando un scanner, o que te lo pasaron pero éste contiene la información en forma de imagen. El procedimiento al que debemos someter a nuestro querido PDF se llama OCR: un proceso que identifica automáticamente símbolos o caracteres que pertenecen a un determinado alfabeto, a partir de una imagen para almacenarla en forma de datos con los que podremos interactuar mediante un programa de edición de texto o similar.

pdfocr es una simple herramienta que crea un nuevo PDF con una capa de texto incrustada, lo que permite al usuario seleccionar texto y buscar palabras en él, sin cambiar el aspecto final del PDF.

Para que NO sirve pdfocr:

Esto sirve solamente si el PDF contiene la información en forma de imagen; si exportaste el PDF desde OpenOffice, ya tiene una capa de texto incrustada, por lo que este procedimiento es innecesario.

Cómo instalar pdfocr:

sudo add-apt-repository ppa:gezakovacs/pdfocr
sudo apt-get update
sudo apt-get install pdfocr

Cómo usar pdfocr:

Abrí un terminal, andá al directorio donde se encuentra el PDF que querés convertir, e ingresá lo siguiente (reemplazando input.pdf por el PDF que querés convertir y output.pdf por el nombre del nuevo archivo con la capa de texto incrustada)

pdfocr -i input.pdf -o output.pdf

Esperá a que se practique el OCR a cada una de las páginas de tu PDF y que se cree el archivo final modificado. Ello debería llevar unos segundos por páginas, dependiendo en la resolución de tu PDF.

Deja tu comentario Cancelar la respuesta

Rodolfo Lara dijo
hace 11 años

rodolfo@rodolfo-desktop:~$ sudo apt-get install pdfocr
Leyendo lista de paquetes… Hecho
Creando árbol de dependencias
Leyendo la información de estado… Hecho
E: No se ha podido localizar el paquete pdfocr
rodolfo@rodolfo-desktop:~$

Responder a Rodolfo Lara
Usemos Linux dijo
hace 11 años

Te aseguraste de agregar el PPA correspondiente?
Es probable que este PPA tenga versiones de pdfocr para versiones de Ubuntu anteriores. Pensá que este post ya tiene varios meses. De todos modos, la idea es la misma. Entrá a Launchpad y buscá un PPA que contenga versiones de pdfocr para Maverick.
Saludos! Pablo.

Responder a Usemos Linux
Jvare dijo
hace 11 años

Bueno, será cuestión de probarlo para ver que tal funciona

Responder a Jvare
Usemos Linux dijo
hace 11 años

Dale! Avisanos si tuviste éxito!! Si no funciona también podemos intentar ayudarte! Saludos! Pablo.

Responder a Usemos Linux
a01653 dijo
hace 11 años

Hola,
He probado el programa sobre un pdf y el resultado no es muy bueno. Estoy acostumbrado al acrobat profecional 8 y buscaba algo parecido. El acrobat le pasa a los ficheros utilidades para limpiar y enderezar los pdf escaneados y asi obtiene una mejor fuente para el ocr. Sabes si existe alguna solucion para esto.

Un saludo

Responder a a01653
Usemos Linux dijo
hace 11 años

Hola! He escuchado por ahi que Tesseract es el mejor OCR opensource. No sé si será bueno. Además, hay que ensuciarse un poco las manos para hacerlo funcionar. Aquí te dejo algunas instrucciones. Si tenés éxito, te ruego me lo hagas saber ya que, de funcionar, probablemente se termine convirtiendo en un post.

Primero instalar los paquetes «tesseract 2.03-4» e «imagemagick» usando Synaptic, «xsane2tess» de «http://download.tuxfamily.org/guadausers/guadaV4/».

Luego crear la carpeta tmp en: /home/tunombredeusuario/tmp

Después abrir Xsane para configurarlo, Preferencias–> Configuración–> pestaña OCR y rellenar lo siguiente:

Orden OCR –> xsane2tess -l spa
Opción del archivo de entrada –> -i
Opción del archivo de salida –> -o
Opción de salida-fd de interfaz –> -x

En configuraciones de Xsane en la pestaña de «guardar» en la parte donde dice directorio temporal asegurate de que esté la carpeta «tmp» que creaste en «/home/tunombredeusuario»

Te dejo también una página con detalles sobre cómo hace OCR en Ubuntu: https://help.ubuntu.com/community/OCR

Responder a Usemos Linux
Usemos Linux dijo
hace 11 años

Otro método que descubrí x ahí es el siguiente:

Suponiendo que el escaner ya fue conectado y reconocido por el sistema

1. Abro Sistema>Administración>Gestor de Paquete Synaptic (en GNOME)

2. Busco y marco para instalar tesseract-ocr-spa (para escanear en español) y gscan2pdf

3. Para escanear abro Aplicaciones>Gráficos>gscan2pdf

Y Listo.

Responder a Usemos Linux
Trovadordebarro dijo
hace 10 años

Oye amigo, muchas gracias, la verdad es que tesseract es una buena herramienta, pero muy limitada frente a libros con escaneo «problemático». En cambio este software se adapta con mayor facilidad… 😀

Responder a Trovadordebarro
juan anez dijo
hace 10 años

En un proceso de digitalización de Imágenes, se están convirtiendo archivos PDF-A, a estos se les debe hacer OCR. Que tan sensible al resultado es el digitalizar en Blanco y Negro ó en Escalas de Grises? Que se recomienda?

Responder a juan anez