Cómo aplicar OCR a un PDF y habilitar la selección y búsqueda de texto

Supongamos que tenés un PDF que fue creado utilizando un scanner, o que te lo pasaron pero éste contiene la información en forma de imagen. El procedimiento al que debemos someter a nuestro querido PDF se llama OCR: un proceso que identifica automáticamente símbolos o caracteres que pertenecen a un determinado alfabeto, a partir de una imagen para almacenarla en forma de datos con los que podremos interactuar mediante un programa de edición de texto o similar.


pdfocr es una simple herramienta que crea un nuevo PDF con una capa de texto incrustada, lo que permite al usuario seleccionar texto y buscar palabras en él, sin cambiar el aspecto final del PDF.

Para que NO sirve pdfocr:

Esto sirve solamente si el PDF contiene la información en forma de imagen; si exportaste el PDF desde OpenOffice, ya tiene una capa de texto incrustada, por lo que este procedimiento es innecesario.

Cómo instalar pdfocr:

sudo add-apt-repository ppa:gezakovacs/pdfocr
sudo apt-get update
sudo apt-get install pdfocr

Cómo usar pdfocr:

Abrí un terminal, andá al directorio donde se encuentra el PDF que querés convertir, e ingresá lo siguiente (reemplazando input.pdf por el PDF que querés convertir y output.pdf por el nombre del nuevo archivo con la capa de texto incrustada)

pdfocr -i input.pdf -o output.pdf

Esperá a que se practique el OCR a cada una de las páginas de tu PDF y que se cree el archivo final modificado. Ello debería llevar unos segundos por páginas, dependiendo en la resolución de tu PDF.


Deja tu comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

*

*

  1. Responsable de los datos: Miguel Ángel Gatón
  2. Finalidad de los datos: Controlar el SPAM, gestión de comentarios.
  3. Legitimación: Tu consentimiento
  4. Comunicación de los datos: No se comunicarán los datos a terceros salvo por obligación legal.
  5. Almacenamiento de los datos: Base de datos alojada en Occentus Networks (UE)
  6. Derechos: En cualquier momento puedes limitar, recuperar y borrar tu información.

  1.   Rodolfo Lara dijo

    rodolfo@rodolfo-desktop:~$ sudo apt-get install pdfocr
    Leyendo lista de paquetes… Hecho
    Creando árbol de dependencias
    Leyendo la información de estado… Hecho
    E: No se ha podido localizar el paquete pdfocr
    rodolfo@rodolfo-desktop:~$

  2.   Usemos Linux dijo

    Te aseguraste de agregar el PPA correspondiente?
    Es probable que este PPA tenga versiones de pdfocr para versiones de Ubuntu anteriores. Pensá que este post ya tiene varios meses. De todos modos, la idea es la misma. Entrá a Launchpad y buscá un PPA que contenga versiones de pdfocr para Maverick.
    Saludos! Pablo.

  3.   Jvare dijo

    Bueno, será cuestión de probarlo para ver que tal funciona

  4.   Usemos Linux dijo

    Dale! Avisanos si tuviste éxito!! Si no funciona también podemos intentar ayudarte! Saludos! Pablo.

  5.   a01653 dijo

    Hola,
    He probado el programa sobre un pdf y el resultado no es muy bueno. Estoy acostumbrado al acrobat profecional 8 y buscaba algo parecido. El acrobat le pasa a los ficheros utilidades para limpiar y enderezar los pdf escaneados y asi obtiene una mejor fuente para el ocr. Sabes si existe alguna solucion para esto.

    Un saludo

  6.   Usemos Linux dijo

    Hola! He escuchado por ahi que Tesseract es el mejor OCR opensource. No sé si será bueno. Además, hay que ensuciarse un poco las manos para hacerlo funcionar. Aquí te dejo algunas instrucciones. Si tenés éxito, te ruego me lo hagas saber ya que, de funcionar, probablemente se termine convirtiendo en un post.

    Primero instalar los paquetes «tesseract 2.03-4» e «imagemagick» usando Synaptic, «xsane2tess» de «http://download.tuxfamily.org/guadausers/guadaV4/».

    Luego crear la carpeta tmp en: /home/tunombredeusuario/tmp

    Después abrir Xsane para configurarlo, Preferencias–> Configuración–> pestaña OCR y rellenar lo siguiente:

    Orden OCR –> xsane2tess -l spa
    Opción del archivo de entrada –> -i
    Opción del archivo de salida –> -o
    Opción de salida-fd de interfaz –> -x

    En configuraciones de Xsane en la pestaña de «guardar» en la parte donde dice directorio temporal asegurate de que esté la carpeta «tmp» que creaste en «/home/tunombredeusuario»

    Te dejo también una página con detalles sobre cómo hace OCR en Ubuntu: https://help.ubuntu.com/community/OCR

  7.   Usemos Linux dijo

    Otro método que descubrí x ahí es el siguiente:

    Suponiendo que el escaner ya fue conectado y reconocido por el sistema

    1. Abro Sistema>Administración>Gestor de Paquete Synaptic (en GNOME)

    2. Busco y marco para instalar tesseract-ocr-spa (para escanear en español) y gscan2pdf

    3. Para escanear abro Aplicaciones>Gráficos>gscan2pdf

    Y Listo.

  8.   Trovadordebarro dijo

    Oye amigo, muchas gracias, la verdad es que tesseract es una buena herramienta, pero muy limitada frente a libros con escaneo «problemático». En cambio este software se adapta con mayor facilidad… 😀

  9.   juan anez dijo

    En un proceso de digitalización de Imágenes, se están convirtiendo archivos PDF-A, a estos se les debe hacer OCR. Que tan sensible al resultado es el digitalizar en Blanco y Negro ó en Escalas de Grises? Que se recomienda?