|
Supongamos que tenés un PDF que fue creado utilizando un scanner, o que te lo pasaron pero éste contiene la información en forma de imagen. El procedimiento al que debemos someter a nuestro querido PDF se llama OCR: un proceso que identifica automáticamente símbolos o caracteres que pertenecen a un determinado alfabeto, a partir de una imagen para almacenarla en forma de datos con los que podremos interactuar mediante un programa de edición de texto o similar. |
pdfocr es una simple herramienta que crea un nuevo PDF con una capa de texto incrustada, lo que permite al usuario seleccionar texto y buscar palabras en él, sin cambiar el aspecto final del PDF.
Para que NO sirve pdfocr:
Esto sirve solamente si el PDF contiene la información en forma de imagen; si exportaste el PDF desde OpenOffice, ya tiene una capa de texto incrustada, por lo que este procedimiento es innecesario.
Cómo instalar pdfocr:
sudo add-apt-repository ppa:gezakovacs/pdfocr
sudo apt-get update
sudo apt-get install pdfocr
Cómo usar pdfocr:
Abrí un terminal, andá al directorio donde se encuentra el PDF que querés convertir, e ingresá lo siguiente (reemplazando input.pdf por el PDF que querés convertir y output.pdf por el nombre del nuevo archivo con la capa de texto incrustada)
pdfocr -i input.pdf -o output.pdf
Esperá a que se practique el OCR a cada una de las páginas de tu PDF y que se cree el archivo final modificado. Ello debería llevar unos segundos por páginas, dependiendo en la resolución de tu PDF.