Como OCR un PDF e habilitar a selección e busca de texto

Supoña que ten un PDF creado cun escáner ou que llo pasaron pero que contén a información en forma de imaxe. Chámase o procedemento ao que debemos enviar o noso querido PDF OCR: un proceso que identifica automaticamente símbolos ou caracteres que pertencen a un determinado alfabeto, desde unha imaxe para almacenala en forma de datos cos que podemos interactuar a través dun programa de edición de texto ou similar.


pdfocr é unha ferramenta sinxela que crea un novo PDF cunha capa de texto incrustada, que permite ao usuario seleccionar texto e buscar palabras nel, sen cambiar o aspecto final do PDF.

Para que non é pdfocr:

Isto só é útil se o PDF contén a información en forma de imaxe; se exportou o PDF desde OpenOffice, xa ten unha capa de texto incrustada, polo que este procedemento non é necesario.

Como instalar pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
update sudo apt-get
sudo apt-get install pdfocr

Como usar pdfocr:

Abra un terminal, diríxase ao directorio onde está o PDF que desexa converter e introduza o seguinte (substituíndo input.pdf polo PDF que desexa converter e output.pdf polo nome do novo ficheiro coa capa de texto incrustada)

pdfocr -i input.pdf -o output.pdf

Agarde a que se practique OCR de cada páxina do seu PDF e se cree o ficheiro modificado final. Isto debería levar uns segundos por páxina, dependendo da resolución do seu PDF.


O contido do artigo adhírese aos nosos principios de ética editorial. Para informar dun erro faga clic en aquí.

9 comentarios, deixa os teus

Deixa o teu comentario

Enderezo de correo electrónico non será publicado. Os campos obrigatorios están marcados con *

*

*

  1. Responsable dos datos: Miguel Ángel Gatón
  2. Finalidade dos datos: controlar SPAM, xestión de comentarios.
  3. Lexitimación: o seu consentimento
  4. Comunicación dos datos: os datos non serán comunicados a terceiros salvo obrigación legal.
  5. Almacenamento de datos: base de datos aloxada por Occentus Networks (UE)
  6. Dereitos: en calquera momento pode limitar, recuperar e eliminar a súa información.

  1.   Rodolfo Lara dixo

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    Lectura da lista de paquetes ... Feito
    Creación de árbore de dependencias
    Lectura da información de estado ... Feito
    E: Non se puido localizar o paquete pdfocr
    rodolfo @ rodolfo-desktop: ~ $

  2.   imos usar linux dixo

    Asegurouse de engadir o PPA correspondente?
    É probable que este PPA teña versións de pdfocr para versións anteriores de Ubuntu. Pensa que esta publicación xa ten varios meses. En fin, a idea é a mesma. Vaia a Launchpad e busque un PPA que conteña versións de pdfocr para Maverick.
    Ánimo! Paul.

  3.   jvare dixo

    Ben, será cuestión de probalo para ver como funciona

  4.   imos usar linux dixo

    Adiante! Avísanos se tivo éxito !! Se non funciona, tamén podemos intentar axudarche. Ánimo! Paul.

  5.   a01653 dixo

    Ola,
    Probei o programa nun pdf e o resultado non é moi bo. Estou acostumado ao profesional acrobat 8 ​​e buscaba algo similar. Acrobat pasa as utilidades aos ficheiros para limpar e endereitar os pdf escaneados e así obter unha mellor fonte para o ocr. Xa sabes se hai unha solución para isto.

    cumprimento

  6.   imos usar linux dixo

    Ola! Escoitei que Tesseract é o mellor OCR de código aberto. Non sei se será bo. Ademais, hai que ensuciarse un pouco as mans para que funcione. Aquí tes algunhas instrucións. Se tes éxito, avísame porque, se funciona, probablemente acabará converténdose nunha publicación.

    Primeiro instale os paquetes "tesseract 2.03-4" e "imagemagick" usando Synaptic, "xsane2tess" de "http://download.tuxfamily.org/guadausers/guadaV4/".

    A continuación, crea o cartafol tmp en: / home / o teu nome de usuario / tmp

    A continuación, abra Xsane para configuralo, Preferencias–> Configuración–> pestana OCR e complete o seguinte:

    Comando OCR -> xsane2tess -l spa
    Opción de ficheiro de entrada -> -i
    Opción de ficheiro de saída -> -o
    Opción de saída -fd interface -> -x

    Nas configuracións de Xsane na pestana "gardar" da parte onde di o directorio temporal, asegúrese de que existe o cartafol "tmp" que creou en "/ home / o seu nome de usuario"

    Tamén vos deixo unha páxina con detalles sobre como facer OCR en Ubuntu: https://help.ubuntu.com/community/OCR

  7.   imos usar linux dixo

    Outro método que descubrín x alí é o seguinte:

    Supoñendo que o escáner xa está conectado e recoñecido polo sistema

    1. Abro Sistema> Administración> Xestor de paquetes Synaptic (en GNOME)

    2. Busca e marco para instalar tesseract-ocr-spa (para escanear en español) e gscan2pdf

    3. Para dixitalizar abro Aplicacións> Gráficos> gscan2pdf

    E listo.

  8.   Trobador dixo

    Ei amigo, moitas grazas, a verdade é que tesseract é unha boa ferramenta, pero moi limitada en comparación cos libros con dixitalización "problemática". Por outra banda, este software adáptase máis facilmente ... 😀

  9.   Juan Anez dixo

    Nun proceso de dixitalización de imaxes, os ficheiros PDF-A estanse a converter e deben ser OCR. Que sensibilidade ten co resultado a dixitalización en branco e negro ou en escala de grises? Que se recomenda?