Supoña que ten un PDF creado cun escáner ou que llo pasaron pero que contén a información en forma de imaxe. Chámase o procedemento ao que debemos enviar o noso querido PDF OCR: un proceso que identifica automaticamente símbolos ou caracteres que pertencen a un determinado alfabeto, desde unha imaxe para almacenala en forma de datos cos que podemos interactuar a través dun programa de edición de texto ou similar. |
pdfocr é unha ferramenta sinxela que crea un novo PDF cunha capa de texto incrustada, que permite ao usuario seleccionar texto e buscar palabras nel, sen cambiar o aspecto final do PDF.
Para que non é pdfocr:
Isto só é útil se o PDF contén a información en forma de imaxe; se exportou o PDF desde OpenOffice, xa ten unha capa de texto incrustada, polo que este procedemento non é necesario.
Como instalar pdfocr:
sudo add-apt-repository ppa: gezakovacs / pdfocr
update sudo apt-get
sudo apt-get install pdfocr
Como usar pdfocr:
Abra un terminal, diríxase ao directorio onde está o PDF que desexa converter e introduza o seguinte (substituíndo input.pdf polo PDF que desexa converter e output.pdf polo nome do novo ficheiro coa capa de texto incrustada)
pdfocr -i input.pdf -o output.pdf
Agarde a que se practique OCR de cada páxina do seu PDF e se cree o ficheiro modificado final. Isto debería levar uns segundos por páxina, dependendo da resolución do seu PDF.
9 comentarios, deixa os teus
rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Lectura da lista de paquetes ... Feito
Creación de árbore de dependencias
Lectura da información de estado ... Feito
E: Non se puido localizar o paquete pdfocr
rodolfo @ rodolfo-desktop: ~ $
Asegurouse de engadir o PPA correspondente?
É probable que este PPA teña versións de pdfocr para versións anteriores de Ubuntu. Pensa que esta publicación xa ten varios meses. En fin, a idea é a mesma. Vaia a Launchpad e busque un PPA que conteña versións de pdfocr para Maverick.
Ánimo! Paul.
Ben, será cuestión de probalo para ver como funciona
Adiante! Avísanos se tivo éxito !! Se non funciona, tamén podemos intentar axudarche. Ánimo! Paul.
Ola,
Probei o programa nun pdf e o resultado non é moi bo. Estou acostumado ao profesional acrobat 8 e buscaba algo similar. Acrobat pasa as utilidades aos ficheiros para limpar e endereitar os pdf escaneados e así obter unha mellor fonte para o ocr. Xa sabes se hai unha solución para isto.
cumprimento
Ola! Escoitei que Tesseract é o mellor OCR de código aberto. Non sei se será bo. Ademais, hai que ensuciarse un pouco as mans para que funcione. Aquí tes algunhas instrucións. Se tes éxito, avísame porque, se funciona, probablemente acabará converténdose nunha publicación.
Primeiro instale os paquetes "tesseract 2.03-4" e "imagemagick" usando Synaptic, "xsane2tess" de "http://download.tuxfamily.org/guadausers/guadaV4/".
A continuación, crea o cartafol tmp en: / home / o teu nome de usuario / tmp
A continuación, abra Xsane para configuralo, Preferencias–> Configuración–> pestana OCR e complete o seguinte:
Comando OCR -> xsane2tess -l spa
Opción de ficheiro de entrada -> -i
Opción de ficheiro de saída -> -o
Opción de saída -fd interface -> -x
Nas configuracións de Xsane na pestana "gardar" da parte onde di o directorio temporal, asegúrese de que existe o cartafol "tmp" que creou en "/ home / o seu nome de usuario"
Tamén vos deixo unha páxina con detalles sobre como facer OCR en Ubuntu: https://help.ubuntu.com/community/OCR
Outro método que descubrín x alí é o seguinte:
Supoñendo que o escáner xa está conectado e recoñecido polo sistema
1. Abro Sistema> Administración> Xestor de paquetes Synaptic (en GNOME)
2. Busca e marco para instalar tesseract-ocr-spa (para escanear en español) e gscan2pdf
3. Para dixitalizar abro Aplicacións> Gráficos> gscan2pdf
E listo.
Ei amigo, moitas grazas, a verdade é que tesseract é unha boa ferramenta, pero moi limitada en comparación cos libros con dixitalización "problemática". Por outra banda, este software adáptase máis facilmente ... 😀
Nun proceso de dixitalización de imaxes, os ficheiros PDF-A estanse a converter e deben ser OCR. Que sensibilidade ten co resultado a dixitalización en branco e negro ou en escala de grises? Que se recomenda?