Cómo aplicar OCR a un PDF y habilitar la selección y búsqueda de texto

Uyenza njani i-OCR iPDF kwaye wenze ukuba ukhetho lokubhaliweyo kunye nokukhangela

Masithi unePDF eyenziwe kusetyenziswa iskena, okanye edluliselwe kuwe kodwa iqulethe ulwazi olukwimo yomfanekiso.. Inkqubo ekufuneka sibeke kuyo iPDF yethu esiyithandayo ibizwa ngokuba I-OCR: inkqubo ezichonga ngokuzenzekelayo iisimboli okanye iimpawu zealfabhethi ethile, ukusuka kumfanekiso ukuwugcina ngokohlobo lwedatha esinokusebenzisana nayo sisebenzisa inkqubo yokuhlela okubhaliweyo okanye okufanayo.

pdfocr sisixhobo esilula esenza iPDF entsha enomaleko wombhalo ofakwe ngaphakathi, ovumela umsebenzisi ukuba akhethe isicatshulwa kunye nokukhangela amagama kuyo, ngaphandle kokutshintsha inkangeleko yokugqibela yePDF.

Yintoni i-pdfdocr engeyoya:

Oku kusebenza kuphela ukuba iPDF iqulethe ulwazi olukwifom yomfanekiso; Ukuba uthe wathumela ngaphandle iPDF kwiOpenOffice, sele inomaleko wombhalo ohlonyelweyo, ke le nkqubo ayiyomfuneko.

Uyifaka njani i-pdfdocr:

sudo yongeza-apt-repository ppa:gezakovacs/pdfocr
sudo apt-get update
sudo apt-fumana ukufaka pdfocr

Uyisebenzisa njani i-pdfdocr:

Vula i-terminal, yiya kuluhlu apho iPDF ofuna ukuyiguqula ibekwe khona, kwaye ngenisa oku kulandelayo (ukutshintsha i-input.pdf ngePDF ofuna ukuyiguqula kunye nemveliso.pdf enegama lefayile entsha enomaleko wombhalo ofakwe ngaphakathi )

pdfocr -i input.pdf -o output.pdf

Lindela ukuba i-OCR yenziwe kwiphepha ngalinye lePDF yakho kunye nefayile elungisiweyo yokugqibela ukuba yenziwe. Oku kufuneka kuthathe imizuzwana embalwa ngephepha ngalinye, kuxhomekeke kwisisombululo sePDF yakho.

Shiya uluvo lwakho Rhoxisa impendulo

Rodolfo Lara sitsho
yenzayo 11 iminyaka

rodolfo@rodolfo-desktop:~$ sudo apt-get install pdfocr
Uluhlu lokufunda kwephakheji ... lwenziwe
Ukwenza umthi wokuxhomekeka
Ukufunda ulwazi ngobume ... Kwenziwe
E: No se ha podido localizar el paquete pdfocr
rodolfo@rodolfo-desktop:~$

Responder a Rodolfo Lara
Masisebenzise iLinux sitsho
yenzayo 11 iminyaka

Te aseguraste de agregar el PPA correspondiente?
Es probable que este PPA tenga versiones de pdfocr para versiones de Ubuntu anteriores. Pensá que este post ya tiene varios meses. De todos modos, la idea es la misma. Entrá a Launchpad y buscá un PPA que contenga versiones de pdfocr para Maverick.
Masinwabe! UPawulos.

Phendula ku Masisebenzise iLinux
Javare sitsho
yenzayo 11 iminyaka

Bueno, será cuestión de probarlo para ver que tal funciona

Phendula Jvare
Masisebenzise iLinux sitsho
yenzayo 11 iminyaka

Dale! Avisanos si tuviste éxito!! Si no funciona también podemos intentar ayudarte! Saludos! Pablo.

Phendula ku Masisebenzise iLinux
A01653 sitsho
yenzayo 11 iminyaka

Sawubona,
He probado el programa sobre un pdf y el resultado no es muy bueno. Estoy acostumbrado al acrobat profecional 8 y buscaba algo parecido. El acrobat le pasa a los ficheros utilidades para limpiar y enderezar los pdf escaneados y asi obtiene una mejor fuente para el ocr. Sabes si existe alguna solucion para esto.

Un saludo

Phendula ku01653
Masisebenzise iLinux sitsho
yenzayo 11 iminyaka

Hola! He escuchado por ahi que Tesseract es el mejor OCR opensource. No sé si será bueno. Además, hay que ensuciarse un poco las manos para hacerlo funcionar. Aquí te dejo algunas instrucciones. Si tenés éxito, te ruego me lo hagas saber ya que, de funcionar, probablemente se termine convirtiendo en un post.

Primero instalar los paquetes «tesseract 2.03-4» e «imagemagick» usando Synaptic, «xsane2tess» de «http://download.tuxfamily.org/guadausers/guadaV4/».

Luego crear la carpeta tmp en: /home/tunombredeusuario/tmp

Después abrir Xsane para configurarlo, Preferencias–> Configuración–> pestaña OCR y rellenar lo siguiente:

Orden OCR –> xsane2tess -l spa
Opción del archivo de entrada –> -i
Opción del archivo de salida –> -o
Opción de salida-fd de interfaz –> -x

En configuraciones de Xsane en la pestaña de «guardar» en la parte donde dice directorio temporal asegurate de que esté la carpeta «tmp» que creaste en «/home/tunombredeusuario»

Te dejo también una página con detalles sobre cómo hace OCR en Ubuntu: https://help.ubuntu.com/community/OCR

Phendula ku Masisebenzise iLinux
Masisebenzise iLinux sitsho
yenzayo 11 iminyaka

Otro método que descubrí x ahí es el siguiente:

Suponiendo que el escaner ya fue conectado y reconocido por el sistema

1. Abro Sistema>Administración>Gestor de Paquete Synaptic (en GNOME)

2. Busco y marco para instalar tesseract-ocr-spa (para escanear en español) y gscan2pdf

3. Para escanear abro Aplicaciones>Gráficos>gscan2pdf

Kwaye ukulungele.

Phendula ku Masisebenzise iLinux
Trovadordebarro sitsho
yenzayo 10 iminyaka

Oye amigo, muchas gracias, la verdad es que tesseract es una buena herramienta, pero muy limitada frente a libros con escaneo «problemático». En cambio este software se adapta con mayor facilidad… 😀

Responder a Trovadordebarro
juan anez sitsho
yenzayo 10 iminyaka

En un proceso de digitalización de Imágenes, se están convirtiendo archivos PDF-A, a estos se les debe hacer OCR. Que tan sensible al resultado es el digitalizar en Blanco y Negro ó en Escalas de Grises? Que se recomienda?

Responder a juan anez