Masithi unePDF eyenziwe kusetyenziswa iskena, okanye edluliselwe kuwe kodwa iqulethe ulwazi olukwimo yomfanekiso.. Inkqubo ekufuneka sibeke kuyo iPDF yethu esiyithandayo ibizwa ngokuba I-OCR: inkqubo ezichonga ngokuzenzekelayo iisimboli okanye iimpawu zealfabhethi ethile, ukusuka kumfanekiso ukuwugcina ngokohlobo lwedatha esinokusebenzisana nayo sisebenzisa inkqubo yokuhlela okubhaliweyo okanye okufanayo. |
pdfocr sisixhobo esilula esenza iPDF entsha enomaleko wombhalo ofakwe ngaphakathi, ovumela umsebenzisi ukuba akhethe isicatshulwa kunye nokukhangela amagama kuyo, ngaphandle kokutshintsha inkangeleko yokugqibela yePDF.
Yintoni i-pdfdocr engeyoya:
Oku kusebenza kuphela ukuba iPDF iqulethe ulwazi olukwifom yomfanekiso; Ukuba uthe wathumela ngaphandle iPDF kwiOpenOffice, sele inomaleko wombhalo ohlonyelweyo, ke le nkqubo ayiyomfuneko.
Uyifaka njani i-pdfdocr:
sudo yongeza-apt-repository ppa:gezakovacs/pdfocr
sudo apt-get update
sudo apt-fumana ukufaka pdfocr
Uyisebenzisa njani i-pdfdocr:
Vula i-terminal, yiya kuluhlu apho iPDF ofuna ukuyiguqula ibekwe khona, kwaye ngenisa oku kulandelayo (ukutshintsha i-input.pdf ngePDF ofuna ukuyiguqula kunye nemveliso.pdf enegama lefayile entsha enomaleko wombhalo ofakwe ngaphakathi )
pdfocr -i input.pdf -o output.pdf
Lindela ukuba i-OCR yenziwe kwiphepha ngalinye lePDF yakho kunye nefayile elungisiweyo yokugqibela ukuba yenziwe. Oku kufuneka kuthathe imizuzwana embalwa ngephepha ngalinye, kuxhomekeke kwisisombululo sePDF yakho.
rodolfo@rodolfo-desktop:~$ sudo apt-get install pdfocr
Uluhlu lokufunda kwephakheji ... lwenziwe
Ukwenza umthi wokuxhomekeka
Ukufunda ulwazi ngobume ... Kwenziwe
E: No se ha podido localizar el paquete pdfocr
rodolfo@rodolfo-desktop:~$
Te aseguraste de agregar el PPA correspondiente?
Es probable que este PPA tenga versiones de pdfocr para versiones de Ubuntu anteriores. Pensá que este post ya tiene varios meses. De todos modos, la idea es la misma. Entrá a Launchpad y buscá un PPA que contenga versiones de pdfocr para Maverick.
Masinwabe! UPawulos.
Bueno, será cuestión de probarlo para ver que tal funciona
Dale! Avisanos si tuviste éxito!! Si no funciona también podemos intentar ayudarte! Saludos! Pablo.
Sawubona,
He probado el programa sobre un pdf y el resultado no es muy bueno. Estoy acostumbrado al acrobat profecional 8 y buscaba algo parecido. El acrobat le pasa a los ficheros utilidades para limpiar y enderezar los pdf escaneados y asi obtiene una mejor fuente para el ocr. Sabes si existe alguna solucion para esto.
Un saludo
Hola! He escuchado por ahi que Tesseract es el mejor OCR opensource. No sé si será bueno. Además, hay que ensuciarse un poco las manos para hacerlo funcionar. Aquí te dejo algunas instrucciones. Si tenés éxito, te ruego me lo hagas saber ya que, de funcionar, probablemente se termine convirtiendo en un post.
Primero instalar los paquetes «tesseract 2.03-4» e «imagemagick» usando Synaptic, «xsane2tess» de «http://download.tuxfamily.org/guadausers/guadaV4/».
Luego crear la carpeta tmp en: /home/tunombredeusuario/tmp
Después abrir Xsane para configurarlo, Preferencias–> Configuración–> pestaña OCR y rellenar lo siguiente:
Orden OCR –> xsane2tess -l spa
Opción del archivo de entrada –> -i
Opción del archivo de salida –> -o
Opción de salida-fd de interfaz –> -x
En configuraciones de Xsane en la pestaña de «guardar» en la parte donde dice directorio temporal asegurate de que esté la carpeta «tmp» que creaste en «/home/tunombredeusuario»
Te dejo también una página con detalles sobre cómo hace OCR en Ubuntu: https://help.ubuntu.com/community/OCR
Otro método que descubrí x ahí es el siguiente:
Suponiendo que el escaner ya fue conectado y reconocido por el sistema
1. Abro Sistema>Administración>Gestor de Paquete Synaptic (en GNOME)
2. Busco y marco para instalar tesseract-ocr-spa (para escanear en español) y gscan2pdf
3. Para escanear abro Aplicaciones>Gráficos>gscan2pdf
Kwaye ukulungele.
Oye amigo, muchas gracias, la verdad es que tesseract es una buena herramienta, pero muy limitada frente a libros con escaneo «problemático». En cambio este software se adapta con mayor facilidad… 😀
En un proceso de digitalización de Imágenes, se están convirtiendo archivos PDF-A, a estos se les debe hacer OCR. Que tan sensible al resultado es el digitalizar en Blanco y Negro ó en Escalas de Grises? Que se recomienda?