Uyenza njani i-OCR iPDF kwaye wenze ukuba ukhetho lokubhaliweyo kunye nokukhangela

Masithi unePDF eyenziwe kusetyenziswa iskena, okanye edluliselwe kuwe kodwa iqulethe ulwazi olukwimo yomfanekiso.. Inkqubo ekufuneka sibeke kuyo iPDF yethu esiyithandayo ibizwa ngokuba I-OCR: inkqubo ezichonga ngokuzenzekelayo iisimboli okanye iimpawu zealfabhethi ethile, ukusuka kumfanekiso ukuwugcina ngokohlobo lwedatha esinokusebenzisana nayo sisebenzisa inkqubo yokuhlela okubhaliweyo okanye okufanayo.


pdfocr sisixhobo esilula esenza iPDF entsha enomaleko wombhalo ofakwe ngaphakathi, ovumela umsebenzisi ukuba akhethe isicatshulwa kunye nokukhangela amagama kuyo, ngaphandle kokutshintsha inkangeleko yokugqibela yePDF.

Yintoni i-pdfdocr engeyoya:

Oku kusebenza kuphela ukuba iPDF iqulethe ulwazi olukwifom yomfanekiso; Ukuba uthe wathumela ngaphandle iPDF kwiOpenOffice, sele inomaleko wombhalo ohlonyelweyo, ke le nkqubo ayiyomfuneko.

Uyifaka njani i-pdfdocr:

sudo yongeza-apt-repository ppa:gezakovacs/pdfocr
sudo apt-get update
sudo apt-fumana ukufaka pdfocr

Uyisebenzisa njani i-pdfdocr:

Vula i-terminal, yiya kuluhlu apho iPDF ofuna ukuyiguqula ibekwe khona, kwaye ngenisa oku kulandelayo (ukutshintsha i-input.pdf ngePDF ofuna ukuyiguqula kunye nemveliso.pdf enegama lefayile entsha enomaleko wombhalo ofakwe ngaphakathi )

pdfocr -i input.pdf -o output.pdf

Lindela ukuba i-OCR yenziwe kwiphepha ngalinye lePDF yakho kunye nefayile elungisiweyo yokugqibela ukuba yenziwe. Oku kufuneka kuthathe imizuzwana embalwa ngephepha ngalinye, kuxhomekeke kwisisombululo sePDF yakho.


Shiya uluvo lwakho

Idilesi yakho ye email aziyi kupapashwa. ezidingekayo ziphawulwe *

*

*

  1. Uxanduva lwedatha: UMiguel Ángel Gatón
  2. Injongo yedatha: Ulawulo lwe-SPAM, ulawulo lwezimvo.
  3. Umthetho: Imvume yakho
  4. Unxibelelwano lwedatha: Idatha ayizukuhanjiswa kubantu besithathu ngaphandle koxanduva lomthetho.
  5. Ukugcinwa kweenkcukacha
  6. Amalungelo: Ngalo naliphi na ixesha unganciphisa, uphinde uphinde ucime ulwazi lwakho.

  1.   Rodolfo Lara sitsho

    rodolfo@rodolfo-desktop:~$ sudo apt-get install pdfocr
    Uluhlu lokufunda kwephakheji ... lwenziwe
    Ukwenza umthi wokuxhomekeka
    Ukufunda ulwazi ngobume ... Kwenziwe
    E: No se ha podido localizar el paquete pdfocr
    rodolfo@rodolfo-desktop:~$

  2.   Masisebenzise iLinux sitsho

    Te aseguraste de agregar el PPA correspondiente?
    Es probable que este PPA tenga versiones de pdfocr para versiones de Ubuntu anteriores. Pensá que este post ya tiene varios meses. De todos modos, la idea es la misma. Entrá a Launchpad y buscá un PPA que contenga versiones de pdfocr para Maverick.
    Masinwabe! UPawulos.

  3.   Javare sitsho

    Bueno, será cuestión de probarlo para ver que tal funciona

  4.   Masisebenzise iLinux sitsho

    Dale! Avisanos si tuviste éxito!! Si no funciona también podemos intentar ayudarte! Saludos! Pablo.

  5.   A01653 sitsho

    Sawubona,
    He probado el programa sobre un pdf y el resultado no es muy bueno. Estoy acostumbrado al acrobat profecional 8 y buscaba algo parecido. El acrobat le pasa a los ficheros utilidades para limpiar y enderezar los pdf escaneados y asi obtiene una mejor fuente para el ocr. Sabes si existe alguna solucion para esto.

    Un saludo

  6.   Masisebenzise iLinux sitsho

    Hola! He escuchado por ahi que Tesseract es el mejor OCR opensource. No sé si será bueno. Además, hay que ensuciarse un poco las manos para hacerlo funcionar. Aquí te dejo algunas instrucciones. Si tenés éxito, te ruego me lo hagas saber ya que, de funcionar, probablemente se termine convirtiendo en un post.

    Primero instalar los paquetes «tesseract 2.03-4» e «imagemagick» usando Synaptic, «xsane2tess» de «http://download.tuxfamily.org/guadausers/guadaV4/».

    Luego crear la carpeta tmp en: /home/tunombredeusuario/tmp

    Después abrir Xsane para configurarlo, Preferencias–> Configuración–> pestaña OCR y rellenar lo siguiente:

    Orden OCR –> xsane2tess -l spa
    Opción del archivo de entrada –> -i
    Opción del archivo de salida –> -o
    Opción de salida-fd de interfaz –> -x

    En configuraciones de Xsane en la pestaña de «guardar» en la parte donde dice directorio temporal asegurate de que esté la carpeta «tmp» que creaste en «/home/tunombredeusuario»

    Te dejo también una página con detalles sobre cómo hace OCR en Ubuntu: https://help.ubuntu.com/community/OCR

  7.   Masisebenzise iLinux sitsho

    Otro método que descubrí x ahí es el siguiente:

    Suponiendo que el escaner ya fue conectado y reconocido por el sistema

    1. Abro Sistema>Administración>Gestor de Paquete Synaptic (en GNOME)

    2. Busco y marco para instalar tesseract-ocr-spa (para escanear en español) y gscan2pdf

    3. Para escanear abro Aplicaciones>Gráficos>gscan2pdf

    Kwaye ukulungele.

  8.   Trovadordebarro sitsho

    Oye amigo, muchas gracias, la verdad es que tesseract es una buena herramienta, pero muy limitada frente a libros con escaneo «problemático». En cambio este software se adapta con mayor facilidad… 😀

  9.   juan anez sitsho

    En un proceso de digitalización de Imágenes, se están convirtiendo archivos PDF-A, a estos se les debe hacer OCR. Que tan sensible al resultado es el digitalizar en Blanco y Negro ó en Escalas de Grises? Que se recomienda?