Com aplicar OCR a un PDF i habilitar la selecció i recerca de text

Suposem que tens un PDF que va ser creat utilitzant un scanner, o que t'ho van passar però aquest conté la informació en forma d'imatge. El procediment a què hem de sotmetre al nostre estimat PDF es diu OCR: Un procés que identifica automàticament símbols o caràcters que pertanyen a un determinat alfabet, a partir d'una imatge per emmagatzemar-la en forma de dades amb els quals podrem interactuar mitjançant un programa d'edició de text o similar.


pdfocr és una simple eina que crea un nou PDF amb una capa de text incrustada, el que permet a l'usuari seleccionar text i buscar paraules en ell, sense canviar l'aspecte final de el PDF.

Perquè NO serveix pdfocr:

Això serveix només si el PDF conté la informació en forma d'imatge; si exportaste el PDF des OpenOffice, ja té una capa de text incrustada, de manera que aquest procediment és innecessari.

Com instal·lar pdfocr:

suo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
suo apt-get install pdfocr

Com utilitzar pdfocr:

Vaig obrir un terminal, andá a directori on es troba el PDF que vols convertir, i ingressa el següent (reemplaçant input.pdf pel PDF que vols convertir i output.pdf pel nom de el nou arxiu amb la capa de text incrustada)

pdfocr -i input.pdf -o output.pdf

Espera al fet que es practiqui l'OCR a cadascuna de les pàgines de la teva PDF i que es creu l'arxiu final modificat. Això hauria de portar uns segons per pàgines, depenent en la resolució de la teva PDF.


9 comentaris, deixa el teu

Deixa el teu comentari

La seva adreça de correu electrònic no es publicarà. Els camps obligatoris estan marcats amb *

*

*

  1. Responsable de les dades: Miguel Ángel Gatón
  2. Finalitat de les dades: Controlar l'SPAM, gestió de comentaris.
  3. Legitimació: El teu consentiment
  4. Comunicació de les dades: No es comunicaran les dades a tercers excepte per obligació legal.
  5. Emmagatzematge de les dades: Base de dades allotjada en Occentus Networks (UE)
  6. Drets: En qualsevol moment pots limitar, recuperar i esborrar la teva informació.

  1.   Rodolfo Lara va dir

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    Llegint llista de paquets ... Fet
    S'està construint l'arbre de dependències
    Llegint la informació d'estat ... Fet
    E: No s'ha pogut localitzar el paquet pdfocr
    rodolfo @ rodolfo-desktop: ~ $

  2.   Fem servir Linux va dir

    Et aseguraste d'afegir el PPA corresponent?
    És probable que aquest PPA tingui versions de pdfocr per a versions d'Ubuntu anteriors. Pensa que aquest post ja té diversos mesos. De totes maneres, la idea és la mateixa. Inicia una sessió a Launchpad i buscá un PPA que contingui versions de pdfocr per Maverick.
    Salutacions! Pau.

  3.   Jvare va dir

    Bé, serà qüestió de provar-ho per veure que tal funciona

  4.   Fem servir Linux va dir

    Dóna-li! Avisa'ns si vas tenir èxit !! Si no funciona també podem intentar ajudar-te! Salutacions! Pau.

  5.   a01653 va dir

    Hola,
    He provat el programa sobre un pdf i el resultat no és molt bo. Estic acostumat a l'acrobat profecional 8 i buscava alguna cosa semblant. El acrobat li passa als fitxers utilitats per netejar i redreçar els pdf escanejats i així obté una millor font per al ocr. Saps si hi ha alguna solució per això.

    una salutació

  6.   Fem servir Linux va dir

    Hola! He escoltat per ahi que Tesseract és el millor OCR opensource. No sé si serà bo. A més, cal embrutar una mica les mans per fer-ho. Aquí et deixo algunes instruccions. Si tens èxit, et prego m'ho facis saber ja que, de funcionar, probablement s'acabi convertint en un post.

    Primer instal·lar els paquets «tesseract 2.03-4» i «imagemagick» usant Synaptic, «xsane2tess» de «http://download.tuxfamily.org/guadausers/guadaV4/».

    Després crear la carpeta tmp a: / home / tunombredeusuario / tmp

    Després obrir XSane per configurar-lo, Arranjament-> Configuració-> pestanya OCR i omplir el següent:

    Ordre OCR -> xsane2tess -l spa
    Opció de l'arxiu d'entrada -> -i
    Opció de l'arxiu de sortida -> -o
    Opció de sortida-fd d'interfície -> -x

    En configuracions de XSane a la pestanya de «guardar» a la part on diu directori temporal assegura't que estigui la carpeta "tmp" que vas crear en «/ home / tunombredeusuario»

    Et deixo també una pàgina amb detalls sobre com fa OCR en Ubuntu: https://help.ubuntu.com/community/OCR

  7.   Fem servir Linux va dir

    Un altre mètode que vaig descobrir x aquí és el següent:

    Suposant que l'escàner ja va ser connectat i reconegut pel sistema

    1. Obro Sistema> Administració> Gestor de Paquet Synaptic (en GNOME)

    2. Busco i marc per a instal·lar tesseract-ocr-spa (per escanejar en espanyol) i gscan2pdf

    3. Per escanejar obro Aplicacions> Gràfics> gscan2pdf

    I Fet.

  8.   Trobadordefang va dir

    Escolta amic, moltes gràcies, la veritat és que tesseract és una bona eina, però molt limitada enfront de llibres amb escaneig «problemàtic». En canvi aquest programari s'adapta amb més facilitat ... 😀

  9.   juan Añez va dir

    En un procés de digitalització d'Imatges, s'estan convertint arxius PDF-A, a aquests se'ls ha de fer OCR. Que tan sensible a el resultat és el digitalitzar en Blanc i Negre o en escales de grisos? Que es recomana?