Suposem que tens un PDF que va ser creat utilitzant un scanner, o que t'ho van passar però aquest conté la informació en forma d'imatge. El procediment a què hem de sotmetre al nostre estimat PDF es diu OCR: Un procés que identifica automàticament símbols o caràcters que pertanyen a un determinat alfabet, a partir d'una imatge per emmagatzemar-la en forma de dades amb els quals podrem interactuar mitjançant un programa d'edició de text o similar. |
pdfocr és una simple eina que crea un nou PDF amb una capa de text incrustada, el que permet a l'usuari seleccionar text i buscar paraules en ell, sense canviar l'aspecte final de el PDF.
Perquè NO serveix pdfocr:
Això serveix només si el PDF conté la informació en forma d'imatge; si exportaste el PDF des OpenOffice, ja té una capa de text incrustada, de manera que aquest procediment és innecessari.
Com instal·lar pdfocr:
suo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
suo apt-get install pdfocr
Com utilitzar pdfocr:
Vaig obrir un terminal, andá a directori on es troba el PDF que vols convertir, i ingressa el següent (reemplaçant input.pdf pel PDF que vols convertir i output.pdf pel nom de el nou arxiu amb la capa de text incrustada)
pdfocr -i input.pdf -o output.pdf
Espera al fet que es practiqui l'OCR a cadascuna de les pàgines de la teva PDF i que es creu l'arxiu final modificat. Això hauria de portar uns segons per pàgines, depenent en la resolució de la teva PDF.
rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Llegint llista de paquets ... Fet
S'està construint l'arbre de dependències
Llegint la informació d'estat ... Fet
E: No s'ha pogut localitzar el paquet pdfocr
rodolfo @ rodolfo-desktop: ~ $
Et aseguraste d'afegir el PPA corresponent?
És probable que aquest PPA tingui versions de pdfocr per a versions d'Ubuntu anteriors. Pensa que aquest post ja té diversos mesos. De totes maneres, la idea és la mateixa. Inicia una sessió a Launchpad i buscá un PPA que contingui versions de pdfocr per Maverick.
Salutacions! Pau.
Bé, serà qüestió de provar-ho per veure que tal funciona
Dóna-li! Avisa'ns si vas tenir èxit !! Si no funciona també podem intentar ajudar-te! Salutacions! Pau.
Hola,
He provat el programa sobre un pdf i el resultat no és molt bo. Estic acostumat a l'acrobat profecional 8 i buscava alguna cosa semblant. El acrobat li passa als fitxers utilitats per netejar i redreçar els pdf escanejats i així obté una millor font per al ocr. Saps si hi ha alguna solució per això.
una salutació
Hola! He escoltat per ahi que Tesseract és el millor OCR opensource. No sé si serà bo. A més, cal embrutar una mica les mans per fer-ho. Aquí et deixo algunes instruccions. Si tens èxit, et prego m'ho facis saber ja que, de funcionar, probablement s'acabi convertint en un post.
Primer instal·lar els paquets «tesseract 2.03-4» i «imagemagick» usant Synaptic, «xsane2tess» de «http://download.tuxfamily.org/guadausers/guadaV4/».
Després crear la carpeta tmp a: / home / tunombredeusuario / tmp
Després obrir XSane per configurar-lo, Arranjament-> Configuració-> pestanya OCR i omplir el següent:
Ordre OCR -> xsane2tess -l spa
Opció de l'arxiu d'entrada -> -i
Opció de l'arxiu de sortida -> -o
Opció de sortida-fd d'interfície -> -x
En configuracions de XSane a la pestanya de «guardar» a la part on diu directori temporal assegura't que estigui la carpeta "tmp" que vas crear en «/ home / tunombredeusuario»
Et deixo també una pàgina amb detalls sobre com fa OCR en Ubuntu: https://help.ubuntu.com/community/OCR
Un altre mètode que vaig descobrir x aquí és el següent:
Suposant que l'escàner ja va ser connectat i reconegut pel sistema
1. Obro Sistema> Administració> Gestor de Paquet Synaptic (en GNOME)
2. Busco i marc per a instal·lar tesseract-ocr-spa (per escanejar en espanyol) i gscan2pdf
3. Per escanejar obro Aplicacions> Gràfics> gscan2pdf
I Fet.
Escolta amic, moltes gràcies, la veritat és que tesseract és una bona eina, però molt limitada enfront de llibres amb escaneig «problemàtic». En canvi aquest programari s'adapta amb més facilitat ... 😀
En un procés de digitalització d'Imatges, s'estan convertint arxius PDF-A, a aquests se'ls ha de fer OCR. Que tan sensible a el resultat és el digitalitzar en Blanc i Negre o en escales de grisos? Que es recomana?