Come eseguire l'OCR di un PDF e abilitare la selezione e la ricerca del testo

Supponi di avere un PDF che è stato creato utilizzando uno scanner o che te lo hanno passato ma contiene le informazioni sotto forma di immagine. Si chiama la procedura alla quale dobbiamo sottoporre il nostro amato PDF OCR: un processo che identifica automaticamente simboli o caratteri che appartengono a un certo alfabeto, da un'immagine per memorizzarlo sotto forma di dati con cui possiamo interagire attraverso un programma di editing di testo o simili.

pdfocr è un semplice strumento che crea un nuovo PDF con un livello di testo incorporato, consentendo all'utente di selezionare il testo e cercare le parole in esso, senza modificare l'aspetto finale del PDF.

A cosa NON serve pdfocr:

Funziona solo se il PDF contiene le informazioni sotto forma di immagine; se hai esportato il PDF da OpenOffice, ha già un livello di testo incorporato, quindi questa procedura non è necessaria.

Come installare pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get installa pdfocr

Come usare pdfocr:

Apri un terminale, vai alla directory in cui si trova il PDF che desideri convertire e inserisci quanto segue (sostituendo input.pdf con il PDF che desideri convertire e output.pdf con il nome del nuovo file con il livello di testo incorporato )

pdfocr -i input.pdf -o output.pdf

Attendi che ogni pagina del tuo PDF venga sottoposta a OCR e che venga creato il file modificato finale. Questo dovrebbe richiedere alcuni secondi per pagina, a seconda della risoluzione del PDF.

Lascia un tuo commento Annulla risposta

Rodolfo Lara suddetto
fa 11 anni

rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Lettura dell'elenco dei pacchetti ... Fatto
Creazione dell'albero delle dipendenze
Lettura delle informazioni sullo stato ... Fatto
E: Impossibile trovare il pacchetto pdfocr
rodolfo @ rodolfo-desktop: ~ $

Rispondi a Rodolfo Lara
Usiamo Linux suddetto
fa 11 anni

Ti sei assicurato di aggiungere il PPA corrispondente?
Questo PPA probabilmente ha versioni di pdfocr per le versioni precedenti di Ubuntu. Pensa che questo post è già vecchio di diversi mesi. Comunque, l'idea è la stessa. Vai su Launchpad e cerca un PPA che contenga le versioni di pdfocr per Maverick.
Saluti! Paolo.

Rispondi a Let's Use Linux
jvare suddetto
fa 11 anni

Bene, sarà una questione di testarlo per vedere come funziona

Rispondi a Jvare
Usiamo Linux suddetto
fa 11 anni

Vai avanti! Facci sapere se hai avuto successo !! Se non funziona possiamo anche provare ad aiutarti! Saluti! Paolo.

Rispondi a Let's Use Linux
a01653 suddetto
fa 11 anni

Ciao,
Ho testato il programma su un pdf e il risultato non è molto buono. Sono abituato all'acrobata professionista 8 e stavo cercando qualcosa di simile. Acrobat passa le utilità ai file per pulire e raddrizzare i PDF scansionati e ottenere così una fonte migliore per l'OCR. Sai se c'è una soluzione per questo.

saluti

Rispondi a a01653
Usiamo Linux suddetto
fa 11 anni

Ciao! Ho sentito in giro che Tesseract è il miglior OCR opensource. Non so se andrà bene. Inoltre, devi sporcarti un po 'le mani per farlo funzionare. Ecco alcune istruzioni. Se hai successo ti prego di farmelo sapere perché, se funziona, probabilmente finirà per diventare un post.

Prima installa i pacchetti "tesseract 2.03-4" e "imagemagick" usando Synaptic, "xsane2tess" da "http://download.tuxfamily.org/guadausers/guadaV4/".

Quindi crea la cartella tmp in: / home / yourusername / tmp

Quindi apri Xsane per configurarlo, Preferenze–> Configurazione–> scheda OCR e inserisci quanto segue:

Comando OCR -> xsane2tess -l spa
Opzione file di input -> -i
Opzione file di output -> -o
Opzione di output -fd interface -> -x

Nelle configurazioni Xsane nella scheda "salva" nella parte in cui si dice directory temporanea, assicurati che ci sia la cartella "tmp" che hai creato in "/ home / tuonomeutente"

Vi lascio anche una pagina con i dettagli su come eseguire l'OCR in Ubuntu: https://help.ubuntu.com/community/OCR

Rispondi a Let's Use Linux
Usiamo Linux suddetto
fa 11 anni

Un altro metodo che ho scoperto x è il seguente:

Supponendo che lo scanner sia già stato collegato e riconosciuto dal sistema

1. Apro Sistema> Amministrazione> Gestore pacchetti Synaptic (in GNOME)

2. Cerco e framework per installare tesseract-ocr-spa (da scansionare in spagnolo) e gscan2pdf

3. Per eseguire la scansione apro Applicazioni> Grafica> gscan2pdf

E pronto.

Rispondi a Let's Use Linux
Trovatore suddetto
fa 10 anni

Ehi amico, grazie mille, la verità è che tesseract è un buon strumento, ma molto limitato rispetto ai libri con scansione "problematica". D'altra parte, questo software si adatta più facilmente ... 😀

Rispondi a Trovadordebarro
Juan Anez suddetto
fa 10 anni

In un processo di digitalizzazione delle immagini, i file PDF-A vengono convertiti, questi devono essere sottoposti a OCR. Quanto è sensibile al risultato la scansione in bianco e nero o in scala di grigi? Cosa è consigliato?

Rispondi a juan anez