Supponi di avere un PDF che è stato creato utilizzando uno scanner o che te lo hanno passato ma contiene le informazioni sotto forma di immagine. Si chiama la procedura alla quale dobbiamo sottoporre il nostro amato PDF OCR: un processo che identifica automaticamente simboli o caratteri che appartengono a un certo alfabeto, da un'immagine per memorizzarlo sotto forma di dati con cui possiamo interagire attraverso un programma di editing di testo o simili. |
pdfocr è un semplice strumento che crea un nuovo PDF con un livello di testo incorporato, consentendo all'utente di selezionare il testo e cercare le parole in esso, senza modificare l'aspetto finale del PDF.
A cosa NON serve pdfocr:
Funziona solo se il PDF contiene le informazioni sotto forma di immagine; se hai esportato il PDF da OpenOffice, ha già un livello di testo incorporato, quindi questa procedura non è necessaria.
Come installare pdfocr:
sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get installa pdfocr
Come usare pdfocr:
Apri un terminale, vai alla directory in cui si trova il PDF che desideri convertire e inserisci quanto segue (sostituendo input.pdf con il PDF che desideri convertire e output.pdf con il nome del nuovo file con il livello di testo incorporato )
pdfocr -i input.pdf -o output.pdf
Attendi che ogni pagina del tuo PDF venga sottoposta a OCR e che venga creato il file modificato finale. Questo dovrebbe richiedere alcuni secondi per pagina, a seconda della risoluzione del PDF.
rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Lettura dell'elenco dei pacchetti ... Fatto
Creazione dell'albero delle dipendenze
Lettura delle informazioni sullo stato ... Fatto
E: Impossibile trovare il pacchetto pdfocr
rodolfo @ rodolfo-desktop: ~ $
Ti sei assicurato di aggiungere il PPA corrispondente?
Questo PPA probabilmente ha versioni di pdfocr per le versioni precedenti di Ubuntu. Pensa che questo post è già vecchio di diversi mesi. Comunque, l'idea è la stessa. Vai su Launchpad e cerca un PPA che contenga le versioni di pdfocr per Maverick.
Saluti! Paolo.
Bene, sarà una questione di testarlo per vedere come funziona
Vai avanti! Facci sapere se hai avuto successo !! Se non funziona possiamo anche provare ad aiutarti! Saluti! Paolo.
Ciao,
Ho testato il programma su un pdf e il risultato non è molto buono. Sono abituato all'acrobata professionista 8 e stavo cercando qualcosa di simile. Acrobat passa le utilità ai file per pulire e raddrizzare i PDF scansionati e ottenere così una fonte migliore per l'OCR. Sai se c'è una soluzione per questo.
saluti
Ciao! Ho sentito in giro che Tesseract è il miglior OCR opensource. Non so se andrà bene. Inoltre, devi sporcarti un po 'le mani per farlo funzionare. Ecco alcune istruzioni. Se hai successo ti prego di farmelo sapere perché, se funziona, probabilmente finirà per diventare un post.
Prima installa i pacchetti "tesseract 2.03-4" e "imagemagick" usando Synaptic, "xsane2tess" da "http://download.tuxfamily.org/guadausers/guadaV4/".
Quindi crea la cartella tmp in: / home / yourusername / tmp
Quindi apri Xsane per configurarlo, Preferenze–> Configurazione–> scheda OCR e inserisci quanto segue:
Comando OCR -> xsane2tess -l spa
Opzione file di input -> -i
Opzione file di output -> -o
Opzione di output -fd interface -> -x
Nelle configurazioni Xsane nella scheda "salva" nella parte in cui si dice directory temporanea, assicurati che ci sia la cartella "tmp" che hai creato in "/ home / tuonomeutente"
Vi lascio anche una pagina con i dettagli su come eseguire l'OCR in Ubuntu: https://help.ubuntu.com/community/OCR
Un altro metodo che ho scoperto x è il seguente:
Supponendo che lo scanner sia già stato collegato e riconosciuto dal sistema
1. Apro Sistema> Amministrazione> Gestore pacchetti Synaptic (in GNOME)
2. Cerco e framework per installare tesseract-ocr-spa (da scansionare in spagnolo) e gscan2pdf
3. Per eseguire la scansione apro Applicazioni> Grafica> gscan2pdf
E pronto.
Ehi amico, grazie mille, la verità è che tesseract è un buon strumento, ma molto limitato rispetto ai libri con scansione "problematica". D'altra parte, questo software si adatta più facilmente ... 😀
In un processo di digitalizzazione delle immagini, i file PDF-A vengono convertiti, questi devono essere sottoposti a OCR. Quanto è sensibile al risultato la scansione in bianco e nero o in scala di grigi? Cosa è consigliato?