Come eseguire l'OCR di un PDF e abilitare la selezione e la ricerca del testo

Supponi di avere un PDF che è stato creato utilizzando uno scanner o che te lo hanno passato ma contiene le informazioni sotto forma di immagine. Si chiama la procedura alla quale dobbiamo sottoporre il nostro amato PDF OCR: un processo che identifica automaticamente simboli o caratteri che appartengono a un certo alfabeto, da un'immagine per memorizzarlo sotto forma di dati con cui possiamo interagire attraverso un programma di editing di testo o simili.


pdfocr è un semplice strumento che crea un nuovo PDF con un livello di testo incorporato, consentendo all'utente di selezionare il testo e cercare le parole in esso, senza modificare l'aspetto finale del PDF.

A cosa NON serve pdfocr:

Funziona solo se il PDF contiene le informazioni sotto forma di immagine; se hai esportato il PDF da OpenOffice, ha già un livello di testo incorporato, quindi questa procedura non è necessaria.

Come installare pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get installa pdfocr

Come usare pdfocr:

Apri un terminale, vai alla directory in cui si trova il PDF che desideri convertire e inserisci quanto segue (sostituendo input.pdf con il PDF che desideri convertire e output.pdf con il nome del nuovo file con il livello di testo incorporato )

pdfocr -i input.pdf -o output.pdf

Attendi che ogni pagina del tuo PDF venga sottoposta a OCR e che venga creato il file modificato finale. Questo dovrebbe richiedere alcuni secondi per pagina, a seconda della risoluzione del PDF.


Lascia un tuo commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *

*

*

  1. Responsabile dei dati: Miguel Ángel Gatón
  2. Scopo dei dati: controllo SPAM, gestione commenti.
  3. Legittimazione: il tuo consenso
  4. Comunicazione dei dati: I dati non saranno oggetto di comunicazione a terzi se non per obbligo di legge.
  5. Archiviazione dati: database ospitato da Occentus Networks (UE)
  6. Diritti: in qualsiasi momento puoi limitare, recuperare ed eliminare le tue informazioni.

  1.   Rodolfo Lara suddetto

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    Lettura dell'elenco dei pacchetti ... Fatto
    Creazione dell'albero delle dipendenze
    Lettura delle informazioni sullo stato ... Fatto
    E: Impossibile trovare il pacchetto pdfocr
    rodolfo @ rodolfo-desktop: ~ $

  2.   Usiamo Linux suddetto

    Ti sei assicurato di aggiungere il PPA corrispondente?
    Questo PPA probabilmente ha versioni di pdfocr per le versioni precedenti di Ubuntu. Pensa che questo post è già vecchio di diversi mesi. Comunque, l'idea è la stessa. Vai su Launchpad e cerca un PPA che contenga le versioni di pdfocr per Maverick.
    Saluti! Paolo.

  3.   jvare suddetto

    Bene, sarà una questione di testarlo per vedere come funziona

  4.   Usiamo Linux suddetto

    Vai avanti! Facci sapere se hai avuto successo !! Se non funziona possiamo anche provare ad aiutarti! Saluti! Paolo.

  5.   a01653 suddetto

    Ciao,
    Ho testato il programma su un pdf e il risultato non è molto buono. Sono abituato all'acrobata professionista 8 e stavo cercando qualcosa di simile. Acrobat passa le utilità ai file per pulire e raddrizzare i PDF scansionati e ottenere così una fonte migliore per l'OCR. Sai se c'è una soluzione per questo.

    saluti

  6.   Usiamo Linux suddetto

    Ciao! Ho sentito in giro che Tesseract è il miglior OCR opensource. Non so se andrà bene. Inoltre, devi sporcarti un po 'le mani per farlo funzionare. Ecco alcune istruzioni. Se hai successo ti prego di farmelo sapere perché, se funziona, probabilmente finirà per diventare un post.

    Prima installa i pacchetti "tesseract 2.03-4" e "imagemagick" usando Synaptic, "xsane2tess" da "http://download.tuxfamily.org/guadausers/guadaV4/".

    Quindi crea la cartella tmp in: / home / yourusername / tmp

    Quindi apri Xsane per configurarlo, Preferenze–> Configurazione–> scheda OCR e inserisci quanto segue:

    Comando OCR -> xsane2tess -l spa
    Opzione file di input -> -i
    Opzione file di output -> -o
    Opzione di output -fd interface -> -x

    Nelle configurazioni Xsane nella scheda "salva" nella parte in cui si dice directory temporanea, assicurati che ci sia la cartella "tmp" che hai creato in "/ home / tuonomeutente"

    Vi lascio anche una pagina con i dettagli su come eseguire l'OCR in Ubuntu: https://help.ubuntu.com/community/OCR

  7.   Usiamo Linux suddetto

    Un altro metodo che ho scoperto x è il seguente:

    Supponendo che lo scanner sia già stato collegato e riconosciuto dal sistema

    1. Apro Sistema> Amministrazione> Gestore pacchetti Synaptic (in GNOME)

    2. Cerco e framework per installare tesseract-ocr-spa (da scansionare in spagnolo) e gscan2pdf

    3. Per eseguire la scansione apro Applicazioni> Grafica> gscan2pdf

    E pronto.

  8.   Trovatore suddetto

    Ehi amico, grazie mille, la verità è che tesseract è un buon strumento, ma molto limitato rispetto ai libri con scansione "problematica". D'altra parte, questo software si adatta più facilmente ... 😀

  9.   Juan Anez suddetto

    In un processo di digitalizzazione delle immagini, i file PDF-A vengono convertiti, questi devono essere sottoposti a OCR. Quanto è sensibile al risultato la scansione in bianco e nero o in scala di grigi? Cosa è consigliato?