Come scansionare documenti e applicare l'OCR in Linux

Hai provato Simple Scan, il programma predefinito in Ubuntu, ma sei rimasto deluso nel vedere che non supporta l'OCR, ecc.? Allo stesso tempo, XSANE è troppo complicato per il semplice compito che ti sei prefissato di svolgere? Ti manca quanto sia stato facile scansionare documenti con Omnipage?

Beh, non c'è da stupirsi ... vediamo come scansionare ed eseguire l'OCR nei documenti scansionati in un modo molto, molto semplice. Sarai stupito dei risultati.

Come eseguire la scansione in 2 semplici passaggi

1. - installare gscan2pdf & tesseract-ocr (insieme al rispettivo language pack). Cioè, nel caso in cui tu abbia intenzione di scansionare documenti in inglese, installa tesseract-ocr-ita; Se sono in spagnolo, installa tesseract-ocr-eng e così.

sudo apt-get install gscan2pdf tesseract-ocr tesseract-ocr-eng

2. - Il resto è abbastanza semplice per coloro che hanno mai scansionato e OCR un documento in Windows. ho aperto gscan2pdf, scansiona il documento, vai a Opzioni> OCR e seleziona Tesseract come motore OCR. Ci sono altri motori, ma Tesseract è di gran lunga il motore più performante. Infine, puoi salvare il documento finale come PDF, DJVU, ecc. andando a File> Salva.

Nota: quando si salvano i documenti scansionati è meglio salvarli in formato DJVU (la qualità è la stessa di quella di un PDF ma c'è una differenza di dimensioni molto importante).

Il video che segue è in inglese ma basta vederlo per capire come funziona il tutto.


Lascia un tuo commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *

*

*

  1. Responsabile dei dati: Miguel Ángel Gatón
  2. Scopo dei dati: controllo SPAM, gestione commenti.
  3. Legittimazione: il tuo consenso
  4. Comunicazione dei dati: I dati non saranno oggetto di comunicazione a terzi se non per obbligo di legge.
  5. Archiviazione dati: database ospitato da Occentus Networks (UE)
  6. Diritti: in qualsiasi momento puoi limitare, recuperare ed eliminare le tue informazioni.

  1.   Anonimo suddetto

    Alex: Molti giocatori hanno problemi a "dividere in zone gli amici" con le ragazze che gli piacciono.
    Dopo aver spiegato a una Melissa confusa che non è Wally,
    ma l'on. Ludovick Watson, accetta di andare a
    Inghilterra. Anche la tua domanda deve essere abbastanza SEMPLICE
    per lei di rispondere senza un sacco di pensieri.

    Ecco il mio blog web - Tao di Badass Review

  2.   Bachi Tux suddetto

    Notare che i pacchetti sono disponibili anche in Fedora. 🙂

  3.   cappella suddetto

    Ho due scanner, uno è il Canon Scan 5000f per documenti A4 e l'altro è Braun NovoScan, per la scansione di negativi e diapositive. Dopo aver installato l'utility gscan2 e riavviato, non vedrai nessuno degli scanner. quello che è successo? Perché non vedi gli scanner?

  4.   Usiamo Linux suddetto

    Nessun offesa amici, ma non ha senso eseguire l'OCR con funzioni matematiche.

    In ogni caso, dovrebbero eseguire l'OCR del testo circostante (che spiega quelle funzioni o altro) e che le funzioni rimangano come immagini.
    Saluti! Paolo.

  5.   Non da Brooklyn suddetto

    Ehi, se hai trovato una soluzione al tuo problema, mi piacerebbe saperlo.

  6.   Juan Vallejo suddetto

    Penso di essere un po 'in ritardo ma ho una domanda. Sono uno studente di ingegneria e sto cercando un modo per digitalizzare e pulire le mie note, ma il problema è che la maggior parte di quelle note sono piene di simboli matematici, grafici e funzioni. C'è attualmente qualcosa che può aiutarmi?

  7.   Usiamo Linux suddetto

    Grande! Buon appuntamento! In Arch Tesseract è nei repository ufficiali, ma non in gscan2pdf. Devi installarlo tramite te.

  8.   elcaliman13142 suddetto

    Grazie mille, mi ha aiutato molto, rendono di nuovo linux più amichevole

  9.   Usiamo Linux suddetto

    Prego! È un piacere aver potuto aiutare.
    Un abbraccio! Paolo.

  10.   martyn suddetto

    Molto bene lo stavo cercando, proverò e ti racconterò come va.

  11.   Mauro Nicolas Ybanez Girard suddetto

    Grazie, ci proverò!

  12.   Leonard Hernandez suddetto

    Quando vado a eseguire l'OCR con il motore Tesseract mi dà solo l'opzione del processo in inglese anche se ho installato il pacchetto tesseract-ocr-spa. Cosa posso fare?

  13.   giaime e isabel suddetto

    scarica gnscaner2pdf ma non esegue la scansione, cerca solo i dispositivi e non interrompe la ricerca dopo 15 min. Che cosa succede?