Hvordan skanne dokumenter og bruke OCR i Linux

Prøvde du Simple Scan, standardprogrammet i Ubuntu, men var skuffet over å se at det ikke støtter OCR, etc.? Samtidig er XSANE for komplisert for den enkle oppgaven du har tenkt deg å gjøre? Savner du hvor enkelt det var å skanne dokumenter med Omnipage?

Ikke rart ... la oss se hvordan du skanner og utfører OCR i de skannede dokumentene på en veldig, veldig enkel måte. Du vil bli overrasket over resultatene.

Hvordan skanne i to enkle trinn

1. - installere gscan2pdf & tesseract-ocr (sammen med sin respektive språkpakke). Det vil si at hvis du skal skanne dokumenter på engelsk, installer tesseract-ocr-eng; Hvis de er på spansk, må du installere tesseract-ocr-eng og så.

sudo apt-get install gscan2pdf tesseract-ocr tesseract-ocr-eng

2. - Resten er ganske grei for de som noen gang har skannet og OCRed et dokument i Windows. jeg åpnet gscan2pdf, skann dokumentet, gå til Valg> OCR og velg Tesseract som en OCR-motor. Det finnes andre motorer, men Tesseract er den desidert best motoren. Til slutt kan du lagre det endelige dokumentet som PDF, DJVU, etc. skal Fil> Lagre.

Merk: når du lagrer skannede dokumenter, er det bedre å lagre dem i DJVU-format (kvaliteten er den samme som en PDF, men det er en veldig viktig forskjell i størrelse).

Følgende video er på engelsk, men det er nok å se den for å forstå hvordan alt fungerer.


Legg igjen kommentaren

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

*

*

  1. Ansvarlig for dataene: Miguel Ángel Gatón
  2. Formålet med dataene: Kontroller SPAM, kommentaradministrasjon.
  3. Legitimering: Ditt samtykke
  4. Kommunikasjon av dataene: Dataene vil ikke bli kommunisert til tredjeparter bortsett fra ved juridisk forpliktelse.
  5. Datalagring: Database vert for Occentus Networks (EU)
  6. Rettigheter: Når som helst kan du begrense, gjenopprette og slette informasjonen din.

  1.   Anonym sa

    Alex: Mange spillere har problemer med å få «en venn sone» med jenter de liker.
    Etter å ha forklart en forvirret Melissa at han ikke er Waldo,
    men Hon Ludovick Watson, hun godtar å gå til
    England. Spørsmålet ditt må også være ENKELT nok
    for henne å svare uten massevis av tanke.

    Her er nettbloggen min - Tao of Badass anmeldelse

  2.   bachitux sa

    Legg merke til at pakkene også er tilgjengelige i Fedora. 🙂

  3.   kapell sa

    Jeg har to skannere, den ene er Canon Scan 5000f for A4-dokumenter, og den andre er Braun NovoScan, for skanning av negativer og lysbilder. Etter at du har installert gscan2-verktøyet og startet på nytt, ser du ingen av skannerne. hva skjedde? Hvorfor ser du ikke skannerne?

  4.   La oss bruke Linux sa

    Ingen krenkende venner, men det er ikke noe poeng i OCRing-mattefunksjoner.

    I alle fall er det praktisk for dem å OCR-teksten rundt (som forklarer disse funksjonene eller hva som helst), og at funksjonene forblir som bilder.
    Jubel! Paul.

  5.   Ikke fra Brooklyn sa

    Hei, hvis du har kommet med en løsning på problemet ditt, vil jeg gjerne vite det.

  6.   Juan Vallejo sa

    Jeg tror jeg er litt sen, men jeg har et spørsmål. Jeg er ingeniørstudent og leter etter en måte å digitalisere og rense notatene mine på, men problemet er at de fleste av disse notatene er fulle av matematiske symboler, grafer og funksjoner. Er det for tiden noe som kan hjelpe meg?

  7.   La oss bruke Linux sa

    Flott! God dato! I Arch Tesseract er det i de offisielle arkivene, men ikke gscan2pdf. Du må installere den gjennom ditt hjem.

  8.   elcaliman13142 sa

    Tusen takk det hjalp meg mye, gjør linux mer vennlig nåde igjen

  9.   La oss bruke Linux sa

    Værsågod! Det er en glede å ha vært i stand til å hjelpe.
    En klem! Paul.

  10.   Martin sa

    Veldig bra jeg lette etter det, jeg skal prøve og jeg skal fortelle hvordan dette går.

  11.   Mauro Nicolas Ybanez Girard sa

    Takk, jeg skal prøve!

  12.   Leonard Hernandez sa

    Når jeg skal kjøre OCR med Tesseract-motoren, gir det meg bare muligheten til prosessen på engelsk, selv om jeg installerte pakken tesseract-ocr-spa. Hva kan jeg gjøre?

  13.   jaime og isabel sa

    Last ned gnscaner2pdf, men det skanner ikke, det setter bare på jakt etter enheter og ikke etter det, det fortsetter å søke etter 15 minutter. Hva skjer?