Sådan scannes dokumenter og anvender OCR i Linux

Forsøgte du Simple Scan, standardprogrammet i Ubuntu, men var skuffet over at se, at det ikke understøtter OCR osv.? På samme tid er XSANE for kompliceret til den enkle opgave, du har planlagt at udføre? Savner du, hvor let det var at scanne dokumenter med Omnipage?

Ikke underligt ... lad os se, hvordan man scanner og udfører OCR i de scannede dokumenter på en meget, meget enkel måde. Du vil blive forbløffet over resultaterne.

Sådan scannes i 2 enkle trin

1.- installere gscan2pdf & tesseract-ocr (sammen med den respektive sprogpakke). Det vil sige, hvis du skal scanne dokumenter på engelsk, skal du installere tesseract-ocr-eng; Hvis de er på spansk, skal du installere tesseract-ocr-eng også.

sudo apt-get install gscan2pdf tesseract-ocr tesseract-ocr-eng

2.- Resten er ret ligetil for dem, der nogensinde har scannet og OCRed et dokument i Windows. jeg åbnede gscan2pdf, scan dokumentet, gå til Indstillinger> OCR og vælg Tesseract som en OCR-motor. Der er andre motorer, men Tesseract er langt den bedste motor. Endelig kan du gemme det endelige dokument som PDF, DJVU osv. går til Fil> Gem.

Bemærk: Når du gemmer scannede dokumenter, er det bedre at gemme dem i DJVU-format (kvaliteten er den samme som en PDF, men der er en meget vigtig forskel i størrelse).

Følgende video er på engelsk, men det er nok at se det for at forstå, hvordan alt fungerer.


Efterlad din kommentar

Din e-mailadresse vil ikke blive offentliggjort. Obligatoriske felter er markeret med *

*

*

  1. Ansvarlig for dataene: Miguel Ángel Gatón
  2. Formålet med dataene: Control SPAM, management af kommentarer.
  3. Legitimering: Dit samtykke
  4. Kommunikation af dataene: Dataene vil ikke blive kommunikeret til tredjemand, undtagen ved juridisk forpligtelse.
  5. Datalagring: Database hostet af Occentus Networks (EU)
  6. Rettigheder: Du kan til enhver tid begrænse, gendanne og slette dine oplysninger.

  1.   anonym sagde han

    Alex: Mange spillere har problemer med at få «venindrettet» med piger, de kan lide.
    Efter at have forklaret en forvirret Melissa, at han ikke er Waldo,
    men Hon Ludovick Watson, hun accepterer at gå til
    England. Dit spørgsmål skal også være ENKEL nok
    for hende at svare uden masser af tanke.

    Her er min webblog - Tao of Badass anmeldelse

  2.   bachitux sagde han

    Bemærk, at pakkerne også er tilgængelige i Fedora. 🙂

  3.   kapel sagde han

    Jeg har to scannere, den ene er Canon Scan 5000f til A4-dokumenter, og den anden er Braun NovoScan til scanning af negativer og dias. Efter installation af gscan2-værktøjet og genstart kan du ikke se nogen af ​​scannerne. hvad skete der? Hvorfor kan du ikke se scannerne?

  4.   Lad os bruge Linux sagde han

    Ingen fornærmende venner, men der er ingen mening i OCRing-matematiske funktioner.

    Under alle omstændigheder er det praktisk for dem at OCR den omgivende tekst (som forklarer disse funktioner eller hvad som helst), og at funktionerne forbliver som billeder.
    Skål! Paul.

  5.   Ikke fra Brooklyn sagde han

    Hej, hvis du har fundet en løsning på dit problem, vil jeg gerne vide det.

  6.   Juan Vallejo sagde han

    Jeg tror, ​​jeg er lidt forsinket, men jeg har et spørgsmål. Jeg er ingeniørstuderende og leder efter en måde at digitalisere og rense mine noter på, men problemet er, at de fleste af disse noter er fulde af matematiske symboler, grafer og funktioner. Er der i øjeblikket noget, der kan hjælpe mig?

  7.   Lad os bruge Linux sagde han

    Store! God dato! I Arch Tesseract er det i de officielle arkiver, men ikke gscan2pdf. Du er nødt til at installere det gennem din yourt.

  8.   elcaliman13142 sagde han

    Mange tak, det hjalp mig meget, gør linux mere venlig nåde igen

  9.   Lad os bruge Linux sagde han

    Selv tak! Det er en fornøjelse at have været i stand til at hjælpe.
    Et kram! Paul.

  10.   Martin sagde han

    Meget godt jeg ledte efter det, jeg prøver, og jeg fortæller, hvordan dette går.

  11.   Mauro Nicolas Ybanez Girard sagde han

    Tak, jeg prøver!

  12.   Leonard Hernandez sagde han

    Når jeg kører OCR med Tesseract-motoren, giver det mig kun mulighed for processen på engelsk, selvom jeg installerede pakken tesseract-ocr-spa. Hvad kan jeg gøre?

  13.   jaime og isabel sagde han

    download gnscaner2pdf, men det scanner ikke, det søger kun efter enheder og stopper ikke med at søge efter 15 min. Hvad så?