Sådan OCR en PDF og aktivere tekstvalg og søgning

Antag at du har en PDF-fil, der blev oprettet ved hjælp af en scanner, eller at de sendte den til dig, men den indeholder oplysningerne i form af et billede. Den procedure, som vi skal indsende vores elskede PDF, kaldes til OCR: en proces, der automatisk identificerer symboler eller tegn, der hører til et bestemt alfabet, fra et billede til at gemme det i form af data, som vi kan interagere med via et tekstredigeringsprogram eller lignende.

pdfocr er et simpelt værktøj, der opretter en ny PDF med et indlejret tekstlag, der giver brugeren mulighed for at vælge tekst og søge efter ord i den uden at ændre det endelige udseende af PDF'en.

Hvad pdfocr IKKE er til:

Dette er kun nyttigt, hvis PDF-filen indeholder oplysningerne i billedform; Hvis du eksporterede PDF'en fra OpenOffice, har den allerede et indlejret tekstlag, så denne procedure er unødvendig.

Sådan installeres pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get installer pdfocr

Sådan bruges pdfocr:

Åbn en terminal, gå til det bibliotek, hvor den PDF, du vil konvertere, er placeret, og indtast følgende (erstat input.pdf med den PDF, du vil konvertere og output.pdf med navnet på den nye fil med det indlejrede tekstlag )

pdfocr -i input.pdf -o output.pdf

Vent på, at hver side i din PDF bliver OCR, og at den endelige ændrede fil oprettes. Dette skal tage et par sekunder pr. Side, afhængigt af opløsningen på din PDF.

Efterlad din kommentar Annuller svar

Rudolf Lara sagde han
siden 11 år

rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Læsepakke liste ... Udført
Oprettelse af afhængighedstræ
Læsning af statusoplysninger ... Udført
E: pdfocr-pakken kunne ikke findes
rodolfo @ rodolfo-desktop: ~ $

Svar til Rodolfo Lara
Lad os bruge Linux sagde han
siden 11 år

Sørgede du for at tilføje den tilsvarende PPA?
Denne PPA har sandsynligvis versioner af pdfocr til ældre Ubuntu-versioner. Tænk, at dette indlæg allerede er flere måneder gammelt. Under alle omstændigheder er ideen den samme. Gå til Launchpad, og se efter en PPA, der indeholder versioner af pdfocr til Maverick.
Skål! Paul.

Svar på Lad os bruge Linux
jvare sagde han
siden 11 år

Nå, det vil være et spørgsmål om at teste det for at se, hvordan det fungerer

Svar til Jvare
Lad os bruge Linux sagde han
siden 11 år

Fortsæt! Fortæl os, hvis du havde succes !! Hvis det ikke virker, kan vi også prøve at hjælpe dig! Skål! Paul.

Svar på Lad os bruge Linux
a01653 sagde han
siden 11 år

Hej,
Jeg har testet programmet på en pdf, og resultatet er ikke særlig godt. Jeg er vant til den professionelle acrobat 8 og ledte efter noget lignende. Acrobat sender hjælpeprogrammer til filerne for at rense og rette de scannede pdfs og dermed opnå en bedre kilde til ocr. Du ved, om der er en løsning på dette.

hilsener

Svar på a01653
Lad os bruge Linux sagde han
siden 11 år

Hej! Jeg har hørt, at Tesseract er den bedste open source OCR. Jeg ved ikke, om det vil være godt. Du skal også få dine hænder lidt beskidte for at få det til at fungere. Her er nogle instruktioner. Hvis du har succes, beder jeg dig om at lade mig vide, da hvis det virker, vil det sandsynligvis ende med at blive et indlæg.

Installer først pakkerne "tesseract 2.03-4" og "imagemagick" ved hjælp af Synaptic, "xsane2tess" fra "http://download.tuxfamily.org/guadausers/guadaV4/".

Opret derefter tmp-mappen i / home / dit brugernavn / tmp

Åbn derefter Xsane for at konfigurere det, Indstillinger–> Konfiguration–> OCR-fanen, og udfyld følgende:

OCR-kommando -> xsane2tess -l spa
Indtastningsfilmulighed -> -i
Indstilling for outputfil -> -o
Outputmulighed -fd interface -> -x

I Xsane-konfigurationer i fanen "gem" i den del, hvor der står midlertidig mappe, skal du sørge for, at der er mappen "tmp", som du oprettede i "/ home / dit brugernavn"

Jeg efterlader dig også en side med detaljer om, hvordan du gør OCR i Ubuntu: https://help.ubuntu.com/community/OCR

Svar på Lad os bruge Linux
Lad os bruge Linux sagde han
siden 11 år

En anden metode, som jeg opdagede x der, er følgende:

Forudsat at scanneren allerede er tilsluttet og genkendt af systemet

1. Jeg åbner System> Administration> Synaptic Package Manager (i GNOME)

2. Jeg søger og rammer for at installere tesseract-ocr-spa (for at scanne på spansk) og gscan2pdf

3. For at scanne åbner jeg Programmer> Grafik> gscan2pdf

Og klar.

Svar på Lad os bruge Linux
Trubadur sagde han
siden 10 år

Hej ven, mange tak, sandheden er, at tesseract er et godt værktøj, men meget begrænset i forhold til bøger med "problematisk" scanning. På den anden side tilpasser denne software sig lettere ... 😀

Svar på Trovadordebarro
Juan Anez sagde han
siden 10 år

I en proces med digitalisering af billeder konverteres PDF-A-filer, de skal OCRed. Hvor følsom over for resultatet er scanning i sort / hvid eller gråtoner? Hvad anbefales?

Besvar juan anez