Antag at du har en PDF-fil, der blev oprettet ved hjælp af en scanner, eller at de sendte den til dig, men den indeholder oplysningerne i form af et billede. Den procedure, som vi skal indsende vores elskede PDF, kaldes til OCR: en proces, der automatisk identificerer symboler eller tegn, der hører til et bestemt alfabet, fra et billede til at gemme det i form af data, som vi kan interagere med via et tekstredigeringsprogram eller lignende. |
pdfocr er et simpelt værktøj, der opretter en ny PDF med et indlejret tekstlag, der giver brugeren mulighed for at vælge tekst og søge efter ord i den uden at ændre det endelige udseende af PDF'en.
Hvad pdfocr IKKE er til:
Dette er kun nyttigt, hvis PDF-filen indeholder oplysningerne i billedform; Hvis du eksporterede PDF'en fra OpenOffice, har den allerede et indlejret tekstlag, så denne procedure er unødvendig.
Sådan installeres pdfocr:
sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get installer pdfocr
Sådan bruges pdfocr:
Åbn en terminal, gå til det bibliotek, hvor den PDF, du vil konvertere, er placeret, og indtast følgende (erstat input.pdf med den PDF, du vil konvertere og output.pdf med navnet på den nye fil med det indlejrede tekstlag )
pdfocr -i input.pdf -o output.pdf
Vent på, at hver side i din PDF bliver OCR, og at den endelige ændrede fil oprettes. Dette skal tage et par sekunder pr. Side, afhængigt af opløsningen på din PDF.
rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Læsepakke liste ... Udført
Oprettelse af afhængighedstræ
Læsning af statusoplysninger ... Udført
E: pdfocr-pakken kunne ikke findes
rodolfo @ rodolfo-desktop: ~ $
Sørgede du for at tilføje den tilsvarende PPA?
Denne PPA har sandsynligvis versioner af pdfocr til ældre Ubuntu-versioner. Tænk, at dette indlæg allerede er flere måneder gammelt. Under alle omstændigheder er ideen den samme. Gå til Launchpad, og se efter en PPA, der indeholder versioner af pdfocr til Maverick.
Skål! Paul.
Nå, det vil være et spørgsmål om at teste det for at se, hvordan det fungerer
Fortsæt! Fortæl os, hvis du havde succes !! Hvis det ikke virker, kan vi også prøve at hjælpe dig! Skål! Paul.
Hej,
Jeg har testet programmet på en pdf, og resultatet er ikke særlig godt. Jeg er vant til den professionelle acrobat 8 og ledte efter noget lignende. Acrobat sender hjælpeprogrammer til filerne for at rense og rette de scannede pdfs og dermed opnå en bedre kilde til ocr. Du ved, om der er en løsning på dette.
hilsener
Hej! Jeg har hørt, at Tesseract er den bedste open source OCR. Jeg ved ikke, om det vil være godt. Du skal også få dine hænder lidt beskidte for at få det til at fungere. Her er nogle instruktioner. Hvis du har succes, beder jeg dig om at lade mig vide, da hvis det virker, vil det sandsynligvis ende med at blive et indlæg.
Installer først pakkerne "tesseract 2.03-4" og "imagemagick" ved hjælp af Synaptic, "xsane2tess" fra "http://download.tuxfamily.org/guadausers/guadaV4/".
Opret derefter tmp-mappen i / home / dit brugernavn / tmp
Åbn derefter Xsane for at konfigurere det, Indstillinger–> Konfiguration–> OCR-fanen, og udfyld følgende:
OCR-kommando -> xsane2tess -l spa
Indtastningsfilmulighed -> -i
Indstilling for outputfil -> -o
Outputmulighed -fd interface -> -x
I Xsane-konfigurationer i fanen "gem" i den del, hvor der står midlertidig mappe, skal du sørge for, at der er mappen "tmp", som du oprettede i "/ home / dit brugernavn"
Jeg efterlader dig også en side med detaljer om, hvordan du gør OCR i Ubuntu: https://help.ubuntu.com/community/OCR
En anden metode, som jeg opdagede x der, er følgende:
Forudsat at scanneren allerede er tilsluttet og genkendt af systemet
1. Jeg åbner System> Administration> Synaptic Package Manager (i GNOME)
2. Jeg søger og rammer for at installere tesseract-ocr-spa (for at scanne på spansk) og gscan2pdf
3. For at scanne åbner jeg Programmer> Grafik> gscan2pdf
Og klar.
Hej ven, mange tak, sandheden er, at tesseract er et godt værktøj, men meget begrænset i forhold til bøger med "problematisk" scanning. På den anden side tilpasser denne software sig lettere ... 😀
I en proces med digitalisering af billeder konverteres PDF-A-filer, de skal OCRed. Hvor følsom over for resultatet er scanning i sort / hvid eller gråtoner? Hvad anbefales?