Anta at du har en PDF som ble opprettet ved hjelp av en skanner, eller at den ble sendt til deg, men den inneholder informasjonen i form av et bilde. Fremgangsmåten som vi må sende inn vår elskede PDF, kalles OCR: en prosess som automatisk identifiserer symboler eller tegn som tilhører et bestemt alfabet, fra et bilde for å lagre det i form av data som vi kan samhandle med ved hjelp av et tekstredigeringsprogram eller lignende. |
pdfocr er et enkelt verktøy som lager en ny PDF med et innebygd tekstlag, slik at brukeren kan velge tekst og søke etter ord i den, uten å endre det endelige utseendet til PDF-filen.
Hva pdfocr IKKE er for:
Dette fungerer bare hvis PDF-filen inneholder informasjonen i bildeform; Hvis du eksporterte PDF-filen fra OpenOffice, har den allerede et innebygd tekstlag, så denne prosedyren er unødvendig.
Slik installerer du pdfocr:
sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get install pdfocr
Slik bruker du pdfocr:
Åpne en terminal, gå til katalogen der PDF-en du vil konvertere ligger, og skriv inn følgende (erstatt input.pdf med PDF-en du vil konvertere og output.pdf med navnet på den nye filen med det innebygde tekstlaget )
pdfocr -i input.pdf -o output.pdf
Vent til hver side i PDF-en din blir OCR og den endelige endrede filen skal opprettes. Dette bør ta noen sekunder per side, avhengig av oppløsningen på PDF-filen.
rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Leseliste over pakker ... Ferdig
Å skape avhengighetstre
Les statusinformasjonen ... Ferdig
E: pdfocr-pakken kunne ikke bli funnet
rodolfo @ rodolfo-desktop: ~ $
Sørget du for å legge til tilsvarende PPA?
Denne PPA har sannsynligvis versjoner av pdfocr for eldre Ubuntu-versjoner. Tror at dette innlegget allerede er flere måneder gammelt. Uansett er ideen den samme. Gå til Launchpad og se etter en PPA som inneholder versjoner av pdfocr for Maverick.
Jubel! Paul.
Det vil være et spørsmål om å teste det for å se hvordan det fungerer
Gå videre! Gi oss beskjed hvis du hadde suksess !! Hvis det ikke fungerer, kan vi også prøve å hjelpe deg! Jubel! Paul.
Hei,
Jeg har testet programmet på en pdf og resultatet er ikke veldig bra. Jeg er vant til den profesjonelle akrobaten 8 og lette etter noe lignende. Acrobat sender verktøy til filene for å rense og rette de skannede pdfsene og dermed oppnå en bedre kilde for ocr. Vet du om det er en løsning på dette.
En hilsen
Hallo! Jeg har hørt rundt at Tesseract er den beste open source OCR. Jeg vet ikke om det blir bra. Du må også få hendene litt skitne for å få det til å fungere. Her er noen instruksjoner. Hvis du lykkes, kan du gi meg beskjed siden det, hvis det fungerer, sannsynligvis vil bli et innlegg.
Installer først pakkene "tesseract 2.03-4" og "imagemagick" ved hjelp av Synaptic, "xsane2tess" fra "http://download.tuxfamily.org/guadausers/guadaV4/".
Opprett deretter tmp-mappen i: / home / yourusername / tmp
Åpne deretter Xsane for å konfigurere den, Innstillinger–> Konfigurasjon–> OCR-fanen og fyll ut følgende:
OCR-kommando -> xsane2tess -l spa
Inngangsfilalternativ -> -i
Alternativ for utdatafil -> -o
Utgangsalternativ -fd-grensesnitt -> -x
I Xsane-konfigurasjoner i "lagre" -fanen i delen der det står midlertidig katalog, må du sørge for at det er "tmp" -mappen du opprettet i "/ home / yourusername"
Jeg gir deg også en side med detaljer om hvordan du kan OCR i Ubuntu: https://help.ubuntu.com/community/OCR
En annen metode som jeg oppdaget x der er følgende:
Forutsatt at skanneren allerede er koblet til og gjenkjent av systemet
1. Jeg åpner System> Administrasjon> Synaptic Package Manager (i GNOME)
2. Søk og rammeverk for å installere tesseract-ocr-spa (for å skanne på spansk) og gscan2pdf
3. For å skanne åpner jeg Programmer> Grafikk> gscan2pdf
Og klar.
Hei venn, tusen takk, sannheten er at tesseract er et godt verktøy, men veldig begrenset sammenlignet med bøker med "problematisk" skanning. På den annen side tilpasser denne programvaren seg lettere ... 😀
I en prosess med digitalisering av bilder konverteres PDF-A-filer, disse må være OCRed. Hvor følsomt for resultatet er skanning i svart-hvitt eller gråtoner? Hva anbefales?