Hvordan OCR en PDF og aktivere tekstvalg og søk

Anta at du har en PDF som ble opprettet ved hjelp av en skanner, eller at den ble sendt til deg, men den inneholder informasjonen i form av et bilde. Fremgangsmåten som vi må sende inn vår elskede PDF, kalles OCR: en prosess som automatisk identifiserer symboler eller tegn som tilhører et bestemt alfabet, fra et bilde for å lagre det i form av data som vi kan samhandle med ved hjelp av et tekstredigeringsprogram eller lignende.

pdfocr er et enkelt verktøy som lager en ny PDF med et innebygd tekstlag, slik at brukeren kan velge tekst og søke etter ord i den, uten å endre det endelige utseendet til PDF-filen.

Hva pdfocr IKKE er for:

Dette fungerer bare hvis PDF-filen inneholder informasjonen i bildeform; Hvis du eksporterte PDF-filen fra OpenOffice, har den allerede et innebygd tekstlag, så denne prosedyren er unødvendig.

Slik installerer du pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get install pdfocr

Slik bruker du pdfocr:

Åpne en terminal, gå til katalogen der PDF-en du vil konvertere ligger, og skriv inn følgende (erstatt input.pdf med PDF-en du vil konvertere og output.pdf med navnet på den nye filen med det innebygde tekstlaget )

pdfocr -i input.pdf -o output.pdf

Vent til hver side i PDF-en din blir OCR og den endelige endrede filen skal opprettes. Dette bør ta noen sekunder per side, avhengig av oppløsningen på PDF-filen.

Legg igjen kommentaren Avbryt svar

Rudolf Lara sa
hace 11 år

rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Leseliste over pakker ... Ferdig
Å skape avhengighetstre
Les statusinformasjonen ... Ferdig
E: pdfocr-pakken kunne ikke bli funnet
rodolfo @ rodolfo-desktop: ~ $

Svar til Rodolfo Lara
La oss bruke Linux sa
hace 11 år

Sørget du for å legge til tilsvarende PPA?
Denne PPA har sannsynligvis versjoner av pdfocr for eldre Ubuntu-versjoner. Tror at dette innlegget allerede er flere måneder gammelt. Uansett er ideen den samme. Gå til Launchpad og se etter en PPA som inneholder versjoner av pdfocr for Maverick.
Jubel! Paul.

Svar på La oss bruke Linux
jvare sa
hace 11 år

Det vil være et spørsmål om å teste det for å se hvordan det fungerer

Svar til Jvare
La oss bruke Linux sa
hace 11 år

Gå videre! Gi oss beskjed hvis du hadde suksess !! Hvis det ikke fungerer, kan vi også prøve å hjelpe deg! Jubel! Paul.

Svar på La oss bruke Linux
a01653 sa
hace 11 år

Hei,
Jeg har testet programmet på en pdf og resultatet er ikke veldig bra. Jeg er vant til den profesjonelle akrobaten 8 og lette etter noe lignende. Acrobat sender verktøy til filene for å rense og rette de skannede pdfsene og dermed oppnå en bedre kilde for ocr. Vet du om det er en løsning på dette.

En hilsen

Svar på a01653
La oss bruke Linux sa
hace 11 år

Hallo! Jeg har hørt rundt at Tesseract er den beste open source OCR. Jeg vet ikke om det blir bra. Du må også få hendene litt skitne for å få det til å fungere. Her er noen instruksjoner. Hvis du lykkes, kan du gi meg beskjed siden det, hvis det fungerer, sannsynligvis vil bli et innlegg.

Installer først pakkene "tesseract 2.03-4" og "imagemagick" ved hjelp av Synaptic, "xsane2tess" fra "http://download.tuxfamily.org/guadausers/guadaV4/".

Opprett deretter tmp-mappen i: / home / yourusername / tmp

Åpne deretter Xsane for å konfigurere den, Innstillinger–> Konfigurasjon–> OCR-fanen og fyll ut følgende:

OCR-kommando -> xsane2tess -l spa
Inngangsfilalternativ -> -i
Alternativ for utdatafil -> -o
Utgangsalternativ -fd-grensesnitt -> -x

I Xsane-konfigurasjoner i "lagre" -fanen i delen der det står midlertidig katalog, må du sørge for at det er "tmp" -mappen du opprettet i "/ home / yourusername"

Jeg gir deg også en side med detaljer om hvordan du kan OCR i Ubuntu: https://help.ubuntu.com/community/OCR

Svar på La oss bruke Linux
La oss bruke Linux sa
hace 11 år

En annen metode som jeg oppdaget x der er følgende:

Forutsatt at skanneren allerede er koblet til og gjenkjent av systemet

1. Jeg åpner System> Administrasjon> Synaptic Package Manager (i GNOME)

2. Søk og rammeverk for å installere tesseract-ocr-spa (for å skanne på spansk) og gscan2pdf

3. For å skanne åpner jeg Programmer> Grafikk> gscan2pdf

Og klar.

Svar på La oss bruke Linux
Trubadur sa
hace 10 år

Hei venn, tusen takk, sannheten er at tesseract er et godt verktøy, men veldig begrenset sammenlignet med bøker med "problematisk" skanning. På den annen side tilpasser denne programvaren seg lettere ... 😀

Svar på Trovadordebarro
Juan Anez sa
hace 10 år

I en prosess med digitalisering av bilder konverteres PDF-A-filer, disse må være OCRed. Hvor følsomt for resultatet er skanning i svart-hvitt eller gråtoner? Hva anbefales?

Svar på Juan Anez