Hur man OCR en PDF och aktiverar textval och sökning

Anta att du har en PDF som skapades med hjälp av en skanner, eller att de skickade den till dig men den innehåller informationen i form av en bild. Förfarandet som vi måste skicka in vår älskade PDF kallas för OCR: en process som automatiskt identifierar symboler eller tecken som tillhör ett visst alfabet, från en bild för att lagra den i form av data som vi kan interagera med med hjälp av ett textredigeringsprogram eller liknande.

pdfocr är ett enkelt verktyg som skapar en ny PDF med ett inbäddat textlager, vilket gör att användaren kan välja text och söka efter ord i den utan att ändra det slutliga utseendet på PDF-filen.

Vad pdfocr INTE är för:

Detta är bara användbart om PDF-filen innehåller informationen som en bild; om du exporterade PDF: n från OpenOffice har den redan ett inbäddat textlager, så den här proceduren är onödig.

Så här installerar du pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get installera pdfocr

Hur man använder pdfocr:

Öppna en terminal, gå till katalogen där PDF-filen du vill konvertera finns och ange följande (ersätt input.pdf med PDF-filen som du vill konvertera och output.pdf med namnet på den nya filen med det inbäddade textlagret)

pdfocr -i input.pdf -o output.pdf

Vänta på att varje sida i din PDF ska vara OCR och att den slutliga modifierade filen ska skapas. Detta bör ta några sekunder per sida, beroende på upplösningen på din PDF.

Lämna din kommentar Avbryt svar

Rudolf Lara sade
sedan 11 år

rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Läser paketlista ... Klar
Skapa beroendeträd
Läser statusinformation ... Klar
E: pdfocr-paketet kunde inte hittas
rodolfo @ rodolfo-desktop: ~ $

Svar till Rodolfo Lara
Låt oss använda Linux sade
sedan 11 år

Var du säker på att lägga till motsvarande PPA?
Denna PPA har sannolikt versioner av pdfocr för äldre Ubuntu-versioner. Tänk att det här inlägget redan är flera månader gammalt. Hur som helst, idén är densamma. Gå till Launchpad och leta efter en PPA som innehåller versioner av pdfocr för Maverick.
Skål! Paul.

Svara på Låt oss använda Linux
jvare sade
sedan 11 år

Tja, det kommer att handla om att testa det för att se hur det fungerar

Svara på Jvare
Låt oss använda Linux sade
sedan 11 år

Varsågod! Låt oss veta om du lyckades !! Om det inte fungerar kan vi också försöka hjälpa dig! Skål! Paul.

Svara på Låt oss använda Linux
a01653 sade
sedan 11 år

Hej,
Jag har testat programmet på en pdf och resultatet är inte särskilt bra. Jag är van vid den professionella akrobaten 8 och letade efter något liknande. Acrobat skickar verktyg till filerna för att rensa och räta ut de skannade pdfs och därmed få en bättre källa för ocr. Du vet om det finns en lösning för detta.

hälsningar

Svara på a01653
Låt oss använda Linux sade
sedan 11 år

Hallå! Jag har hört att Tesseract är den bästa open source OCR. Jag vet inte om det kommer att bli bra. Du måste också få händerna lite smutsiga för att få det att fungera. Här är några instruktioner. Om du lyckas, var snäll och låt mig veta det, om det fungerar kommer det antagligen att bli ett inlägg.

Installera först paketen "tesseract 2.03-4" och "imagemagick" med Synaptic, "xsane2tess" från "http://download.tuxfamily.org/guadausers/guadaV4/".

Skapa sedan tmp-mappen i: / home / dittanvändarnamn / tmp

Öppna sedan Xsane för att konfigurera det, Inställningar–> Konfiguration–> fliken OCR och fyll i följande:

OCR-kommando -> xsane2tess -l spa
Inmatningsfilalternativ -> -i
Alternativ för utdatafil -> -o
Utmatningsalternativ -fd-gränssnitt -> -x

I Xsane-konfigurationer på fliken "spara" i den del där det står tillfällig katalog, se till att det finns "tmp" -mappen som du skapade i "/ home / yourusername"

Jag lämnar också en sida med detaljer om hur man gör OCR i Ubuntu: https://help.ubuntu.com/community/OCR

Svara på Låt oss använda Linux
Låt oss använda Linux sade
sedan 11 år

En annan metod som jag upptäckte x där är följande:

Förutsatt att skannern redan har anslutits och känts igen av systemet

1. Jag öppnar System> Administration> Synaptic Package Manager (i GNOME)

2. Sök och ramverk för att installera tesseract-ocr-spa (för att skanna på spanska) och gscan2pdf

3. För att skanna öppnar jag Program> Grafik> gscan2pdf

Och redo.

Svara på Låt oss använda Linux
Trubadur sade
sedan 10 år

Hej vän, tack så mycket, sanningen är att tesseract är ett bra verktyg, men mycket begränsat jämfört med böcker med "problematisk" skanning. Å andra sidan anpassar sig denna programvara lättare ... 😀

Svara på Trovadordebarro
Juan Anez sade
sedan 10 år

I en process med digitalisering av bilder konverteras PDF-A-filer, dessa måste vara OCRed. Hur känslig för resultatet är skanning i svartvitt eller gråskala? Vad rekommenderas?

Svara juan anez