Cómo aplicar OCR a un PDF y habilitar la selección y búsqueda de texto

Hoe u een PDF kunt herkennen en tekstselectie en zoeken kunt inschakelen

Stel dat u een pdf heeft die is gemaakt met een scanner, of die aan u is doorgegeven, maar deze bevat de informatie in de vorm van een afbeelding. De procedure waarnaar we onze geliefde pdf moeten indienen, wordt genoemd OCR: een proces dat automatisch symbolen of tekens identificeert die tot een bepaald alfabet behoren, van een afbeelding om deze op te slaan in de vorm van gegevens waarmee we kunnen communiceren met behulp van een tekstbewerkingsprogramma of iets dergelijks.

pdfocr is een eenvoudige tool die een nieuwe pdf maakt met een ingesloten tekstlaag, zodat de gebruiker tekst kan selecteren en erin kan zoeken naar woorden, zonder het uiteindelijke uiterlijk van de pdf te veranderen.

Waar pdfocr NIET voor is:

Dit is alleen handig als de pdf de informatie in beeldvorm bevat; als u de PDF uit OpenOffice heeft geëxporteerd, heeft deze al een ingesloten tekstlaag, dus deze procedure is niet nodig.

Hoe pdfocr te installeren:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get installeer pdfocr

Hoe pdfocr te gebruiken:

Open een terminal, ga naar de directory waar de PDF die u wilt converteren zich bevindt en voer het volgende in (vervang input.pdf door de PDF die u wilt converteren en output.pdf door de naam van het nieuwe bestand met de ingesloten tekstlaag )

pdfocr -i invoer.pdf -o uitvoer.pdf

Wacht tot elke pagina van uw PDF OCR heeft geoefend en het laatste gewijzigde bestand is gemaakt. Dit duurt enkele seconden per pagina, afhankelijk van de resolutie van uw pdf.

Laat je reactie achter Antwoord annuleren

Rudolph Lara zei
geleden Tot 11 jaar

rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Pakketlijst lezen ... Klaar
Afhankelijkheidsboom maken
De statusinformatie lezen ... Klaar
E: Het pdfocr-pakket kan niet worden gevonden
rodolfo @ rodolfo-desktop: ~ $

Reageer op Rodolfo Lara
Laten we Linux gebruiken zei
geleden Tot 11 jaar

Heeft u de bijbehorende PPA toegevoegd?
Deze PPA heeft waarschijnlijk versies van pdfocr voor oudere Ubuntu-versies. Denk dat dit bericht al enkele maanden oud is. Hoe dan ook, het idee is hetzelfde. Ga naar Launchpad en zoek naar een PPA die versies van pdfocr voor Maverick bevat.
Proost! Paul.

Reageer op Let's Use Linux
jvare zei
geleden Tot 11 jaar

Nou, het is een kwestie van testen om te zien hoe het werkt

Reageer op Jvare
Laten we Linux gebruiken zei
geleden Tot 11 jaar

Doe Maar! Laat ons weten of u succesvol was !! Mocht het niet lukken, dan kunnen we ook proberen u te helpen! Proost! Paul.

Reageer op Let's Use Linux
a01653 zei
geleden Tot 11 jaar

Hallo,
Ik heb het programma op een pdf getest en het resultaat is niet erg goed. Ik ben gewend aan de professionele acrobaat 8 en zocht iets soortgelijks. Acrobat geeft hulpprogramma's door aan de bestanden om de gescande pdf's op te schonen en recht te trekken en zo een betere bron voor de ocr te verkrijgen. Weet u of hier een oplossing voor is.

groeten

Reageer op a01653
Laten we Linux gebruiken zei
geleden Tot 11 jaar

Hallo! Ik heb gehoord dat Tesseract de beste opensource OCR is. Ik weet niet of het goed zal zijn. Je moet ook je handen een beetje vies maken om het te laten werken. Hier zijn enkele instructies. Als het je lukt, laat het me dan weten, want als het werkt, wordt het waarschijnlijk een bericht.

Installeer eerst de pakketten "tesseract 2.03-4" en "imagemagick" met Synaptic, "xsane2tess" van "http://download.tuxfamily.org/guadausers/guadaV4/".

Maak vervolgens de map tmp in: / home / uwgebruikersnaam / tmp

Open vervolgens Xsane om het te configureren, Voorkeuren–> Configuratie–> OCR-tabblad en vul het volgende in:

OCR-opdracht -> xsane2tess -l spa
Invoerbestand optie -> -i
Uitvoerbestand optie -> -o
Uitvoeroptie -fd interface -> -x

In Xsane-configuraties in de "save" tab in het gedeelte waar het tijdelijke directory zegt, zorg ervoor dat er de "tmp" map is die je aangemaakt hebt in "/ home / yourusername"

Ik laat ook een pagina achter met details over hoe je OCR in Ubuntu kunt doen: https://help.ubuntu.com/community/OCR

Reageer op Let's Use Linux
Laten we Linux gebruiken zei
geleden Tot 11 jaar

Een andere methode die ik ontdekte x daar is de volgende:

Ervan uitgaande dat de scanner al is aangesloten en door het systeem wordt herkend

1. Ik open Systeem> Beheer> Synaptic Package Manager (in GNOME)

2. Ik zoek en framework om tesseract-ocr-spa (om te scannen in het Spaans) en gscan2pdf te installeren

3. Om te scannen open ik Toepassingen> Afbeeldingen> gscan2pdf

En klaar.

Reageer op Let's Use Linux
Troubadour zei
geleden Tot 10 jaar

Hé vriend, heel erg bedankt, de waarheid is dat tesseract een goed hulpmiddel is, maar zeer beperkt in vergelijking met boeken met "problematisch" scannen. Aan de andere kant past deze software zich gemakkelijker aan ... 😀

Reageer op Trovadordebarro
Juan Anez zei
geleden Tot 10 jaar

Tijdens het digitaliseren van afbeeldingen worden PDF-A-bestanden geconverteerd, deze moeten worden herkend. Hoe gevoelig voor het resultaat is scannen in zwart-wit of grijstinten? Wat wordt aanbevolen?

Reageer op juan anez