Hoe u een PDF kunt herkennen en tekstselectie en zoeken kunt inschakelen

Stel dat u een pdf heeft die is gemaakt met een scanner, of die aan u is doorgegeven, maar deze bevat de informatie in de vorm van een afbeelding. De procedure waarnaar we onze geliefde pdf moeten indienen, wordt genoemd OCR: een proces dat automatisch symbolen of tekens identificeert die tot een bepaald alfabet behoren, van een afbeelding om deze op te slaan in de vorm van gegevens waarmee we kunnen communiceren met behulp van een tekstbewerkingsprogramma of iets dergelijks.


pdfocr is een eenvoudige tool die een nieuwe pdf maakt met een ingesloten tekstlaag, zodat de gebruiker tekst kan selecteren en erin kan zoeken naar woorden, zonder het uiteindelijke uiterlijk van de pdf te veranderen.

Waar pdfocr NIET voor is:

Dit is alleen handig als de pdf de informatie in beeldvorm bevat; als u de PDF uit OpenOffice heeft geëxporteerd, heeft deze al een ingesloten tekstlaag, dus deze procedure is niet nodig.

Hoe pdfocr te installeren:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get installeer pdfocr

Hoe pdfocr te gebruiken:

Open een terminal, ga naar de directory waar de PDF die u wilt converteren zich bevindt en voer het volgende in (vervang input.pdf door de PDF die u wilt converteren en output.pdf door de naam van het nieuwe bestand met de ingesloten tekstlaag )

pdfocr -i invoer.pdf -o uitvoer.pdf

Wacht tot elke pagina van uw PDF OCR heeft geoefend en het laatste gewijzigde bestand is gemaakt. Dit duurt enkele seconden per pagina, afhankelijk van de resolutie van uw pdf.


Laat je reactie achter

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *

*

*

  1. Verantwoordelijk voor de gegevens: Miguel Ángel Gatón
  2. Doel van de gegevens: Controle SPAM, commentaarbeheer.
  3. Legitimatie: uw toestemming
  4. Mededeling van de gegevens: De gegevens worden niet aan derden meegedeeld, behalve op grond van wettelijke verplichting.
  5. Gegevensopslag: database gehost door Occentus Networks (EU)
  6. Rechten: u kunt uw gegevens op elk moment beperken, herstellen en verwijderen.

  1.   Rudolph Lara zei

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    Pakketlijst lezen ... Klaar
    Afhankelijkheidsboom maken
    De statusinformatie lezen ... Klaar
    E: Het pdfocr-pakket kan niet worden gevonden
    rodolfo @ rodolfo-desktop: ~ $

  2.   Laten we Linux gebruiken zei

    Heeft u de bijbehorende PPA toegevoegd?
    Deze PPA heeft waarschijnlijk versies van pdfocr voor oudere Ubuntu-versies. Denk dat dit bericht al enkele maanden oud is. Hoe dan ook, het idee is hetzelfde. Ga naar Launchpad en zoek naar een PPA die versies van pdfocr voor Maverick bevat.
    Proost! Paul.

  3.   jvare zei

    Nou, het is een kwestie van testen om te zien hoe het werkt

  4.   Laten we Linux gebruiken zei

    Doe Maar! Laat ons weten of u succesvol was !! Mocht het niet lukken, dan kunnen we ook proberen u te helpen! Proost! Paul.

  5.   a01653 zei

    Hallo,
    Ik heb het programma op een pdf getest en het resultaat is niet erg goed. Ik ben gewend aan de professionele acrobaat 8 en zocht iets soortgelijks. Acrobat geeft hulpprogramma's door aan de bestanden om de gescande pdf's op te schonen en recht te trekken en zo een betere bron voor de ocr te verkrijgen. Weet u of hier een oplossing voor is.

    groeten

  6.   Laten we Linux gebruiken zei

    Hallo! Ik heb gehoord dat Tesseract de beste opensource OCR is. Ik weet niet of het goed zal zijn. Je moet ook je handen een beetje vies maken om het te laten werken. Hier zijn enkele instructies. Als het je lukt, laat het me dan weten, want als het werkt, wordt het waarschijnlijk een bericht.

    Installeer eerst de pakketten "tesseract 2.03-4" en "imagemagick" met Synaptic, "xsane2tess" van "http://download.tuxfamily.org/guadausers/guadaV4/".

    Maak vervolgens de map tmp in: / home / uwgebruikersnaam / tmp

    Open vervolgens Xsane om het te configureren, Voorkeuren–> Configuratie–> OCR-tabblad en vul het volgende in:

    OCR-opdracht -> xsane2tess -l spa
    Invoerbestand optie -> -i
    Uitvoerbestand optie -> -o
    Uitvoeroptie -fd interface -> -x

    In Xsane-configuraties in de "save" tab in het gedeelte waar het tijdelijke directory zegt, zorg ervoor dat er de "tmp" map is die je aangemaakt hebt in "/ home / yourusername"

    Ik laat ook een pagina achter met details over hoe je OCR in Ubuntu kunt doen: https://help.ubuntu.com/community/OCR

  7.   Laten we Linux gebruiken zei

    Een andere methode die ik ontdekte x daar is de volgende:

    Ervan uitgaande dat de scanner al is aangesloten en door het systeem wordt herkend

    1. Ik open Systeem> Beheer> Synaptic Package Manager (in GNOME)

    2. Ik zoek en framework om tesseract-ocr-spa (om te scannen in het Spaans) en gscan2pdf te installeren

    3. Om te scannen open ik Toepassingen> Afbeeldingen> gscan2pdf

    En klaar.

  8.   Troubadour zei

    Hé vriend, heel erg bedankt, de waarheid is dat tesseract een goed hulpmiddel is, maar zeer beperkt in vergelijking met boeken met "problematisch" scannen. Aan de andere kant past deze software zich gemakkelijker aan ... 😀

  9.   Juan Anez zei

    Tijdens het digitaliseren van afbeeldingen worden PDF-A-bestanden geconverteerd, deze moeten worden herkend. Hoe gevoelig voor het resultaat is scannen in zwart-wit of grijstinten? Wat wordt aanbevolen?