Sådan OCR en PDF og aktivere tekstvalg og søgning

Antag at du har en PDF-fil, der blev oprettet ved hjælp af en scanner, eller at de sendte den til dig, men den indeholder oplysningerne i form af et billede. Den procedure, som vi skal indsende vores elskede PDF, kaldes til OCR: en proces, der automatisk identificerer symboler eller tegn, der hører til et bestemt alfabet, fra et billede til at gemme det i form af data, som vi kan interagere med via et tekstredigeringsprogram eller lignende.


pdfocr er et simpelt værktøj, der opretter en ny PDF med et indlejret tekstlag, der giver brugeren mulighed for at vælge tekst og søge efter ord i den uden at ændre det endelige udseende af PDF'en.

Hvad pdfocr IKKE er til:

Dette er kun nyttigt, hvis PDF-filen indeholder oplysningerne i billedform; Hvis du eksporterede PDF'en fra OpenOffice, har den allerede et indlejret tekstlag, så denne procedure er unødvendig.

Sådan installeres pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get installer pdfocr

Sådan bruges pdfocr:

Åbn en terminal, gå til det bibliotek, hvor den PDF, du vil konvertere, er placeret, og indtast følgende (erstat input.pdf med den PDF, du vil konvertere og output.pdf med navnet på den nye fil med det indlejrede tekstlag )

pdfocr -i input.pdf -o output.pdf

Vent på, at hver side i din PDF bliver OCR, og at den endelige ændrede fil oprettes. Dette skal tage et par sekunder pr. Side, afhængigt af opløsningen på din PDF.


Efterlad din kommentar

Din e-mailadresse vil ikke blive offentliggjort. Obligatoriske felter er markeret med *

*

*

  1. Ansvarlig for dataene: Miguel Ángel Gatón
  2. Formålet med dataene: Control SPAM, management af kommentarer.
  3. Legitimering: Dit samtykke
  4. Kommunikation af dataene: Dataene vil ikke blive kommunikeret til tredjemand, undtagen ved juridisk forpligtelse.
  5. Datalagring: Database hostet af Occentus Networks (EU)
  6. Rettigheder: Du kan til enhver tid begrænse, gendanne og slette dine oplysninger.

  1.   Rudolf Lara sagde han

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    Læsepakke liste ... Udført
    Oprettelse af afhængighedstræ
    Læsning af statusoplysninger ... Udført
    E: pdfocr-pakken kunne ikke findes
    rodolfo @ rodolfo-desktop: ~ $

  2.   Lad os bruge Linux sagde han

    Sørgede du for at tilføje den tilsvarende PPA?
    Denne PPA har sandsynligvis versioner af pdfocr til ældre Ubuntu-versioner. Tænk, at dette indlæg allerede er flere måneder gammelt. Under alle omstændigheder er ideen den samme. Gå til Launchpad, og se efter en PPA, der indeholder versioner af pdfocr til Maverick.
    Skål! Paul.

  3.   jvare sagde han

    Nå, det vil være et spørgsmål om at teste det for at se, hvordan det fungerer

  4.   Lad os bruge Linux sagde han

    Fortsæt! Fortæl os, hvis du havde succes !! Hvis det ikke virker, kan vi også prøve at hjælpe dig! Skål! Paul.

  5.   a01653 sagde han

    Hej,
    Jeg har testet programmet på en pdf, og resultatet er ikke særlig godt. Jeg er vant til den professionelle acrobat 8 ​​og ledte efter noget lignende. Acrobat sender hjælpeprogrammer til filerne for at rense og rette de scannede pdfs og dermed opnå en bedre kilde til ocr. Du ved, om der er en løsning på dette.

    hilsener

  6.   Lad os bruge Linux sagde han

    Hej! Jeg har hørt, at Tesseract er den bedste open source OCR. Jeg ved ikke, om det vil være godt. Du skal også få dine hænder lidt beskidte for at få det til at fungere. Her er nogle instruktioner. Hvis du har succes, beder jeg dig om at lade mig vide, da hvis det virker, vil det sandsynligvis ende med at blive et indlæg.

    Installer først pakkerne "tesseract 2.03-4" og "imagemagick" ved hjælp af Synaptic, "xsane2tess" fra "http://download.tuxfamily.org/guadausers/guadaV4/".

    Opret derefter tmp-mappen i / home / dit brugernavn / tmp

    Åbn derefter Xsane for at konfigurere det, Indstillinger–> Konfiguration–> OCR-fanen, og udfyld følgende:

    OCR-kommando -> xsane2tess -l spa
    Indtastningsfilmulighed -> -i
    Indstilling for outputfil -> -o
    Outputmulighed -fd interface -> -x

    I Xsane-konfigurationer i fanen "gem" i den del, hvor der står midlertidig mappe, skal du sørge for, at der er mappen "tmp", som du oprettede i "/ home / dit brugernavn"

    Jeg efterlader dig også en side med detaljer om, hvordan du gør OCR i Ubuntu: https://help.ubuntu.com/community/OCR

  7.   Lad os bruge Linux sagde han

    En anden metode, som jeg opdagede x der, er følgende:

    Forudsat at scanneren allerede er tilsluttet og genkendt af systemet

    1. Jeg åbner System> Administration> Synaptic Package Manager (i GNOME)

    2. Jeg søger og rammer for at installere tesseract-ocr-spa (for at scanne på spansk) og gscan2pdf

    3. For at scanne åbner jeg Programmer> Grafik> gscan2pdf

    Og klar.

  8.   Trubadur sagde han

    Hej ven, mange tak, sandheden er, at tesseract er et godt værktøj, men meget begrænset i forhold til bøger med "problematisk" scanning. På den anden side tilpasser denne software sig lettere ... 😀

  9.   Juan Anez sagde han

    I en proces med digitalisering af billeder konverteres PDF-A-filer, de skal OCRed. Hvor følsom over for resultatet er scanning i sort / hvid eller gråtoner? Hvad anbefales?