Hvordan OCR en PDF og aktivere tekstvalg og søk

Anta at du har en PDF som ble opprettet ved hjelp av en skanner, eller at den ble sendt til deg, men den inneholder informasjonen i form av et bilde. Fremgangsmåten som vi må sende inn vår elskede PDF, kalles OCR: en prosess som automatisk identifiserer symboler eller tegn som tilhører et bestemt alfabet, fra et bilde for å lagre det i form av data som vi kan samhandle med ved hjelp av et tekstredigeringsprogram eller lignende.


pdfocr er et enkelt verktøy som lager en ny PDF med et innebygd tekstlag, slik at brukeren kan velge tekst og søke etter ord i den, uten å endre det endelige utseendet til PDF-filen.

Hva pdfocr IKKE er for:

Dette fungerer bare hvis PDF-filen inneholder informasjonen i bildeform; Hvis du eksporterte PDF-filen fra OpenOffice, har den allerede et innebygd tekstlag, så denne prosedyren er unødvendig.

Slik installerer du pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get install pdfocr

Slik bruker du pdfocr:

Åpne en terminal, gå til katalogen der PDF-en du vil konvertere ligger, og skriv inn følgende (erstatt input.pdf med PDF-en du vil konvertere og output.pdf med navnet på den nye filen med det innebygde tekstlaget )

pdfocr -i input.pdf -o output.pdf

Vent til hver side i PDF-en din blir OCR og den endelige endrede filen skal opprettes. Dette bør ta noen sekunder per side, avhengig av oppløsningen på PDF-filen.


Legg igjen kommentaren

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

*

*

  1. Ansvarlig for dataene: Miguel Ángel Gatón
  2. Formålet med dataene: Kontroller SPAM, kommentaradministrasjon.
  3. Legitimering: Ditt samtykke
  4. Kommunikasjon av dataene: Dataene vil ikke bli kommunisert til tredjeparter bortsett fra ved juridisk forpliktelse.
  5. Datalagring: Database vert for Occentus Networks (EU)
  6. Rettigheter: Når som helst kan du begrense, gjenopprette og slette informasjonen din.

  1.   Rudolf Lara sa

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    Leseliste over pakker ... Ferdig
    Å skape avhengighetstre
    Les statusinformasjonen ... Ferdig
    E: pdfocr-pakken kunne ikke bli funnet
    rodolfo @ rodolfo-desktop: ~ $

  2.   La oss bruke Linux sa

    Sørget du for å legge til tilsvarende PPA?
    Denne PPA har sannsynligvis versjoner av pdfocr for eldre Ubuntu-versjoner. Tror at dette innlegget allerede er flere måneder gammelt. Uansett er ideen den samme. Gå til Launchpad og se etter en PPA som inneholder versjoner av pdfocr for Maverick.
    Jubel! Paul.

  3.   jvare sa

    Det vil være et spørsmål om å teste det for å se hvordan det fungerer

  4.   La oss bruke Linux sa

    Gå videre! Gi oss beskjed hvis du hadde suksess !! Hvis det ikke fungerer, kan vi også prøve å hjelpe deg! Jubel! Paul.

  5.   a01653 sa

    Hei,
    Jeg har testet programmet på en pdf og resultatet er ikke veldig bra. Jeg er vant til den profesjonelle akrobaten 8 og lette etter noe lignende. Acrobat sender verktøy til filene for å rense og rette de skannede pdfsene og dermed oppnå en bedre kilde for ocr. Vet du om det er en løsning på dette.

    En hilsen

  6.   La oss bruke Linux sa

    Hallo! Jeg har hørt rundt at Tesseract er den beste open source OCR. Jeg vet ikke om det blir bra. Du må også få hendene litt skitne for å få det til å fungere. Her er noen instruksjoner. Hvis du lykkes, kan du gi meg beskjed siden det, hvis det fungerer, sannsynligvis vil bli et innlegg.

    Installer først pakkene "tesseract 2.03-4" og "imagemagick" ved hjelp av Synaptic, "xsane2tess" fra "http://download.tuxfamily.org/guadausers/guadaV4/".

    Opprett deretter tmp-mappen i: / home / yourusername / tmp

    Åpne deretter Xsane for å konfigurere den, Innstillinger–> Konfigurasjon–> OCR-fanen og fyll ut følgende:

    OCR-kommando -> xsane2tess -l spa
    Inngangsfilalternativ -> -i
    Alternativ for utdatafil -> -o
    Utgangsalternativ -fd-grensesnitt -> -x

    I Xsane-konfigurasjoner i "lagre" -fanen i delen der det står midlertidig katalog, må du sørge for at det er "tmp" -mappen du opprettet i "/ home / yourusername"

    Jeg gir deg også en side med detaljer om hvordan du kan OCR i Ubuntu: https://help.ubuntu.com/community/OCR

  7.   La oss bruke Linux sa

    En annen metode som jeg oppdaget x der er følgende:

    Forutsatt at skanneren allerede er koblet til og gjenkjent av systemet

    1. Jeg åpner System> Administrasjon> Synaptic Package Manager (i GNOME)

    2. Søk og rammeverk for å installere tesseract-ocr-spa (for å skanne på spansk) og gscan2pdf

    3. For å skanne åpner jeg Programmer> Grafikk> gscan2pdf

    Og klar.

  8.   Trubadur sa

    Hei venn, tusen takk, sannheten er at tesseract er et godt verktøy, men veldig begrenset sammenlignet med bøker med "problematisk" skanning. På den annen side tilpasser denne programvaren seg lettere ... 😀

  9.   Juan Anez sa

    I en prosess med digitalisering av bilder konverteres PDF-A-filer, disse må være OCRed. Hvor følsomt for resultatet er skanning i svart-hvitt eller gråtoner? Hva anbefales?