Hur man OCR en PDF och aktiverar textval och sökning

Anta att du har en PDF som skapades med hjälp av en skanner, eller att de skickade den till dig men den innehåller informationen i form av en bild. Förfarandet som vi måste skicka in vår älskade PDF kallas för OCR: en process som automatiskt identifierar symboler eller tecken som tillhör ett visst alfabet, från en bild för att lagra den i form av data som vi kan interagera med med hjälp av ett textredigeringsprogram eller liknande.


pdfocr är ett enkelt verktyg som skapar en ny PDF med ett inbäddat textlager, vilket gör att användaren kan välja text och söka efter ord i den utan att ändra det slutliga utseendet på PDF-filen.

Vad pdfocr INTE är för:

Detta är bara användbart om PDF-filen innehåller informationen som en bild; om du exporterade PDF: n från OpenOffice har den redan ett inbäddat textlager, så den här proceduren är onödig.

Så här installerar du pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get installera pdfocr

Hur man använder pdfocr:

Öppna en terminal, gå till katalogen där PDF-filen du vill konvertera finns och ange följande (ersätt input.pdf med PDF-filen som du vill konvertera och output.pdf med namnet på den nya filen med det inbäddade textlagret)

pdfocr -i input.pdf -o output.pdf

Vänta på att varje sida i din PDF ska vara OCR och att den slutliga modifierade filen ska skapas. Detta bör ta några sekunder per sida, beroende på upplösningen på din PDF.


Lämna din kommentar

Din e-postadress kommer inte att publiceras. Obligatoriska fält är markerade med *

*

*

  1. Ansvarig för uppgifterna: Miguel Ángel Gatón
  2. Syftet med uppgifterna: Kontrollera skräppost, kommentarhantering.
  3. Legitimering: Ditt samtycke
  4. Kommunikation av uppgifterna: Uppgifterna kommer inte att kommuniceras till tredje part förutom enligt laglig skyldighet.
  5. Datalagring: databas värd för Occentus Networks (EU)
  6. Rättigheter: När som helst kan du begränsa, återställa och radera din information.

  1.   Rudolf Lara sade

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    Läser paketlista ... Klar
    Skapa beroendeträd
    Läser statusinformation ... Klar
    E: pdfocr-paketet kunde inte hittas
    rodolfo @ rodolfo-desktop: ~ $

  2.   Låt oss använda Linux sade

    Var du säker på att lägga till motsvarande PPA?
    Denna PPA har sannolikt versioner av pdfocr för äldre Ubuntu-versioner. Tänk att det här inlägget redan är flera månader gammalt. Hur som helst, idén är densamma. Gå till Launchpad och leta efter en PPA som innehåller versioner av pdfocr för Maverick.
    Skål! Paul.

  3.   jvare sade

    Tja, det kommer att handla om att testa det för att se hur det fungerar

  4.   Låt oss använda Linux sade

    Varsågod! Låt oss veta om du lyckades !! Om det inte fungerar kan vi också försöka hjälpa dig! Skål! Paul.

  5.   a01653 sade

    Hej,
    Jag har testat programmet på en pdf och resultatet är inte särskilt bra. Jag är van vid den professionella akrobaten 8 och letade efter något liknande. Acrobat skickar verktyg till filerna för att rensa och räta ut de skannade pdfs och därmed få en bättre källa för ocr. Du vet om det finns en lösning för detta.

    hälsningar

  6.   Låt oss använda Linux sade

    Hallå! Jag har hört att Tesseract är den bästa open source OCR. Jag vet inte om det kommer att bli bra. Du måste också få händerna lite smutsiga för att få det att fungera. Här är några instruktioner. Om du lyckas, var snäll och låt mig veta det, om det fungerar kommer det antagligen att bli ett inlägg.

    Installera först paketen "tesseract 2.03-4" och "imagemagick" med Synaptic, "xsane2tess" från "http://download.tuxfamily.org/guadausers/guadaV4/".

    Skapa sedan tmp-mappen i: / home / dittanvändarnamn / tmp

    Öppna sedan Xsane för att konfigurera det, Inställningar–> Konfiguration–> fliken OCR och fyll i följande:

    OCR-kommando -> xsane2tess -l spa
    Inmatningsfilalternativ -> -i
    Alternativ för utdatafil -> -o
    Utmatningsalternativ -fd-gränssnitt -> -x

    I Xsane-konfigurationer på fliken "spara" i den del där det står tillfällig katalog, se till att det finns "tmp" -mappen som du skapade i "/ home / yourusername"

    Jag lämnar också en sida med detaljer om hur man gör OCR i Ubuntu: https://help.ubuntu.com/community/OCR

  7.   Låt oss använda Linux sade

    En annan metod som jag upptäckte x där är följande:

    Förutsatt att skannern redan har anslutits och känts igen av systemet

    1. Jag öppnar System> Administration> Synaptic Package Manager (i GNOME)

    2. Sök och ramverk för att installera tesseract-ocr-spa (för att skanna på spanska) och gscan2pdf

    3. För att skanna öppnar jag Program> Grafik> gscan2pdf

    Och redo.

  8.   Trubadur sade

    Hej vän, tack så mycket, sanningen är att tesseract är ett bra verktyg, men mycket begränsat jämfört med böcker med "problematisk" skanning. Å andra sidan anpassar sig denna programvara lättare ... 😀

  9.   Juan Anez sade

    I en process med digitalisering av bilder konverteras PDF-A-filer, dessa måste vara OCRed. Hur känslig för resultatet är skanning i svartvitt eller gråskala? Vad rekommenderas?