Kako optično prepoznati PDF in omogočiti izbiro in iskanje besedila

Recimo, da imate PDF, ki je bil ustvarjen s pomočjo optičnega bralnika ali pa so vam ga poslali, vendar vsebuje informacije v obliki slike. Poklican je postopek, v katerega moramo oddati svoj najljubši PDF OCR: postopek, ki samodejno prepozna simbole ali znake, ki pripadajo določeni abecedi, od slike, da jo shrani v obliki podatkov, s katerimi lahko sodelujemo prek programa za urejanje besedila ali podobnega.


pdfocr je preprosto orodje, ki ustvari nov PDF z vdelano besedilno plastjo, ki uporabniku omogoča izbiro besedila in iskanje besed v njem, ne da bi spremenil končni videz PDF-ja.

Čemu pdfocr NI namenjen:

To je uporabno le, če PDF vsebuje informacije v slikovni obliki; če ste PDF izvozili iz OpenOffice, že ima vdelano besedilno plast, zato ta postopek ni potreben.

Kako namestiti pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo update apt-get
sudo apt-get namestite pdfocr

Kako uporabljati pdfocr:

Odprite terminal, pojdite v imenik, v katerem se nahaja PDF, ki ga želite pretvoriti, in vnesite naslednje (zamenjajte input.pdf s PDF, ki ga želite pretvoriti, in output.pdf z imenom nove datoteke z vdelano besedilno plastjo)

pdfocr -i vhod.pdf -o izhod.pdf

Počakajte, da se vsaka stran PDF-ja izvaja z OCR in da se ustvari končna spremenjena datoteka. To bi trajalo nekaj sekund na stran, odvisno od ločljivosti vašega PDF-ja.


Pustite svoj komentar

Vaš e-naslov ne bo objavljen. Obvezna polja so označena z *

*

*

  1. Za podatke odgovoren: Miguel Ángel Gatón
  2. Namen podatkov: Nadzor neželene pošte, upravljanje komentarjev.
  3. Legitimacija: Vaše soglasje
  4. Sporočanje podatkov: Podatki se ne bodo posredovali tretjim osebam, razen po zakonski obveznosti.
  5. Shranjevanje podatkov: Zbirka podatkov, ki jo gosti Occentus Networks (EU)
  6. Pravice: Kadar koli lahko omejite, obnovite in izbrišete svoje podatke.

  1.   Rudolph Lara je dejal

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    Branje seznama paketov ... Končano
    Ustvarjanje drevesa odvisnosti
    Branje informacij o stanju ... Končano
    E: Paketa pdfocr ni bilo mogoče najti
    rodolfo @ rodolfo-namizje: ~ $

  2.   Uporabimo Linux je dejal

    Ste zagotovo dodali ustrezen PPA?
    Ta PPA verjetno vsebuje različice pdfocr za starejše različice Ubuntuja. Pomislite, da je ta objava stara že nekaj mesecev. Kakorkoli že, ideja je ista. Pojdite na Launchpad in poiščite PPA, ki vsebuje različice pdfocr za Maverick.
    Na zdravje! Paul.

  3.   jvare je dejal

    No, stvar bo preizkusiti, da vidim, kako deluje

  4.   Uporabimo Linux je dejal

    Kar daj! Sporočite nam, če ste bili uspešni !! Če ne deluje, vam lahko poskusimo tudi pomagati! Na zdravje! Paul.

  5.   a01653 je dejal

    Pozdravljeni,
    Program sem preizkusil v pdf in rezultat ni zelo dober. Navajen sem profesionalnega akrobata 8 in iskal sem nekaj podobnega. Acrobat posreduje pripomočke datotekam za čiščenje in poravnavanje optično prebranih datotek pdfs in tako pridobi boljši vir za okr. Ali veste, ali za to obstaja rešitev.

    pozdrav

  6.   Uporabimo Linux je dejal

    Zdravo! Slišal sem, da je Tesseract najboljši OCR odprtega vira. Ne vem, ali bo dobro. Prav tako morate roke nekoliko umazati, da bo delovalo. Tu je nekaj navodil. Če ste uspešni, vas prosim, da mi sporočite, saj bo, če bo uspelo, verjetno postalo delovno mesto.

    Najprej namestite pakete "tesseract 2.03-4" in "imagemagick" s pomočjo Synaptic, "xsane2tess" iz "http://download.tuxfamily.org/guadausers/guadaV4/".

    Nato ustvarite mapo tmp v: / home / yourusername / tmp

    Nato odprite Xsane, da ga konfigurirate, Nastavitve–> Konfiguracija–> zavihek OCR in izpolnite naslednje:

    Ukaz OCR -> xsane2tess -l spa
    Možnost vhodne datoteke -> -i
    Možnost izhodne datoteke -> -o
    Izhodna možnost -fd vmesnik -> -x

    V konfiguracijah Xsane na zavihku "shrani" v delu, kjer piše začasni imenik, se prepričajte, da obstaja mapa "tmp", ki ste jo ustvarili v "/ home / yourusername"

    Pustim vam tudi stran s podrobnostmi o tem, kako OCR prepoznati v Ubuntuju: https://help.ubuntu.com/community/OCR

  7.   Uporabimo Linux je dejal

    Druga metoda, ki sem jo odkril x, je naslednja:

    Ob predpostavki, da je optični bralnik že povezan in sistem prepozna

    1. Odprem sistem> Administracija> Synaptic Package Manager (v GNOME)

    2. Iščem in okvirjem namestim tesseract-ocr-spa (za skeniranje v španščini) in gscan2pdf

    3. Za optično branje odprem Applications> Graphics> gscan2pdf

    In pripravljen.

  8.   Trubadur je dejal

    Hej prijatelj, najlepša hvala, resnica je, da je tesseract dobro orodje, vendar zelo omejeno v primerjavi s knjigami s "problematičnim" skeniranjem. Po drugi strani pa se ta programska oprema lažje prilagaja ... 😀

  9.   Juan Anez je dejal

    V procesu digitalizacije slik se datoteke PDF-A pretvorijo, zato jih je treba OCRed. Kako občutljivo na rezultat je črno-belo ali sivine? Kaj je priporočljivo?