Kako OCR PDF in omogočiti izbiro in iskanje besedila

Kako optično prepoznati PDF in omogočiti izbiro in iskanje besedila

Recimo, da imate PDF, ki je bil ustvarjen s pomočjo optičnega bralnika ali pa so vam ga poslali, vendar vsebuje informacije v obliki slike. Poklican je postopek, v katerega moramo oddati svoj najljubši PDF OCR: postopek, ki samodejno prepozna simbole ali znake, ki pripadajo določeni abecedi, od slike, da jo shrani v obliki podatkov, s katerimi lahko sodelujemo prek programa za urejanje besedila ali podobnega.

pdfocr je preprosto orodje, ki ustvari nov PDF z vdelano besedilno plastjo, ki uporabniku omogoča izbiro besedila in iskanje besed v njem, ne da bi spremenil končni videz PDF-ja.

Čemu pdfocr NI namenjen:

To je uporabno le, če PDF vsebuje informacije v slikovni obliki; če ste PDF izvozili iz OpenOffice, že ima vdelano besedilno plast, zato ta postopek ni potreben.

Kako namestiti pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo update apt-get
sudo apt-get namestite pdfocr

Kako uporabljati pdfocr:

Odprite terminal, pojdite v imenik, v katerem se nahaja PDF, ki ga želite pretvoriti, in vnesite naslednje (zamenjajte input.pdf s PDF, ki ga želite pretvoriti, in output.pdf z imenom nove datoteke z vdelano besedilno plastjo)

pdfocr -i vhod.pdf -o izhod.pdf

Počakajte, da se vsaka stran PDF-ja izvaja z OCR in da se ustvari končna spremenjena datoteka. To bi trajalo nekaj sekund na stran, odvisno od ločljivosti vašega PDF-ja.

Pustite svoj komentar Prekliči odgovor

Rudolph Lara je dejal
nazaj 11 let

rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Branje seznama paketov ... Končano
Ustvarjanje drevesa odvisnosti
Branje informacij o stanju ... Končano
E: Paketa pdfocr ni bilo mogoče najti
rodolfo @ rodolfo-namizje: ~ $

Odgovor Rodolfu Lara
Uporabimo Linux je dejal
nazaj 11 let

Ste zagotovo dodali ustrezen PPA?
Ta PPA verjetno vsebuje različice pdfocr za starejše različice Ubuntuja. Pomislite, da je ta objava stara že nekaj mesecev. Kakorkoli že, ideja je ista. Pojdite na Launchpad in poiščite PPA, ki vsebuje različice pdfocr za Maverick.
Na zdravje! Paul.

Odzovite se na Uporaba Linuxa
jvare je dejal
nazaj 11 let

No, stvar bo preizkusiti, da vidim, kako deluje

Odgovorite Jvareju
Uporabimo Linux je dejal
nazaj 11 let

Kar daj! Sporočite nam, če ste bili uspešni !! Če ne deluje, vam lahko poskusimo tudi pomagati! Na zdravje! Paul.

Odzovite se na Uporaba Linuxa
a01653 je dejal
nazaj 11 let

Pozdravljeni,
Program sem preizkusil v pdf in rezultat ni zelo dober. Navajen sem profesionalnega akrobata 8 in iskal sem nekaj podobnega. Acrobat posreduje pripomočke datotekam za čiščenje in poravnavanje optično prebranih datotek pdfs in tako pridobi boljši vir za okr. Ali veste, ali za to obstaja rešitev.

pozdrav

Odgovorite na a01653
Uporabimo Linux je dejal
nazaj 11 let

Zdravo! Slišal sem, da je Tesseract najboljši OCR odprtega vira. Ne vem, ali bo dobro. Prav tako morate roke nekoliko umazati, da bo delovalo. Tu je nekaj navodil. Če ste uspešni, vas prosim, da mi sporočite, saj bo, če bo uspelo, verjetno postalo delovno mesto.

Najprej namestite pakete "tesseract 2.03-4" in "imagemagick" s pomočjo Synaptic, "xsane2tess" iz "http://download.tuxfamily.org/guadausers/guadaV4/".

Nato ustvarite mapo tmp v: / home / yourusername / tmp

Nato odprite Xsane, da ga konfigurirate, Nastavitve–> Konfiguracija–> zavihek OCR in izpolnite naslednje:

Ukaz OCR -> xsane2tess -l spa
Možnost vhodne datoteke -> -i
Možnost izhodne datoteke -> -o
Izhodna možnost -fd vmesnik -> -x

V konfiguracijah Xsane na zavihku "shrani" v delu, kjer piše začasni imenik, se prepričajte, da obstaja mapa "tmp", ki ste jo ustvarili v "/ home / yourusername"

Pustim vam tudi stran s podrobnostmi o tem, kako OCR prepoznati v Ubuntuju: https://help.ubuntu.com/community/OCR

Odzovite se na Uporaba Linuxa
Uporabimo Linux je dejal
nazaj 11 let

Druga metoda, ki sem jo odkril x, je naslednja:

Ob predpostavki, da je optični bralnik že povezan in sistem prepozna

1. Odprem sistem> Administracija> Synaptic Package Manager (v GNOME)

2. Iščem in okvirjem namestim tesseract-ocr-spa (za skeniranje v španščini) in gscan2pdf

3. Za optično branje odprem Applications> Graphics> gscan2pdf

In pripravljen.

Odzovite se na Uporaba Linuxa
Trubadur je dejal
nazaj 10 let

Hej prijatelj, najlepša hvala, resnica je, da je tesseract dobro orodje, vendar zelo omejeno v primerjavi s knjigami s "problematičnim" skeniranjem. Po drugi strani pa se ta programska oprema lažje prilagaja ... 😀

Odgovorite Trovadordebarro
Juan Anez je dejal
nazaj 10 let

V procesu digitalizacije slik se datoteke PDF-A pretvorijo, zato jih je treba OCRed. Kako občutljivo na rezultat je črno-belo ali sivine? Kaj je priporočljivo?

Odgovori juan anez