Recimo, da imate PDF, ki je bil ustvarjen s pomočjo optičnega bralnika ali pa so vam ga poslali, vendar vsebuje informacije v obliki slike. Poklican je postopek, v katerega moramo oddati svoj najljubši PDF OCR: postopek, ki samodejno prepozna simbole ali znake, ki pripadajo določeni abecedi, od slike, da jo shrani v obliki podatkov, s katerimi lahko sodelujemo prek programa za urejanje besedila ali podobnega. |
pdfocr je preprosto orodje, ki ustvari nov PDF z vdelano besedilno plastjo, ki uporabniku omogoča izbiro besedila in iskanje besed v njem, ne da bi spremenil končni videz PDF-ja.
Čemu pdfocr NI namenjen:
To je uporabno le, če PDF vsebuje informacije v slikovni obliki; če ste PDF izvozili iz OpenOffice, že ima vdelano besedilno plast, zato ta postopek ni potreben.
Kako namestiti pdfocr:
sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo update apt-get
sudo apt-get namestite pdfocr
Kako uporabljati pdfocr:
Odprite terminal, pojdite v imenik, v katerem se nahaja PDF, ki ga želite pretvoriti, in vnesite naslednje (zamenjajte input.pdf s PDF, ki ga želite pretvoriti, in output.pdf z imenom nove datoteke z vdelano besedilno plastjo)
pdfocr -i vhod.pdf -o izhod.pdf
Počakajte, da se vsaka stran PDF-ja izvaja z OCR in da se ustvari končna spremenjena datoteka. To bi trajalo nekaj sekund na stran, odvisno od ločljivosti vašega PDF-ja.
rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Branje seznama paketov ... Končano
Ustvarjanje drevesa odvisnosti
Branje informacij o stanju ... Končano
E: Paketa pdfocr ni bilo mogoče najti
rodolfo @ rodolfo-namizje: ~ $
Ste zagotovo dodali ustrezen PPA?
Ta PPA verjetno vsebuje različice pdfocr za starejše različice Ubuntuja. Pomislite, da je ta objava stara že nekaj mesecev. Kakorkoli že, ideja je ista. Pojdite na Launchpad in poiščite PPA, ki vsebuje različice pdfocr za Maverick.
Na zdravje! Paul.
No, stvar bo preizkusiti, da vidim, kako deluje
Kar daj! Sporočite nam, če ste bili uspešni !! Če ne deluje, vam lahko poskusimo tudi pomagati! Na zdravje! Paul.
Pozdravljeni,
Program sem preizkusil v pdf in rezultat ni zelo dober. Navajen sem profesionalnega akrobata 8 in iskal sem nekaj podobnega. Acrobat posreduje pripomočke datotekam za čiščenje in poravnavanje optično prebranih datotek pdfs in tako pridobi boljši vir za okr. Ali veste, ali za to obstaja rešitev.
pozdrav
Zdravo! Slišal sem, da je Tesseract najboljši OCR odprtega vira. Ne vem, ali bo dobro. Prav tako morate roke nekoliko umazati, da bo delovalo. Tu je nekaj navodil. Če ste uspešni, vas prosim, da mi sporočite, saj bo, če bo uspelo, verjetno postalo delovno mesto.
Najprej namestite pakete "tesseract 2.03-4" in "imagemagick" s pomočjo Synaptic, "xsane2tess" iz "http://download.tuxfamily.org/guadausers/guadaV4/".
Nato ustvarite mapo tmp v: / home / yourusername / tmp
Nato odprite Xsane, da ga konfigurirate, Nastavitve–> Konfiguracija–> zavihek OCR in izpolnite naslednje:
Ukaz OCR -> xsane2tess -l spa
Možnost vhodne datoteke -> -i
Možnost izhodne datoteke -> -o
Izhodna možnost -fd vmesnik -> -x
V konfiguracijah Xsane na zavihku "shrani" v delu, kjer piše začasni imenik, se prepričajte, da obstaja mapa "tmp", ki ste jo ustvarili v "/ home / yourusername"
Pustim vam tudi stran s podrobnostmi o tem, kako OCR prepoznati v Ubuntuju: https://help.ubuntu.com/community/OCR
Druga metoda, ki sem jo odkril x, je naslednja:
Ob predpostavki, da je optični bralnik že povezan in sistem prepozna
1. Odprem sistem> Administracija> Synaptic Package Manager (v GNOME)
2. Iščem in okvirjem namestim tesseract-ocr-spa (za skeniranje v španščini) in gscan2pdf
3. Za optično branje odprem Applications> Graphics> gscan2pdf
In pripravljen.
Hej prijatelj, najlepša hvala, resnica je, da je tesseract dobro orodje, vendar zelo omejeno v primerjavi s knjigami s "problematičnim" skeniranjem. Po drugi strani pa se ta programska oprema lažje prilagaja ... 😀
V procesu digitalizacije slik se datoteke PDF-A pretvorijo, zato jih je treba OCRed. Kako občutljivo na rezultat je črno-belo ali sivine? Kaj je priporočljivo?