Pretpostavimo da imate PDF koji je stvoren pomoću skenera ili vam je proslijeđen, ali sadrži podatke u obliku slike. Pozvan je postupak u koji moramo predati svoj voljeni PDF OCR: postupak koji automatski identificira simbole ili znakove koji pripadaju određenoj abecedi, od slike da bi je pohranio u obliku podataka s kojima možemo komunicirati putem programa za uređivanje teksta ili slično. |
pdfocr je jednostavan alat koji stvara novi PDF s ugrađenim slojem teksta, omogućavajući korisniku odabir teksta i traženje riječi u njemu, bez promjene konačnog izgleda PDF-a.
Čemu pdfocr NIJE za:
Ovo je korisno samo ako PDF sadrži informacije u obliku slike; ako ste izvezli PDF iz OpenOffice, on već ima ugrađeni sloj teksta, pa je ovaj postupak nepotreban.
Kako instalirati pdfocr:
sudo add-apt-repozitorij ppa: gezakovacs / pdfocr
sudo apt-get ažuriranje
sudo apt-get instalirati pdfocr
Kako se koristi pdfocr:
Otvorite terminal, idite u direktorij u kojem se nalazi PDF koji želite pretvoriti i unesite sljedeće (zamjenom input.pdf s PDF-om koji želite pretvoriti i output.pdf imenom nove datoteke s ugrađenim slojem teksta )
pdfocr -i ulaz.pdf -o izlaz.pdf
Pričekajte da se svaka stranica vašeg PDF-a uvježba OCR-om i kreira konačna izmijenjena datoteka. To bi trebalo potrajati nekoliko sekundi po stranici, ovisno o razlučivosti vašeg PDF-a.
rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Čitanje popisa paketa ... Gotovo
Stvaranje stabla ovisnosti
Čitanje podataka o statusu ... Gotovo
E: Paket pdfocr nije moguće pronaći
rodolfo @ rodolfo-desktop: ~ $
Jeste li se pobrinuli za dodavanje odgovarajućeg PPA-a?
Ovaj PPA vjerojatno ima verzije pdfocr za starije verzije Ubuntua. Pomislite da je ovaj post već star nekoliko mjeseci. Svejedno, ideja je ista. Idite na Launchpad i potražite PPA koji sadrži verzije pdfocr za Maverick.
Živjeli! Pavao.
Pa, trebat će ga testirati da vidimo kako to funkcionira
Samo naprijed! Javite nam ako ste bili uspješni !! Ako ne uspije, također vam možemo pokušati pomoći! Živjeli! Pavao.
Pozdrav,
Program sam testirao na pdf-u i rezultat nije baš dobar. Navikao sam na profesionalnog akrobata 8 i tražio sam nešto slično. Acrobat prosljeđuje uslužne programe datotekama kako bi očistio i ispravio skenirani pdfs i tako dobio bolji izvor za ocr. Znate li postoji li rješenje za to.
pozdravi
Zdravo! Čuo sam okolo da je Tesseract najbolji OCR otvorenog izvora. Ne znam hoće li biti dobro. Također, morate malo zaprljati ruke da bi to uspjelo. Evo nekoliko uputa. Ako uspijete, javite mi jer će, ako uspije, vjerojatno postati post.
Prvo instalirajte pakete "tesseract 2.03-4" i "imagemagick" koristeći Synaptic, "xsane2tess" s "http://download.tuxfamily.org/guadausers/guadaV4/".
Zatim stvorite mapu tmp u: / home / vaše korisničko ime / tmp
Zatim otvorite Xsane da biste ga konfigurirali, Postavke–> Konfiguracija–> kartica OCR i ispunite sljedeće:
OCR naredba -> xsane2tess -l spa
Opcija ulazne datoteke -> -i
Opcija izlazne datoteke -> -o
Izlazna opcija -fd sučelje -> -x
U Xsane konfiguracijama na kartici "spremi" u dijelu gdje piše privremeni direktorij, provjerite postoji li mapa "tmp" koju ste kreirali u "/ home / yourusername"
Ostavljam vam i stranicu s pojedinostima o tome kako napraviti OCR u Ubuntuu: https://help.ubuntu.com/community/OCR
Druga metoda koju sam otkrio x postoji sljedeća:
Pod pretpostavkom da je skener već povezan i prepoznat od strane sustava
1. Otvorim Sustav> Administracija> Synaptic Package Manager (u GNOME-u)
2. Tražim i postavljam okvir za instaliranje tesseract-ocr-spa (za skeniranje na španjolskom) i gscan2pdf
3. Za skeniranje otvorim Applications> Graphics> gscan2pdf
I spreman.
Hej prijatelju, hvala ti puno, istina je da je tesseract dobar alat, ali vrlo ograničen u usporedbi s knjigama s "problematičnim" skeniranjem. S druge strane, ovaj se softver lakše prilagođava ... 😀
U procesu digitalizacije slika, PDF-A datoteke se pretvaraju, moraju biti OCRed. Koliko je osjetljivo na rezultat skeniranje u crno-bijelom ili sivim tonovima? Što se preporučuje?