Kako prepoznati PDF i omogućiti odabir i pretraživanje teksta

Pretpostavimo da imate PDF koji je stvoren pomoću skenera ili vam je proslijeđen, ali sadrži podatke u obliku slike. Pozvan je postupak u koji moramo predati svoj voljeni PDF OCR: postupak koji automatski identificira simbole ili znakove koji pripadaju određenoj abecedi, od slike da bi je pohranio u obliku podataka s kojima možemo komunicirati putem programa za uređivanje teksta ili slično.

pdfocr je jednostavan alat koji stvara novi PDF s ugrađenim slojem teksta, omogućavajući korisniku odabir teksta i traženje riječi u njemu, bez promjene konačnog izgleda PDF-a.

Čemu pdfocr NIJE za:

Ovo je korisno samo ako PDF sadrži informacije u obliku slike; ako ste izvezli PDF iz OpenOffice, on već ima ugrađeni sloj teksta, pa je ovaj postupak nepotreban.

Kako instalirati pdfocr:

sudo add-apt-repozitorij ppa: gezakovacs / pdfocr
sudo apt-get ažuriranje
sudo apt-get instalirati pdfocr

Kako se koristi pdfocr:

Otvorite terminal, idite u direktorij u kojem se nalazi PDF koji želite pretvoriti i unesite sljedeće (zamjenom input.pdf s PDF-om koji želite pretvoriti i output.pdf imenom nove datoteke s ugrađenim slojem teksta )

pdfocr -i ulaz.pdf -o izlaz.pdf

Pričekajte da se svaka stranica vašeg PDF-a uvježba OCR-om i kreira konačna izmijenjena datoteka. To bi trebalo potrajati nekoliko sekundi po stranici, ovisno o razlučivosti vašeg PDF-a.

Ostavite svoj komentar Otkaži odgovor

Rudolph Lara dijo
zec 11 godina

rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Čitanje popisa paketa ... Gotovo
Stvaranje stabla ovisnosti
Čitanje podataka o statusu ... Gotovo
E: Paket pdfocr nije moguće pronaći
rodolfo @ rodolfo-desktop: ~ $

Odgovorite Rodolfu Lari
Koristimo Linux dijo
zec 11 godina

Jeste li se pobrinuli za dodavanje odgovarajućeg PPA-a?
Ovaj PPA vjerojatno ima verzije pdfocr za starije verzije Ubuntua. Pomislite da je ovaj post već star nekoliko mjeseci. Svejedno, ideja je ista. Idite na Launchpad i potražite PPA koji sadrži verzije pdfocr za Maverick.
Živjeli! Pavao.

Odgovorite na Koristimo Linux
jvare dijo
zec 11 godina

Pa, trebat će ga testirati da vidimo kako to funkcionira

Odgovorite Jvareu
Koristimo Linux dijo
zec 11 godina

Samo naprijed! Javite nam ako ste bili uspješni !! Ako ne uspije, također vam možemo pokušati pomoći! Živjeli! Pavao.

Odgovorite na Koristimo Linux
a01653 dijo
zec 11 godina

Pozdrav,
Program sam testirao na pdf-u i rezultat nije baš dobar. Navikao sam na profesionalnog akrobata 8 i tražio sam nešto slično. Acrobat prosljeđuje uslužne programe datotekama kako bi očistio i ispravio skenirani pdfs i tako dobio bolji izvor za ocr. Znate li postoji li rješenje za to.

pozdravi

Odgovorite na a01653
Koristimo Linux dijo
zec 11 godina

Zdravo! Čuo sam okolo da je Tesseract najbolji OCR otvorenog izvora. Ne znam hoće li biti dobro. Također, morate malo zaprljati ruke da bi to uspjelo. Evo nekoliko uputa. Ako uspijete, javite mi jer će, ako uspije, vjerojatno postati post.

Prvo instalirajte pakete "tesseract 2.03-4" i "imagemagick" koristeći Synaptic, "xsane2tess" s "http://download.tuxfamily.org/guadausers/guadaV4/".

Zatim stvorite mapu tmp u: / home / vaše korisničko ime / tmp

Zatim otvorite Xsane da biste ga konfigurirali, Postavke–> Konfiguracija–> kartica OCR i ispunite sljedeće:

OCR naredba -> xsane2tess -l spa
Opcija ulazne datoteke -> -i
Opcija izlazne datoteke -> -o
Izlazna opcija -fd sučelje -> -x

U Xsane konfiguracijama na kartici "spremi" u dijelu gdje piše privremeni direktorij, provjerite postoji li mapa "tmp" koju ste kreirali u "/ home / yourusername"

Ostavljam vam i stranicu s pojedinostima o tome kako napraviti OCR u Ubuntuu: https://help.ubuntu.com/community/OCR

Odgovorite na Koristimo Linux
Koristimo Linux dijo
zec 11 godina

Druga metoda koju sam otkrio x postoji sljedeća:

Pod pretpostavkom da je skener već povezan i prepoznat od strane sustava

1. Otvorim Sustav> Administracija> Synaptic Package Manager (u GNOME-u)

2. Tražim i postavljam okvir za instaliranje tesseract-ocr-spa (za skeniranje na španjolskom) i gscan2pdf

3. Za skeniranje otvorim Applications> Graphics> gscan2pdf

I spreman.

Odgovorite na Koristimo Linux
Trubadur dijo
zec 10 godina

Hej prijatelju, hvala ti puno, istina je da je tesseract dobar alat, ali vrlo ograničen u usporedbi s knjigama s "problematičnim" skeniranjem. S druge strane, ovaj se softver lakše prilagođava ... 😀

Odgovorite Trovadordebarro
Juan Anez dijo
zec 10 godina

U procesu digitalizacije slika, PDF-A datoteke se pretvaraju, moraju biti OCRed. Koliko je osjetljivo na rezultat skeniranje u crno-bijelom ili sivim tonovima? Što se preporučuje?

Odgovoriti Juan Anez