Pretpostavimo da imate PDF koji je stvoren pomoću skenera ili da su vam ga proslijedili, ali sadrži informacije u obliku slike. Pozvan je postupak u koji moramo predati svoj voljeni PDF OCR: postupak koji automatski identificira simbole ili znakove koji pripadaju određenoj abecedi, od slike da bi je pohranio u obliku podataka s kojima možemo komunicirati putem programa za uređivanje teksta ili slično. |
pdfocr je jednostavan alat koji stvara novi PDF s ugrađenim slojem teksta, omogućavajući korisniku da odabere tekst i pretražuje riječi u njemu, bez promjene konačnog izgleda PDF-a.
Šta pdfocr NIJE za:
Ovo funkcionira samo ako PDF sadrži informacije u obliku slike; ako ste izvezli PDF iz OpenOffice, on već ima ugrađeni sloj teksta, pa je ovaj postupak nepotreban.
Kako instalirati pdfocr:
sudo add-apt-repozitorij ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get instalacija pdfocr
Kako se koristi pdfocr:
Otvorite terminal, idite u direktorij u kojem se nalazi PDF koji želite pretvoriti i unesite sljedeće (zamjenom input.pdf s PDF-om koji želite pretvoriti i output.pdf imenom nove datoteke s ugrađenim slojem teksta)
pdfocr -i ulaz.pdf -o izlaz.pdf
Pričekajte da se svaka stranica vašeg PDF-a uvježba OCR-om i kreira konačna izmijenjena datoteka. To bi trebalo potrajati nekoliko sekundi po stranici, ovisno o razlučivosti vašeg PDF-a.
rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Čitanje liste paketa ... Gotovo
Stvaranje stabla zavisnosti
Čitanje informacija o statusu ... Gotovo
E: Paket pdfocr nije moguće pronaći
rodolfo @ rodolfo-desktop: ~ $
Jeste li se pobrinuli da dodate odgovarajući PPA?
Ovaj PPA vjerovatno ima verzije pdfocr za starije verzije Ubuntu-a. Pomislite da je ovaj post već star nekoliko mjeseci. U svakom slučaju, ideja je ista. Idite na Launchpad i potražite PPA koji sadrži verzije pdfocr za Maverick.
Živjeli! Paul.
Pa, bit će stvar da ga testiramo kako bismo vidjeli kako to funkcionira
Nastavi! Javite nam ako ste bili uspješni !! Ako ne uspije, možemo vam i pomoći! Živjeli! Paul.
zdravo,
Testirao sam program u pdf-u i rezultat nije baš dobar. Navikao sam na profesionalnog akrobata 8 i tražio sam nešto slično. Acrobat prosljeđuje uslužne programe datotekama kako bi očistio i ispravio skenirani pdfs i tako dobio bolji izvor za ocr. Znate li postoji li rješenje za ovo.
Hvala!
Zdravo! Čuo sam okolo da je Tesseract najbolji OCR otvorenog izvora. Ne znam hoće li biti dobro. Takođe, morate malo zaprljati ruke da bi to uspjelo. Evo nekoliko uputa. Ako ste uspješni, molim vas da me obavijestite, jer ako uspije, vjerojatno će na kraju postati pošta.
Prvo instalirajte pakete "tesseract 2.03-4" i "imagemagick" koristeći Synaptic, "xsane2tess" sa "http://download.tuxfamily.org/guadausers/guadaV4/".
Zatim stvorite mapu tmp u: / home / vaše korisničko ime / tmp
Zatim otvorite Xsane da biste ga konfigurirali, Postavke–> Konfiguracija–> kartica OCR i popunite sljedeće:
OCR naredba -> xsane2tess -l spa
Opcija ulazne datoteke -> -i
Opcija izlazne datoteke -> -o
Izlazna opcija -fd sučelje -> -x
U Xsane konfiguracijama na kartici "spremi" u dijelu gdje piše privremeni direktorij, osigurajte da postoji mapa "tmp" koju ste kreirali u "/ home / yourusername"
Ostavljam vam i stranicu sa detaljima o načinu optičkog prepoznavanja znakova u Ubuntuu: https://help.ubuntu.com/community/OCR
Druga metoda koju sam otkrio x postoji sljedeća:
Pod pretpostavkom da je skener već povezan i da ga je sistem prepoznao
1. Otvorim System> Administration> Synaptic Package Manager (u GNOME)
2. Pretraga i okvir za instaliranje tesseract-ocr-spa (za skeniranje na španskom) i gscan2pdf
3. Za skeniranje otvorim Aplikacije> Grafika> gscan2pdf
I spremno.
Hej prijatelju, hvala ti puno, istina je da je tesseract dobar alat, ali vrlo ograničen u odnosu na knjige s "problematičnim" skeniranjem. S druge strane, ovaj se softver lakše prilagođava ... 😀
U procesu digitalizacije slika, PDF-A datoteke se pretvaraju, moraju biti OCRed. Koliko je osjetljivo na rezultat skeniranje u crno-bijelom ili sivim tonovima? Šta se preporučuje?