Kako prepoznati PDF i omogućiti odabir i pretraživanje teksta

Pretpostavimo da imate PDF koji je stvoren pomoću skenera ili vam je proslijeđen, ali sadrži podatke u obliku slike. Pozvan je postupak u koji moramo predati svoj voljeni PDF OCR: postupak koji automatski identificira simbole ili znakove koji pripadaju određenoj abecedi, od slike da bi je pohranio u obliku podataka s kojima možemo komunicirati putem programa za uređivanje teksta ili slično.


pdfocr je jednostavan alat koji stvara novi PDF s ugrađenim slojem teksta, omogućavajući korisniku odabir teksta i traženje riječi u njemu, bez promjene konačnog izgleda PDF-a.

Čemu pdfocr NIJE za:

Ovo je korisno samo ako PDF sadrži informacije u obliku slike; ako ste izvezli PDF iz OpenOffice, on već ima ugrađeni sloj teksta, pa je ovaj postupak nepotreban.

Kako instalirati pdfocr:

sudo add-apt-repozitorij ppa: gezakovacs / pdfocr
sudo apt-get ažuriranje
sudo apt-get instalirati pdfocr

Kako se koristi pdfocr:

Otvorite terminal, idite u direktorij u kojem se nalazi PDF koji želite pretvoriti i unesite sljedeće (zamjenom input.pdf s PDF-om koji želite pretvoriti i output.pdf imenom nove datoteke s ugrađenim slojem teksta )

pdfocr -i ulaz.pdf -o izlaz.pdf

Pričekajte da se svaka stranica vašeg PDF-a uvježba OCR-om i kreira konačna izmijenjena datoteka. To bi trebalo potrajati nekoliko sekundi po stranici, ovisno o razlučivosti vašeg PDF-a.


Ostavite svoj komentar

Vaša email adresa neće biti objavljen. Obavezna polja su označena s *

*

*

  1. Za podatke odgovoran: Miguel Ángel Gatón
  2. Svrha podataka: Kontrola neželjene pošte, upravljanje komentarima.
  3. Legitimacija: Vaš pristanak
  4. Komunikacija podataka: Podaci se neće dostavljati trećim stranama, osim po zakonskoj obvezi.
  5. Pohrana podataka: Baza podataka koju hostira Occentus Networks (EU)
  6. Prava: U bilo kojem trenutku možete ograničiti, oporaviti i izbrisati svoje podatke.

  1.   Rudolph Lara dijo

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    Čitanje popisa paketa ... Gotovo
    Stvaranje stabla ovisnosti
    Čitanje podataka o statusu ... Gotovo
    E: Paket pdfocr nije moguće pronaći
    rodolfo @ rodolfo-desktop: ~ $

  2.   Koristimo Linux dijo

    Jeste li se pobrinuli za dodavanje odgovarajućeg PPA-a?
    Ovaj PPA vjerojatno ima verzije pdfocr za starije verzije Ubuntua. Pomislite da je ovaj post već star nekoliko mjeseci. Svejedno, ideja je ista. Idite na Launchpad i potražite PPA koji sadrži verzije pdfocr za Maverick.
    Živjeli! Pavao.

  3.   jvare dijo

    Pa, trebat će ga testirati da vidimo kako to funkcionira

  4.   Koristimo Linux dijo

    Samo naprijed! Javite nam ako ste bili uspješni !! Ako ne uspije, također vam možemo pokušati pomoći! Živjeli! Pavao.

  5.   a01653 dijo

    Pozdrav,
    Program sam testirao na pdf-u i rezultat nije baš dobar. Navikao sam na profesionalnog akrobata 8 i tražio sam nešto slično. Acrobat prosljeđuje uslužne programe datotekama kako bi očistio i ispravio skenirani pdfs i tako dobio bolji izvor za ocr. Znate li postoji li rješenje za to.

    pozdravi

  6.   Koristimo Linux dijo

    Zdravo! Čuo sam okolo da je Tesseract najbolji OCR otvorenog izvora. Ne znam hoće li biti dobro. Također, morate malo zaprljati ruke da bi to uspjelo. Evo nekoliko uputa. Ako uspijete, javite mi jer će, ako uspije, vjerojatno postati post.

    Prvo instalirajte pakete "tesseract 2.03-4" i "imagemagick" koristeći Synaptic, "xsane2tess" s "http://download.tuxfamily.org/guadausers/guadaV4/".

    Zatim stvorite mapu tmp u: / home / vaše korisničko ime / tmp

    Zatim otvorite Xsane da biste ga konfigurirali, Postavke–> Konfiguracija–> kartica OCR i ispunite sljedeće:

    OCR naredba -> xsane2tess -l spa
    Opcija ulazne datoteke -> -i
    Opcija izlazne datoteke -> -o
    Izlazna opcija -fd sučelje -> -x

    U Xsane konfiguracijama na kartici "spremi" u dijelu gdje piše privremeni direktorij, provjerite postoji li mapa "tmp" koju ste kreirali u "/ home / yourusername"

    Ostavljam vam i stranicu s pojedinostima o tome kako napraviti OCR u Ubuntuu: https://help.ubuntu.com/community/OCR

  7.   Koristimo Linux dijo

    Druga metoda koju sam otkrio x postoji sljedeća:

    Pod pretpostavkom da je skener već povezan i prepoznat od strane sustava

    1. Otvorim Sustav> Administracija> Synaptic Package Manager (u GNOME-u)

    2. Tražim i postavljam okvir za instaliranje tesseract-ocr-spa (za skeniranje na španjolskom) i gscan2pdf

    3. Za skeniranje otvorim Applications> Graphics> gscan2pdf

    I spreman.

  8.   Trubadur dijo

    Hej prijatelju, hvala ti puno, istina je da je tesseract dobar alat, ali vrlo ograničen u usporedbi s knjigama s "problematičnim" skeniranjem. S druge strane, ovaj se softver lakše prilagođava ... 😀

  9.   Juan Anez dijo

    U procesu digitalizacije slika, PDF-A datoteke se pretvaraju, moraju biti OCRed. Koliko je osjetljivo na rezultat skeniranje u crno-bijelom ili sivim tonovima? Što se preporučuje?