Kako prepoznati PDF i omogućiti odabir i pretraživanje teksta

Pretpostavimo da imate PDF koji je stvoren pomoću skenera ili da su vam ga proslijedili, ali sadrži informacije u obliku slike. Pozvan je postupak u koji moramo predati svoj voljeni PDF OCR: postupak koji automatski identificira simbole ili znakove koji pripadaju određenoj abecedi, od slike da bi je pohranio u obliku podataka s kojima možemo komunicirati putem programa za uređivanje teksta ili slično.


pdfocr je jednostavan alat koji stvara novi PDF s ugrađenim slojem teksta, omogućavajući korisniku da odabere tekst i pretražuje riječi u njemu, bez promjene konačnog izgleda PDF-a.

Šta pdfocr NIJE za:

Ovo funkcionira samo ako PDF sadrži informacije u obliku slike; ako ste izvezli PDF iz OpenOffice, on već ima ugrađeni sloj teksta, pa je ovaj postupak nepotreban.

Kako instalirati pdfocr:

sudo add-apt-repozitorij ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get instalacija pdfocr

Kako se koristi pdfocr:

Otvorite terminal, idite u direktorij u kojem se nalazi PDF koji želite pretvoriti i unesite sljedeće (zamjenom input.pdf s PDF-om koji želite pretvoriti i output.pdf imenom nove datoteke s ugrađenim slojem teksta)

pdfocr -i ulaz.pdf -o izlaz.pdf

Pričekajte da se svaka stranica vašeg PDF-a uvježba OCR-om i kreira konačna izmijenjena datoteka. To bi trebalo potrajati nekoliko sekundi po stranici, ovisno o razlučivosti vašeg PDF-a.


Ostavite komentar

Vaša e-mail adresa neće biti objavljena. Obavezna polja su označena sa *

*

*

  1. Za podatke odgovoran: Miguel Ángel Gatón
  2. Svrha podataka: Kontrola neželjene pošte, upravljanje komentarima.
  3. Legitimacija: Vaš pristanak
  4. Komunikacija podataka: Podaci se neće dostavljati trećim stranama, osim po zakonskoj obavezi.
  5. Pohrana podataka: Baza podataka koju hostuje Occentus Networks (EU)
  6. Prava: U bilo kojem trenutku možete ograničiti, oporaviti i izbrisati svoje podatke.

  1.   Rudolph Lara rekao je

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    Čitanje liste paketa ... Gotovo
    Stvaranje stabla zavisnosti
    Čitanje informacija o statusu ... Gotovo
    E: Paket pdfocr nije moguće pronaći
    rodolfo @ rodolfo-desktop: ~ $

  2.   Koristimo Linux rekao je

    Jeste li se pobrinuli da dodate odgovarajući PPA?
    Ovaj PPA vjerovatno ima verzije pdfocr za starije verzije Ubuntu-a. Pomislite da je ovaj post već star nekoliko mjeseci. U svakom slučaju, ideja je ista. Idite na Launchpad i potražite PPA koji sadrži verzije pdfocr za Maverick.
    Živjeli! Paul.

  3.   jvare rekao je

    Pa, bit će stvar da ga testiramo kako bismo vidjeli kako to funkcionira

  4.   Koristimo Linux rekao je

    Nastavi! Javite nam ako ste bili uspješni !! Ako ne uspije, možemo vam i pomoći! Živjeli! Paul.

  5.   a01653 rekao je

    zdravo,
    Testirao sam program u pdf-u i rezultat nije baš dobar. Navikao sam na profesionalnog akrobata 8 i tražio sam nešto slično. Acrobat prosljeđuje uslužne programe datotekama kako bi očistio i ispravio skenirani pdfs i tako dobio bolji izvor za ocr. Znate li postoji li rješenje za ovo.

    Hvala!

  6.   Koristimo Linux rekao je

    Zdravo! Čuo sam okolo da je Tesseract najbolji OCR otvorenog izvora. Ne znam hoće li biti dobro. Takođe, morate malo zaprljati ruke da bi to uspjelo. Evo nekoliko uputa. Ako ste uspješni, molim vas da me obavijestite, jer ako uspije, vjerojatno će na kraju postati pošta.

    Prvo instalirajte pakete "tesseract 2.03-4" i "imagemagick" koristeći Synaptic, "xsane2tess" sa "http://download.tuxfamily.org/guadausers/guadaV4/".

    Zatim stvorite mapu tmp u: / home / vaše korisničko ime / tmp

    Zatim otvorite Xsane da biste ga konfigurirali, Postavke–> Konfiguracija–> kartica OCR i popunite sljedeće:

    OCR naredba -> xsane2tess -l spa
    Opcija ulazne datoteke -> -i
    Opcija izlazne datoteke -> -o
    Izlazna opcija -fd sučelje -> -x

    U Xsane konfiguracijama na kartici "spremi" u dijelu gdje piše privremeni direktorij, osigurajte da postoji mapa "tmp" koju ste kreirali u "/ home / yourusername"

    Ostavljam vam i stranicu sa detaljima o načinu optičkog prepoznavanja znakova u Ubuntuu: https://help.ubuntu.com/community/OCR

  7.   Koristimo Linux rekao je

    Druga metoda koju sam otkrio x postoji sljedeća:

    Pod pretpostavkom da je skener već povezan i da ga je sistem prepoznao

    1. Otvorim System> Administration> Synaptic Package Manager (u GNOME)

    2. Pretraga i okvir za instaliranje tesseract-ocr-spa (za skeniranje na španskom) i gscan2pdf

    3. Za skeniranje otvorim Aplikacije> Grafika> gscan2pdf

    I spremno.

  8.   Trubadur rekao je

    Hej prijatelju, hvala ti puno, istina je da je tesseract dobar alat, ali vrlo ograničen u odnosu na knjige s "problematičnim" skeniranjem. S druge strane, ovaj se softver lakše prilagođava ... 😀

  9.   Juan Anez rekao je

    U procesu digitalizacije slika, PDF-A datoteke se pretvaraju, moraju biti OCRed. Koliko je osjetljivo na rezultat skeniranje u crno-bijelom ili sivim tonovima? Šta se preporučuje?