PDF-tiedoston tekstintunnistus ja tekstin valinnan ja haun ottaminen käyttöön

Kuinka piirtää PDF-tiedosto ja ottaa käyttöön tekstin valinta ja haku

Oletetaan, että sinulla on PDF-tiedosto, joka on luotu skannerilla tai joka on välitetty sinulle, mutta se sisältää tiedot kuvan muodossa. Menettelyä, johon meidän on lähetettävä rakastettu PDF-tiedosto, kutsutaan OCR: prosessi, joka tunnistaa automaattisesti tietylle aakkoselle kuuluvat symbolit tai merkit kuvasta kuvan varastoimiseksi datana, jonka kanssa voimme olla vuorovaikutuksessa tekstieditointiohjelman tai vastaavan avulla.

pdfocr on yksinkertainen työkalu, joka luo uuden PDF: n upotetulla tekstikerroksella, jolloin käyttäjä voi valita tekstin ja etsiä sanoja siitä muuttamatta PDF: n lopullista ulkonäköä.

Mitä pdfocr EI OLE:

Tästä on hyötyä vain, jos PDF sisältää tiedot kuvamuodossa; Jos viet PDF-tiedoston OpenOffice-palvelusta, siinä on jo upotettu tekstikerros, joten tämä toimenpide on tarpeeton.

Kuinka asentaa pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get install pdfocr

Kuinka käyttää pdfocr:

Avaa pääte, siirry hakemistoon, jossa muunnettava PDF sijaitsee, ja kirjoita seuraava (korvaamalla input.pdf muunnettavalla ja output.pdf-tiedostolla uuden tiedoston nimellä upotetulla tekstikerroksella )

pdfocr -i input.pdf -o output.pdf

Odota, että jokaisella PDF-sivullasi on OCR-toiminto ja lopullinen muokattu tiedosto luodaan. Tämän pitäisi kestää muutama sekunti per sivu, riippuen PDF: n tarkkuudesta.

Jätä kommentti Peruuta vastaus

Rudolf Lara dijo
sitten 11 vuotta

rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Luetaan pakettiluetteloa ... Valmis
Luodaan riippuvuuspuu
Tilatietojen lukeminen ... Valmis
E: pdfocr-pakettia ei löytynyt
rodolfo @ rodolfo-työpöytä: ~ $

Vastaa Rodolfo Laralle
Käytetään Linuxia dijo
sitten 11 vuotta

Lisäsitkö vastaavan PPA: n?
Tällä PPA: lla on todennäköisesti pdfocr-versiot vanhemmille Ubuntu-versioille. Luulen, että tämä viesti on jo useita kuukausia vanha. Ajatus on joka tapauksessa sama. Siirry Launchpadiin ja etsi PPA, joka sisältää pdfaverin versiot Maverickille.
Kippis! Paul.

Vastaa Käytetään Linuxia
jvare dijo
sitten 11 vuotta

No, se on asia testata sitä nähdäksesi, miten se toimii

Vastaa Jvare
Käytetään Linuxia dijo
sitten 11 vuotta

Mene eteenpäin! Kerro meille, jos onnistuit !! Jos se ei toimi, voimme myös yrittää auttaa sinua! Kippis! Paul.

Vastaa Käytetään Linuxia
a01653 dijo
sitten 11 vuotta

Hei,
Olen testannut ohjelmaa pdf-muodossa ja tulos ei ole kovin hyvä. Olen tottunut ammattimaiseen akrobaattiin 8 ja etsin jotain vastaavaa. Acrobat siirtää apuohjelmat tiedostoihin puhdistamaan ja suoristamaan skannatut pdf-tiedostot ja saamaan siten paremman lähteen ocr: lle. Tiedätkö onko tähän ratkaisu.

tervehdys

Vastaa numeroon a01653
Käytetään Linuxia dijo
sitten 11 vuotta

Hei! Olen kuullut noin, että Tesseract on paras avoimen lähdekoodin OCR. En tiedä onko siitä hyvä. Lisäksi sinun täytyy saada kätesi hieman likaiseksi, jotta se toimisi. Tässä on joitain ohjeita. Jos onnistut, pyydän sinua ilmoittamaan minulle, koska jos se toimii, siitä todennäköisesti tulee viesti.

Asenna ensin paketit "tesseract 2.03-4" ja "imagemagick" käyttämällä Synapticia, "xsane2tess", sivulta "http://download.tuxfamily.org/guadausers/guadaV4/".

Luo sitten tmp-kansio kansioon: / home / käyttäjänimesi / tmp

Määritä sitten avaamalla Xsane, Asetukset -> Kokoonpano -> OCR-välilehti ja täytä seuraava:

OCR-komento -> xsane2tess -l spa
Syötetiedosto-vaihtoehto -> -i
Tulostustiedoston vaihtoehto -> -o
Lähtövaihtoehto -fd-liitäntä -> -x

Xsane-määrityksissä "tallenna" -välilehdessä osassa, jossa sanotaan väliaikainen hakemisto, varmista, että kansiossa "/ home / käyttäjänimi" on luomasi "tmp" -kansio

Jätän sinulle myös sivun, jossa on tietoja OCR: n tekemisestä Ubuntussa: https://help.ubuntu.com/community/OCR

Vastaa Käytetään Linuxia
Käytetään Linuxia dijo
sitten 11 vuotta

Toinen menetelmä, jonka löysin x, on seuraava:

Olettaen, että skanneri on jo liitetty ja tunnistettu järjestelmässä

1. Avaa Järjestelmä> Hallinta> Synaptic Package Manager (GNOME-sovelluksessa)

2. Etsin ja kehitin asentaa tesseract-ocr-spa (skannata espanjaksi) ja gscan2pdf

3. Skannaamiseksi avaan Sovellukset> Grafiikka> gscan2pdf

Ja valmis.

Vastaa Käytetään Linuxia
Trubaduuri dijo
sitten 10 vuotta

Hei ystävä, kiitos paljon, totuus on, että tesseract on hyvä työkalu, mutta hyvin rajallinen verrattuna "ongelmallisella" skannauksella varustettuihin kirjoihin. Toisaalta tämä ohjelmisto sopeutuu helpommin ... 😀

Vastaa Trovadordebarro
Juan Anez dijo
sitten 10 vuotta

Kuvien digitoinnin aikana PDF-A-tiedostoja muunnetaan, ja niiden on oltava OCR-tiedostoja. Kuinka herkkä tulos on skannaus mustavalkoisena tai harmaasävynä? Mitä suositellaan?

Vastaa Juan Anez