Oletetaan, että sinulla on PDF-tiedosto, joka on luotu skannerilla tai joka on välitetty sinulle, mutta se sisältää tiedot kuvan muodossa. Menettelyä, johon meidän on lähetettävä rakastettu PDF-tiedosto, kutsutaan OCR: prosessi, joka tunnistaa automaattisesti tietylle aakkoselle kuuluvat symbolit tai merkit kuvasta kuvan varastoimiseksi datana, jonka kanssa voimme olla vuorovaikutuksessa tekstieditointiohjelman tai vastaavan avulla. |
pdfocr on yksinkertainen työkalu, joka luo uuden PDF: n upotetulla tekstikerroksella, jolloin käyttäjä voi valita tekstin ja etsiä sanoja siitä muuttamatta PDF: n lopullista ulkonäköä.
Mitä pdfocr EI OLE:
Tästä on hyötyä vain, jos PDF sisältää tiedot kuvamuodossa; Jos viet PDF-tiedoston OpenOffice-palvelusta, siinä on jo upotettu tekstikerros, joten tämä toimenpide on tarpeeton.
Kuinka asentaa pdfocr:
sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get install pdfocr
Kuinka käyttää pdfocr:
Avaa pääte, siirry hakemistoon, jossa muunnettava PDF sijaitsee, ja kirjoita seuraava (korvaamalla input.pdf muunnettavalla ja output.pdf-tiedostolla uuden tiedoston nimellä upotetulla tekstikerroksella )
pdfocr -i input.pdf -o output.pdf
Odota, että jokaisella PDF-sivullasi on OCR-toiminto ja lopullinen muokattu tiedosto luodaan. Tämän pitäisi kestää muutama sekunti per sivu, riippuen PDF: n tarkkuudesta.
rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Luetaan pakettiluetteloa ... Valmis
Luodaan riippuvuuspuu
Tilatietojen lukeminen ... Valmis
E: pdfocr-pakettia ei löytynyt
rodolfo @ rodolfo-työpöytä: ~ $
Lisäsitkö vastaavan PPA: n?
Tällä PPA: lla on todennäköisesti pdfocr-versiot vanhemmille Ubuntu-versioille. Luulen, että tämä viesti on jo useita kuukausia vanha. Ajatus on joka tapauksessa sama. Siirry Launchpadiin ja etsi PPA, joka sisältää pdfaverin versiot Maverickille.
Kippis! Paul.
No, se on asia testata sitä nähdäksesi, miten se toimii
Mene eteenpäin! Kerro meille, jos onnistuit !! Jos se ei toimi, voimme myös yrittää auttaa sinua! Kippis! Paul.
Hei,
Olen testannut ohjelmaa pdf-muodossa ja tulos ei ole kovin hyvä. Olen tottunut ammattimaiseen akrobaattiin 8 ja etsin jotain vastaavaa. Acrobat siirtää apuohjelmat tiedostoihin puhdistamaan ja suoristamaan skannatut pdf-tiedostot ja saamaan siten paremman lähteen ocr: lle. Tiedätkö onko tähän ratkaisu.
tervehdys
Hei! Olen kuullut noin, että Tesseract on paras avoimen lähdekoodin OCR. En tiedä onko siitä hyvä. Lisäksi sinun täytyy saada kätesi hieman likaiseksi, jotta se toimisi. Tässä on joitain ohjeita. Jos onnistut, pyydän sinua ilmoittamaan minulle, koska jos se toimii, siitä todennäköisesti tulee viesti.
Asenna ensin paketit "tesseract 2.03-4" ja "imagemagick" käyttämällä Synapticia, "xsane2tess", sivulta "http://download.tuxfamily.org/guadausers/guadaV4/".
Luo sitten tmp-kansio kansioon: / home / käyttäjänimesi / tmp
Määritä sitten avaamalla Xsane, Asetukset -> Kokoonpano -> OCR-välilehti ja täytä seuraava:
OCR-komento -> xsane2tess -l spa
Syötetiedosto-vaihtoehto -> -i
Tulostustiedoston vaihtoehto -> -o
Lähtövaihtoehto -fd-liitäntä -> -x
Xsane-määrityksissä "tallenna" -välilehdessä osassa, jossa sanotaan väliaikainen hakemisto, varmista, että kansiossa "/ home / käyttäjänimi" on luomasi "tmp" -kansio
Jätän sinulle myös sivun, jossa on tietoja OCR: n tekemisestä Ubuntussa: https://help.ubuntu.com/community/OCR
Toinen menetelmä, jonka löysin x, on seuraava:
Olettaen, että skanneri on jo liitetty ja tunnistettu järjestelmässä
1. Avaa Järjestelmä> Hallinta> Synaptic Package Manager (GNOME-sovelluksessa)
2. Etsin ja kehitin asentaa tesseract-ocr-spa (skannata espanjaksi) ja gscan2pdf
3. Skannaamiseksi avaan Sovellukset> Grafiikka> gscan2pdf
Ja valmis.
Hei ystävä, kiitos paljon, totuus on, että tesseract on hyvä työkalu, mutta hyvin rajallinen verrattuna "ongelmallisella" skannauksella varustettuihin kirjoihin. Toisaalta tämä ohjelmisto sopeutuu helpommin ... 😀
Kuvien digitoinnin aikana PDF-A-tiedostoja muunnetaan, ja niiden on oltava OCR-tiedostoja. Kuinka herkkä tulos on skannaus mustavalkoisena tai harmaasävynä? Mitä suositellaan?