Oletame, et teil on skanneriga loodud PDF või mis edastati teile, kuid see sisaldab teavet pildi kujul. Kutsutakse protseduuri, millele peame oma armastatud PDF-i esitama OCR: protsess, mis tuvastab automaatselt teatud tähestikku kuuluvad sümbolid või märgid, alates pildist kuni selle salvestamiseni andmete kujul, millega saame tekstiredigeerimisprogrammi vms kaudu suhelda. |
pdfocr on lihtne tööriist, mis loob sisseehitatud tekstikihiga uue PDF-faili, võimaldades kasutajal teksti valida ja selles sõnu otsida, muutmata PDF-i lõplikku välimust.
Milleks pdfocr EI OLE:
See töötab ainult siis, kui PDF sisaldab teavet pildi kujul; kui eksportisite PDF-i OpenOffice'ist, on sellel juba varjatud tekstikiht, seega pole see protseduur vajalik.
Kuidas installida pdfocr:
sudo add-apt-hoidla ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get install pdfocr
Kuidas pdfocr-i kasutada:
Avage terminal, minge kataloogi, kus asub teisendatav PDF, ja sisestage järgmine tekst (sisestades sisestatava.pdf teisendatava PDF-iga ja väljundi.pdf asendades manustatud tekstikihiga uue faili nime)
pdfocr -i sisend.pdf -o väljund.pdf
Oodake, kuni kõik teie PDF-i lehed on OCR-i harjutatud ja lõplik muudetud fail on loodud. See peaks võtma paar sekundit lehe kohta, sõltuvalt teie PDF-i eraldusvõimest.
rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Pakettide loendi lugemine ... Valmis
Sõltuvuspuu loomine
Olekuteabe lugemine ... Valmis
E: pdfocri paketti ei leitud
rodolfo @ rodolfo-desktop: ~ $
Kas lisasite kindlasti vastava PPA?
Sellel PPA-l on tõenäoliselt vanemate Ubuntu versioonide pdfocr-i versioonid. Mõelge, et see postitus on juba mitu kuud vana. Igatahes on idee sama. Minge Launchpadisse ja otsige PPA-d, mis sisaldab Mavericki pdfocri versioone.
Terviseks! Paul.
Noh, see on selle testimise küsimus, et näha, kuidas see töötab
Lase käia! Andke meile teada, kui teil õnnestus !! Kui see ei toimi, võime proovida ka teid aidata! Terviseks! Paul.
Tere,
Olen programmi PDF-is testinud ja tulemus pole eriti hea. Olen professionaalse akrobaat 8-ga harjunud ja otsisin midagi sarnast. Acrobat edastab failidele utiliidid, et puhastada ja sirgendada skannitud pdf-faile ning saada seeläbi parem ocr-i allikas. Kas teate, kas sellele on lahendus.
tervitused
Tere! Olen umbes kuulnud, et Tesseract on parim avatud lähtekoodiga OCR. Ma ei tea, kas see saab hea olema. Samuti peate oma käed natuke määrduma, et see toimiks. Siin on mõned juhised. Kui teil õnnestub, palun andke mulle teada, sest kui see töötab, saab sellest tõenäoliselt postitus.
Kõigepealt installige paketid "tesseract 2.03-4" ja "imagemagick", kasutades rakendust Synaptic, "xsane2tess" saidilt "http://download.tuxfamily.org/guadausers/guadaV4/".
Seejärel looge tmp kaust kataloogis: / home / sinu kasutajanimi / tmp
Seejärel avage selle konfigureerimiseks Xsane, menüü Eelistused -> Konfiguratsioon -> OCR ja täitke järgmine:
OCR-käsk -> xsane2tess -l spa
Sisendfaili valik -> -i
Väljundfaili valik -> -o
Väljundi valik -fd liides -> -x
Xsane'i konfiguratsioonides vahekaardi "Salvesta" osas, kus on kirjas ajutine kataloog, veenduge, et seal oleks kaust "tmp", mille lõite kataloogis "/ home / yourusername"
Jätan teile ka lehe, kus on üksikasjad selle kohta, kuidas Ubuntu OCR-i teha: https://help.ubuntu.com/community/OCR
Teine meetod, mille avastasin x, on järgmine:
Eeldades, et skanner on süsteem juba ühendatud ja tunnustatud
1. Avan Süsteem> Haldus> Synaptic Package Manager (GNOME'is)
2. Otsige ja raamistage tesseract-ocr-spa (hispaania keeles skannimiseks) ja gscan2pdf installimiseks
3. Skannimiseks avan rakendused> Graafika> gscan2pdf
Ja valmis.
Hei sõber, suur aitäh, tõde on see, et tesseract on hea tööriist, kuid võrreldes "probleemse" skannimisega raamatutega väga piiratud. Teiselt poolt kohandub see tarkvara kergemini ... 😀
Piltide digiteerimise käigus teisendatakse PDF-A faile, need peavad olema OCR-vormingus. Kui tundlik on tulemuse suhtes mustvalge või halltoonides skaneerimine? Mida soovitatakse?