Supozoni se keni një PDF që është krijuar duke përdorur një skaner, ose që jua kanë kaluar por ju përmban informacionin në formën e një imazhi. Procedura në të cilën duhet të paraqesim PDF-në tonë të dashur quhet OCR: një proces që identifikon automatikisht simbolet ose personazhet që i përkasin një alfabeti të caktuar, nga një imazh për ta ruajtur atë në formën e të dhënave me të cilat mund të bashkëveprojmë përmes një programi për redaktimin e tekstit ose të ngjashme. |
pdfocr është një mjet i thjeshtë që krijon një PDF të ri me një shtresë teksti të ngulitur, duke lejuar përdoruesin të zgjedhë tekstin dhe të kërkojë fjalë në të, pa ndryshuar pamjen përfundimtare të PDF.
Për çfarë nuk është pdfocr:
Kjo është e dobishme vetëm nëse PDF përmban informacionin në formë të imazhit; nëse keni eksportuar PDF nga OpenOffice, ai tashmë ka një shtresë të ngulitur të tekstit, kështu që kjo procedurë është e panevojshme.
Si të instaloni pdfocr:
sudo add-apt-depo ppa: gezakovacs / pdfocr
sudo apt-get freskimin e
sudo apt-get instaloni pdfocr
Si të përdorni pdfocr:
Hapni një terminal, shkoni te direktoria ku ndodhet PDF që dëshironi të konvertoni dhe futni sa vijon (duke zëvendësuar input.pdf me PDF që dëshironi të konvertoni dhe të dilni.pdf me emrin e skedarit të ri me shtresën e tekstit të ngulitur )
pdfocr -i input.pdf -o dalje.pdf
Prisni që çdo faqe e PDF tuaj të praktikohet OCR dhe skedari i modifikuar përfundimtar të krijohet. Kjo duhet të marrë disa sekonda për faqe, në varësi të rezolucionit të PDF tuaj.
rodolfo @ rodolfo-desktop: install $ sudo apt-get instaloni pdfocr
Leximi i listës së paketës ... U krye
Krijimi i pemës së varësisë
Leximi i informacionit të statusit ... U krye
E: Paketa pdfocr nuk mund të gjendej
rodolfo @ rodolfo-desktop: ~ $
A jeni siguruar që të shtoni APP-në përkatëse?
Kjo PPA ka të ngjarë të ketë versione të pdfocr për versionet më të vjetra të Ubuntu. Mendoni se ky postim është tashmë disa muajsh i vjetër. Sidoqoftë, ideja është e njëjtë. Shkoni te Launchpad dhe kërkoni një PPA që përmban versione të pdfocr për Maverick.
Gëzuar! Paul.
Epo, do të jetë çështje testimi për të parë se si funksionon
Vazhdo! Na tregoni nëse keni qenë të suksesshëm !! Nëse nuk funksionon, ne gjithashtu mund të përpiqemi t'ju ndihmojmë! Gëzuar! Paul.
Përshëndetje,
Unë e kam testuar programin në pdf dhe rezultati nuk është shumë i mirë. Jam mësuar me akrobatin profesionist 8 dhe po kërkoja diçka të ngjashme. Acrobat kalon shërbime në skedarë për të pastruar dhe drejtuar pdf-të e skanuara dhe kështu të sigurojë një burim më të mirë për ocr. Ju e dini nëse ka ndonjë zgjidhje për këtë.
Një përshëndetje
Përshëndetje! Kam dëgjuar që Tesseract është OCR-ja më e mirë me burime të hapura. Nuk e di nëse do të jetë mirë. Gjithashtu, duhet t'i bëni duart paksa të ndyra për ta bërë atë të funksionojë. Këtu janë disa udhëzime. Nëse jeni të suksesshëm, ju lutem më tregoni pasi, nëse funksionon, ndoshta do të bëhet një postim.
Së pari instaloni paketat "tesseract 2.03-4" dhe "imagemagick" duke përdorur Synaptic, "xsane2tess" nga "http://download.tuxfamily.org/guadausers/guadaV4/".
Pastaj krijoni dosjen tmp në: / home / yourusername / tmp
Pastaj hapni Xsane për ta konfiguruar, Preferences–> Configuration–> OCR tab dhe plotësoni sa vijon:
Komanda OCR -> banjë xsane2tess -l
Opsioni i skedarit të hyrjes -> -i
Opsioni i skedarit të daljes -> -o
Opsioni i daljes - ndërfaqja fd -> -x
Në konfigurimet Xsane në skedën "ruaj" në pjesën ku thotë direktori e përkohshme, sigurohuni që ka dosjen "tmp" që keni krijuar në "/ home / yourusername"
Unë gjithashtu ju lë një faqe me detaje se si të bëni OCR në Ubuntu: https://help.ubuntu.com/community/OCR
Një metodë tjetër që zbulova x atje është si vijon:
Duke supozuar se skaneri tashmë është lidhur dhe njohur nga sistemi
1. Hap Sistemin> Administrimin> Menaxheri i Paketave Synaptic (në GNOME)
2. Unë kërkoj dhe kornizë për të instaluar tesseract-ocr-spa (për të skanuar në spanjisht) dhe gscan2pdf
3. Për të skanuar hap Aplikimet> Grafikë> gscan2pdf
Dhe gati.
Hej shok, shumë faleminderit, e vërteta është se tesseract është një mjet i mirë, por shumë i kufizuar krahasuar me librat me skanim "problematik". Nga ana tjetër, ky program përshtatet më lehtë ...
Në një proces të dixhitalizimit të Imazheve, skedarët PDF-A janë duke u konvertuar, ato duhet të OCRed. Sa e ndjeshme ndaj rezultatit është skanimi në të Zezë dhe të Bardhë ose në Gri? Çfarë rekomandohet?