Si të OCR një PDF dhe të mundësojë zgjedhjen dhe kërkimin e tekstit

Supozoni se keni një PDF që është krijuar duke përdorur një skaner, ose që jua kanë kaluar por ju përmban informacionin në formën e një imazhi. Procedura në të cilën duhet të paraqesim PDF-në tonë të dashur quhet OCR: një proces që identifikon automatikisht simbolet ose personazhet që i përkasin një alfabeti të caktuar, nga një imazh për ta ruajtur atë në formën e të dhënave me të cilat mund të bashkëveprojmë përmes një programi për redaktimin e tekstit ose të ngjashme.


pdfocr është një mjet i thjeshtë që krijon një PDF të ri me një shtresë teksti të ngulitur, duke lejuar përdoruesin të zgjedhë tekstin dhe të kërkojë fjalë në të, pa ndryshuar pamjen përfundimtare të PDF.

Për çfarë nuk është pdfocr:

Kjo është e dobishme vetëm nëse PDF përmban informacionin në formë të imazhit; nëse keni eksportuar PDF nga OpenOffice, ai tashmë ka një shtresë të ngulitur të tekstit, kështu që kjo procedurë është e panevojshme.

Si të instaloni pdfocr:

sudo add-apt-depo ppa: gezakovacs / pdfocr
sudo apt-get freskimin e
sudo apt-get instaloni pdfocr

Si të përdorni pdfocr:

Hapni një terminal, shkoni te direktoria ku ndodhet PDF që dëshironi të konvertoni dhe futni sa vijon (duke zëvendësuar input.pdf me PDF që dëshironi të konvertoni dhe të dilni.pdf me emrin e skedarit të ri me shtresën e tekstit të ngulitur )

pdfocr -i input.pdf -o dalje.pdf

Prisni që çdo faqe e PDF tuaj të praktikohet OCR dhe skedari i modifikuar përfundimtar të krijohet. Kjo duhet të marrë disa sekonda për faqe, në varësi të rezolucionit të PDF tuaj.


9 komente, lini tuajën

Lini komentin tuaj

Adresa juaj e emailit nuk do të publikohet. Fusha e kërkuar janë shënuar me *

*

*

  1. Përgjegjës për të dhënat: Miguel Ángel Gatón
  2. Qëllimi i të dhënave: Kontrolloni SPAM, menaxhimin e komenteve.
  3. Legjitimimi: Pëlqimi juaj
  4. Komunikimi i të dhënave: Të dhënat nuk do t'u komunikohen palëve të treta përveç me detyrim ligjor.
  5. Ruajtja e të dhënave: Baza e të dhënave e organizuar nga Occentus Networks (BE)
  6. Të drejtat: Në çdo kohë mund të kufizoni, rikuperoni dhe fshini informacionin tuaj.

  1.   Rudolph Lara dijo

    rodolfo @ rodolfo-desktop: install $ sudo apt-get instaloni pdfocr
    Leximi i listës së paketës ... U krye
    Krijimi i pemës së varësisë
    Leximi i informacionit të statusit ... U krye
    E: Paketa pdfocr nuk mund të gjendej
    rodolfo @ rodolfo-desktop: ~ $

  2.   Le të përdorim Linux dijo

    A jeni siguruar që të shtoni APP-në përkatëse?
    Kjo PPA ka të ngjarë të ketë versione të pdfocr për versionet më të vjetra të Ubuntu. Mendoni se ky postim është tashmë disa muajsh i vjetër. Sidoqoftë, ideja është e njëjtë. Shkoni te Launchpad dhe kërkoni një PPA që përmban versione të pdfocr për Maverick.
    Gëzuar! Paul.

  3.   jvare dijo

    Epo, do të jetë çështje testimi për të parë se si funksionon

  4.   Le të përdorim Linux dijo

    Vazhdo! Na tregoni nëse keni qenë të suksesshëm !! Nëse nuk funksionon, ne gjithashtu mund të përpiqemi t'ju ndihmojmë! Gëzuar! Paul.

  5.   a01653 dijo

    Përshëndetje,
    Unë e kam testuar programin në pdf dhe rezultati nuk është shumë i mirë. Jam mësuar me akrobatin profesionist 8 dhe po kërkoja diçka të ngjashme. Acrobat kalon shërbime në skedarë për të pastruar dhe drejtuar pdf-të e skanuara dhe kështu të sigurojë një burim më të mirë për ocr. Ju e dini nëse ka ndonjë zgjidhje për këtë.

    Një përshëndetje

  6.   Le të përdorim Linux dijo

    Përshëndetje! Kam dëgjuar që Tesseract është OCR-ja më e mirë me burime të hapura. Nuk e di nëse do të jetë mirë. Gjithashtu, duhet t'i bëni duart paksa të ndyra për ta bërë atë të funksionojë. Këtu janë disa udhëzime. Nëse jeni të suksesshëm, ju lutem më tregoni pasi, nëse funksionon, ndoshta do të bëhet një postim.

    Së pari instaloni paketat "tesseract 2.03-4" dhe "imagemagick" duke përdorur Synaptic, "xsane2tess" nga "http://download.tuxfamily.org/guadausers/guadaV4/".

    Pastaj krijoni dosjen tmp në: / home / yourusername / tmp

    Pastaj hapni Xsane për ta konfiguruar, Preferences–> Configuration–> OCR tab dhe plotësoni sa vijon:

    Komanda OCR -> banjë xsane2tess -l
    Opsioni i skedarit të hyrjes -> -i
    Opsioni i skedarit të daljes -> -o
    Opsioni i daljes - ndërfaqja fd -> -x

    Në konfigurimet Xsane në skedën "ruaj" në pjesën ku thotë direktori e përkohshme, sigurohuni që ka dosjen "tmp" që keni krijuar në "/ home / yourusername"

    Unë gjithashtu ju lë një faqe me detaje se si të bëni OCR në Ubuntu: https://help.ubuntu.com/community/OCR

  7.   Le të përdorim Linux dijo

    Një metodë tjetër që zbulova x atje është si vijon:

    Duke supozuar se skaneri tashmë është lidhur dhe njohur nga sistemi

    1. Hap Sistemin> Administrimin> Menaxheri i Paketave Synaptic (në GNOME)

    2. Unë kërkoj dhe kornizë për të instaluar tesseract-ocr-spa (për të skanuar në spanjisht) dhe gscan2pdf

    3. Për të skanuar hap Aplikimet> Grafikë> gscan2pdf

    Dhe gati.

  8.   Troubadour dijo

    Hej shok, shumë faleminderit, e vërteta është se tesseract është një mjet i mirë, por shumë i kufizuar krahasuar me librat me skanim "problematik". Nga ana tjetër, ky program përshtatet më lehtë ...

  9.   Juan Anez dijo

    Në një proces të dixhitalizimit të Imazheve, skedarët PDF-A janë duke u konvertuar, ato duhet të OCRed. Sa e ndjeshme ndaj rezultatit është skanimi në të Zezë dhe të Bardhë ose në Gri? Çfarë rekomandohet?