Paano mag-OCR ng isang PDF at paganahin ang pagpili ng teksto at paghahanap

Ipagpalagay na mayroon kang isang PDF na nilikha gamit ang isang scanner, o naipasa nila ito sa iyo ngunit naglalaman ito ng impormasyon sa anyo ng isang imahe. Ang pamamaraan kung saan dapat naming isumite ang aming minamahal na PDF ay tinatawag OCR: isang proseso na awtomatikong kinikilala ang mga simbolo o character na kabilang sa isang tiyak na alpabeto, mula sa isang imahe upang maiimbak ito sa anyo ng data kung saan maaari kaming makipag-ugnay gamit ang isang programa sa pag-edit ng teksto o katulad.


Ang pdfocr ay isang simpleng tool na lumilikha ng isang bagong PDF na may isang naka-embed na layer ng teksto, na pinapayagan ang gumagamit na pumili ng teksto at maghanap para sa mga salita dito, nang hindi binabago ang pangwakas na hitsura ng PDF.

Ano ang HINDI para sa pdfocr:

Kapaki-pakinabang lamang ito kung naglalaman ang PDF ng impormasyon sa form ng imahe; kung na-export mo ang PDF mula sa OpenOffice, mayroon na itong naka-embed na layer ng teksto, kaya't hindi kinakailangan ang pamamaraang ito.

Paano mag-install ng pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-makakuha ng update
sudo apt-get install ng pdfocr

Paano gamitin ang pdfocr:

Magbukas ng isang terminal, pumunta sa direktoryo kung saan matatagpuan ang PDF na nais mong i-convert, at ipasok ang sumusunod (pinapalitan ang input.pdf sa PDF na nais mong i-convert at output.pdf ng pangalan ng bagong file na may naka-embed na layer ng teksto)

input ng sdocr –pdf -o output.pdf

Hintayin ang bawat pahina ng iyong PDF na maisagawa ang OCR at ang pangwakas na binagong file upang malikha. Dapat itong tumagal ng ilang segundo bawat pahina, depende sa resolusyon ng iyong PDF.


Iwanan ang iyong puna

Ang iyong email address ay hindi nai-publish. Mga kinakailangang patlang ay minarkahan ng *

*

*

  1. Responsable para sa data: Miguel Ángel Gatón
  2. Layunin ng data: Kontrolin ang SPAM, pamamahala ng komento.
  3. Legitimation: Ang iyong pahintulot
  4. Komunikasyon ng data: Ang data ay hindi maiparating sa mga third party maliban sa ligal na obligasyon.
  5. Imbakan ng data: Ang database na naka-host ng Occentus Networks (EU)
  6. Mga Karapatan: Sa anumang oras maaari mong limitahan, mabawi at tanggalin ang iyong impormasyon.

  1.   Rudolph Lara dijo

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    Listahan ng package sa pagbabasa ... Tapos Na
    Lumilikha ng puno ng pagtitiwala
    Pagbasa ng impormasyon sa katayuan ... Tapos Na
    E: Ang pakete ng pdfocr ay hindi matagpuan
    rodolfo @ rodolfo-desktop: ~ $

  2.   Gumamit tayo ng Linux dijo

    Natiyak mo bang idaragdag ang kaukulang PPA?
    Ang PPA na ito ay malamang na may mga bersyon ng pdfocr para sa mas lumang mga bersyon ng Ubuntu. Isipin na ang post na ito ay mayroon nang maraming buwan. Gayunpaman, ang ideya ay pareho. Pumunta sa Launchpad at hanapin ang isang PPA na naglalaman ng mga bersyon ng pdfocr para sa Maverick.
    Cheers! Paul

  3.   jvare dijo

    Sa gayon, ito ay magiging isang bagay ng pagsubok ito upang makita kung paano ito gumagana

  4.   Gumamit tayo ng Linux dijo

    Sige lang! Ipaalam sa amin kung ikaw ay matagumpay !! Kung hindi ito gumana maaari ka ring subukang tulungan ka! Cheers! Paul

  5.   a01653 dijo

    Hello,
    Nasubukan ko ang programa sa isang pdf at ang resulta ay hindi gaanong maganda. Sanay ako sa propesyonal na acrobat 8 ​​at naghahanap ng katulad na bagay. Ang Acrobat ay nagpapasa ng mga utility sa mga file upang linisin at ituwid ang na-scan na mga pdfs at sa gayon ay makakuha ng isang mas mahusay na mapagkukunan para sa ocr. Alam mo ba kung may solusyon dito.

    Isang pagbati

  6.   Gumamit tayo ng Linux dijo

    Kamusta! Narinig ko sa paligid na ang Tesseract ay ang pinakamahusay na opensource OCR. Hindi ko alam kung magiging mabuti ito. Gayundin, kailangan mong makuha ang iyong mga kamay ng medyo marumi upang ito ay gumana. Narito ang ilang mga tagubilin. Kung matagumpay ka, mangyaring ipaalam sa akin dahil, kung ito ay gumagana, marahil ay magtatapos ito sa pagiging isang post.

    I-install muna ang mga package na "tesseract 2.03-4" at "imagemagick" gamit ang Synaptic, "xsane2tess" mula sa "http://download.tuxfamily.org/guadausers/guadaV4/".

    Pagkatapos ay likhain ang folder ng tmp sa: / home / yourusername / tmp

    Pagkatapos buksan ang Xsane upang mai-configure ito, Mga Kagustuhan–> Pag-configure–> tab na OCR at punan ang sumusunod:

    Command ng OCR -> xsane2tess -l spa
    Pagpipilian sa pag-input ng file -> -i
    Pagpipilian sa output ng file -> -o
    Pagpipilian sa output -fd interface -> -x

    Sa mga pagsasaayos ng Xsane sa tab na "i-save" sa bahaging sinasabi nito pansamantalang direktoryo, tiyaking mayroong folder na "tmp" na nilikha mo sa "/ home / yourusername"

    Iiwan ko rin sa iyo ang isang pahina na may mga detalye tungkol sa kung paano mag-OCR sa Ubuntu: https://help.ubuntu.com/community/OCR

  7.   Gumamit tayo ng Linux dijo

    Ang isa pang pamamaraan na natuklasan ko x may mga sumusunod:

    Ipagpalagay na ang scanner ay konektado at nakilala na ng system

    1. Binubuksan ko ang System> Administrasyon> Synaptic Package Manager (sa GNOME)

    2. Paghahanap at balangkas upang mai-install ang tesseract-ocr-spa (upang i-scan sa Espanyol) at gscan2pdf

    3. Upang i-scan binubuksan ko ang Mga Aplikasyon> Graphics> gscan2pdf

    At handa na.

  8.   Troubadour dijo

    Hoy kaibigan, maraming salamat, ang totoo ay ang tesseract ay isang mahusay na tool, ngunit napaka-limitado kumpara sa mga libro na may "may problemang" pag-scan. Sa kabilang banda, ang software na ito ay mas madaling umangkop ... 😀

  9.   Juan Anez dijo

    Sa isang proseso ng pag-digitize ng Mga Larawan, ang mga PDF-A na file ay nai-convert, dapat silang ma-OCR. Gaano kahirap sa resulta ang pag-scan sa Itim at Puti o Grayscale? Ano ang inirekomenda?