Kumaha carana ngadamel OCR PDF sareng ngaktipkeun pilihan téks sareng milarian

Anggap anjeun gaduh PDF anu diciptakeun nganggo scanner, atanapi yén aranjeunna ngintunkeun ka anjeun tapi éta ngandung inpormasi dina bentuk gambar. Prosedur pikeun urang kedah ngalebetkeun PDF anu dipikacinta disebut OCR: prosés anu sacara otomatis ngaidentipikasi simbol atanapi karakter anu kagolong kana abjad anu tangtu, tina gambar pikeun nyimpenna dina bentuk data anu urang tiasa berinteraksi ngalangkungan program éditan téks atanapi anu sami.


pdfocr mangrupikeun alat saderhana anu nyiptakeun PDF énggal kalayan lapisan téks tertanam, ngamungkinkeun pangguna pikeun milih téks sareng milarian kecap-kecap dina jerona, tanpa ngarobih tampilan akhir PDF.

Naon pdfocr TEU kanggo:

Ieu ngan ukur aya gunana upami PDF ngandung inpormasi dina bentuk gambar; upami anjeun ngekspor PDF ti OpenOffice, éta parantos ngagaduhan lapisan téks anu dilebetkeun, janten prosedur ieu henteu perlu.

Kumaha carana masang pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo update apt-meunang
sudo apt-meunang install pdfocr

Kumaha cara ngagunakeun pdfocr:

Buka terminal, buka diréktori dimana PDF anu anjeun badé ngarobih ayana, sareng lebetkeun ieu di handap (ngaganti input.pdf ku PDF anu anjeun badé ngarobih sareng output.pdf ku nami file énggal kalayan lapisan téks tertanam )

input pdfocr -i.pdf -o output.pdf

Tungguan unggal halaman PDF anjeun janten latihan OCR sareng file anu dirobih terakhir didamel. Ieu kedah sababaraha detik per halaman, gumantung kana résolusi PDF anjeun.


Eusi tulisan taat kana prinsip urang tina étika éditorial. Pikeun ngalaporkeun kasalahan klik di dieu.

9 koméntar, tinggalkeun anjeun

Ninggalkeun koméntar anjeun

email alamat anjeun moal diterbitkeun. Widang diperlukeun téh ditandaan ku *

*

*

  1. Jawab data: Miguel Ángel Gatón
  2. Tujuan tina data: Kontrol SPAM, manajemén koméntar.
  3. Legitimasi: idin anjeun
  4. Komunikasi data: Data moal dikomunikasikan ka pihak katilu kacuali ku kawajiban hukum.
  5. Panyimpenan data: Basis data anu diayakeun ku Occentus Networks (EU)
  6. Hak: Iraha waé anjeun tiasa ngawatesan, cageur sareng mupus inpormasi anjeun.

  1.   Rodolfo Lara cenahna

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    Maca daptar bungkus ... Rengse
    Nyiptakeun tangkal kagumantungan
    Maca inpormasi status ... Rengse
    E: Paket pdfocr henteu tiasa dipendakan
    rodolfo @ rodolfo-desktop: ~ $

  2.   Hayu urang nganggo Linux cenahna

    Naha anjeun pastikeun pikeun nambihan PPA anu saluyu?
    PPA ieu sigana ngagaduhan versi pdfocr pikeun vérsi Ubuntu anu langkung lami. Pikirkeun yén tulisan ieu parantos lami sababaraha bulan. Pokokna, ideu na sami. Buka Launchpad sareng milari PPA anu ngandung versi pdfocr pikeun Maverick.
    Surak! Paul.

  3.   Jvare cenahna

    Nya, éta bakal janten masalah pikeun nguji éta kumaha jalanna

  4.   Hayu urang nganggo Linux cenahna

    Lajengkeun! Hayu urang terang naha anjeun suksés !! Upami éta henteu tiasa dianggo kami ogé tiasa nyobian ngabantosan anjeun! Surak! Paul.

  5.   a01653 cenahna

    pantun,
    Kuring parantos nyobian program dina pdf sareng hasilna henteu saé pisan. Abdi biasa kana akrobat 8 ​​profesional sareng milarian anu sami. Acrobat ngalirkeun utiliti kana file pikeun ngabersihan sareng ngalempengkeun pdfs anu dipindai sahingga kéngingkeun sumber anu langkung saé pikeun ocr. Anjeun terang upami aya solusi pikeun ieu.

    salam

  6.   Hayu urang nganggo Linux cenahna

    Halo! Kuring kantos nguping yén Tesseract mangrupikeun OCR openource pangsaéna. Abdi henteu terang naha éta bakal saé. Ogé, anjeun kedah kéngingkeun panangan anjeun sakedik supados jago. Ieu sababaraha pitunjuk. Upami anjeun suksés, kuring nyuhungkeun béja kuring kusabab, upami éta hasil, éta bakal tungtungna jadi pos.

    Pasang heula bungkus "tesseract 2.03-4" sareng "imagemagick" nganggo Synaptic, "xsane2tess" tina "http://download.tuxfamily.org/guadausers/guadaV4/".

    Teras ngadamel folder tmp di: / home / yourusername / tmp

    Teras buka Xsane pikeun ngonpigurasikeunana, Preferensi–> Konfigurasi–> tab OCR sareng eusian ieu:

    Paréntah OCR -> xsane2tess -l spa
    Pilihan file input -> -i
    Pilihan file kaluaran -> -o
    Pilihan kaluaran -fd interface -> -x

    Dina konfigurasi Xsane dina tab "simpen" dina bagian anu nyatakeun diréktori samentawis, pastikeun aya folder "tmp" anu anjeun damel dina "/ home / yourusername"

    Kuring ogé ngantunkeun anjeun halaman sareng detil ngeunaan cara ngalakukeun OCR di Ubuntu: https://help.ubuntu.com/community/OCR

  7.   Hayu urang nganggo Linux cenahna

    Cara anu sanés anu kuring mendakan x ieu di handap:

    Anggap scanner parantos nyambung sareng dikenal ku sistem

    1. Kuring muka Sistem> Administrasi> Synaptic Package Manager (dina GNOME)

    2. Milarian sareng kerangka pikeun masang tesseract-ocr-spa (pikeun scan dina basa Spanyol) sareng gscan2pdf

    3. Pikeun nyeken kuring muka Aplikasi> Grafik> gscan2pdf

    Sareng siap.

  8.   Masalahna cenahna

    Hei sobat, hatur nuhun pisan, saleresna tesseract mangrupikeun alat anu saé, tapi terbatas pisan dibandingkeun sareng buku kalayan scanning "bermasalah". Di sisi anu sanésna, software ieu adaptasi langkung gampil ... 😀

  9.   juan anez cenahna

    Dina prosés digitalisasi Gambar, file PDF-A nuju dirobih, éta kedah di OCR. Kumaha sénsitip kana hasilna nyaéta scanning dina Hideung & Bodas atanapi Grayscale? Naon anu disarankeun?