Cara OCR PDF dan membolehkan pemilihan dan carian teks

Andaikan anda mempunyai PDF yang dibuat menggunakan pengimbas, atau mereka memberikannya kepada anda tetapi mengandungi maklumat dalam bentuk gambar. Prosedur yang mesti kami kirimkan adalah PDF yang dicintai OCR: proses yang secara automatik mengenal pasti simbol atau watak yang termasuk dalam abjad tertentu, dari gambar untuk menyimpannya dalam bentuk data yang dengannya kita dapat berinteraksi menggunakan program penyuntingan teks atau yang serupa.


pdfocr adalah alat mudah yang membuat PDF baru dengan lapisan teks tertanam, yang membolehkan pengguna memilih teks dan mencari kata-kata di dalamnya, tanpa mengubah penampilan akhir PDF.

Apa yang pdfocr TIDAK untuk:

Ini hanya berguna jika PDF mengandungi maklumat dalam bentuk gambar; jika anda mengeksport PDF dari OpenOffice, ia sudah mempunyai lapisan teks tertanam, jadi prosedur ini tidak diperlukan.

Cara memasang pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get install pdfocr

Cara menggunakan pdfocr:

Buka terminal, pergi ke direktori di mana PDF yang ingin anda ubah berada, dan masukkan yang berikut (menggantikan input.pdf dengan PDF yang ingin anda ubah dan keluarkan.pdf dengan nama fail baru dengan lapisan teks terbenam )

pdfocr -i input.pdf -o output.pdf

Tunggu setiap halaman PDF anda dipraktikkan OCR dan fail terakhir yang diubah akan dibuat. Proses ini memerlukan beberapa saat setiap halaman, bergantung pada resolusi PDF anda.


Tinggalkan komen anda

Alamat email anda tidak akan disiarkan. Ruangan yang diperlukan ditanda dengan *

*

*

  1. Bertanggungjawab atas data: Miguel Ángel Gatón
  2. Tujuan data: Mengendalikan SPAM, pengurusan komen.
  3. Perundangan: Persetujuan anda
  4. Komunikasi data: Data tidak akan disampaikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Pangkalan data yang dihoskan oleh Occentus Networks (EU)
  6. Hak: Pada bila-bila masa anda boleh menghadkan, memulihkan dan menghapus maklumat anda.

  1.   Rudolph Lara kata

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    Senarai pakej membaca ... Selesai
    Membuat pokok pergantungan
    Membaca maklumat status ... Selesai
    E: Pakej pdfocr tidak dapat dijumpai
    rodolfo @ rodolfo-desktop: ~ $

  2.   Mari gunakan Linux kata

    Adakah anda memastikan untuk menambahkan PPA yang sesuai?
    PPA ini mungkin mempunyai versi pdfocr untuk versi Ubuntu yang lebih lama. Fikirkan bahawa siaran ini sudah berusia beberapa bulan. Bagaimanapun, idea itu sama. Pergi ke Launchpad dan cari PPA yang mengandungi versi pdfocr untuk Maverick.
    Ceria! Paul.

  3.   Jvare. kata

    Baiklah, akan mengujinya untuk melihat bagaimana ia berfungsi

  4.   Mari gunakan Linux kata

    Teruskan! Beritahu kami jika anda berjaya !! Sekiranya tidak berjaya, kami juga boleh mencuba membantu anda! Ceria! Paul.

  5.   a01653 kata

    Hello,
    Saya telah menguji program ini pada pdf dan hasilnya tidak begitu baik. Saya biasa dengan pemain akrobat 8 ​​dan mencari sesuatu yang serupa. Acrobat menyampaikan utiliti ke fail untuk membersihkan dan meluruskan pdf yang diimbas dan dengan itu memperoleh sumber yang lebih baik untuk ocr. Anda tahu jika ada penyelesaian untuk ini.

    Sesuatu ucapan

  6.   Mari gunakan Linux kata

    Helo! Saya pernah mendengar bahawa Tesseract adalah OCR sumber terbuka terbaik. Saya tidak tahu adakah ia akan baik. Selain itu, anda mesti sedikit kotor untuk menjadikannya berfungsi. Berikut adalah beberapa arahan. Sekiranya anda berjaya, beritahu saya kerana, jika berjaya, ia mungkin akan menjadi jawatan.

    Pasang dahulu pakej "tesseract 2.03-4" dan "imagemagick" menggunakan Synaptic, "xsane2tess" dari "http://download.tuxfamily.org/guadausers/guadaV4/".

    Kemudian buat folder tmp di: / home / nama pengguna anda / tmp

    Kemudian buka Xsane untuk mengkonfigurasinya, Preferences–> Configuration–> tab OCR dan isikan yang berikut:

    Perintah OCR -> xsane2tess -l spa
    Pilihan fail input -> -i
    Pilihan fail output -> -o
    Pilihan output antara muka fd -> -x

    Dalam konfigurasi Xsane di tab "simpan" di bahagian yang mengatakan direktori sementara, pastikan ada folder "tmp" yang anda buat di "/ home / nama pengguna anda"

    Saya juga meninggalkan anda halaman dengan perincian mengenai cara melakukan OCR di Ubuntu: https://help.ubuntu.com/community/OCR

  7.   Mari gunakan Linux kata

    Kaedah lain yang saya dapati ada yang berikut:

    Dengan andaian pengimbas telah disambungkan dan dikenali oleh sistem

    1. Saya membuka Sistem> Pentadbiran> Pengurus Pakej Synaptic (di GNOME)

    2. Cari dan rangka untuk memasang tesseract-ocr-spa (untuk mengimbas dalam bahasa Sepanyol) dan gscan2pdf

    3. Untuk mengimbas saya buka Aplikasi> Grafik> gscan2pdf

    Dan bersedia.

  8.   Troubadour kata

    Hai kawan, terima kasih banyak, sebenarnya tesseract adalah alat yang baik, tetapi sangat terhad berbanding buku dengan pengimbasan "bermasalah". Sebaliknya, perisian ini menyesuaikan diri dengan lebih mudah ... 😀

  9.   Juan Anez kata

    Dalam proses mendigitalkan Imej, fail PDF-A sedang ditukar, fail tersebut mesti OCR. Sejauh mana sensitif terhadap hasil pengimbasan dalam Hitam & Putih atau Skala Kelabu? Apa yang disyorkan?