Bagaimana untuk OCR PDF dan Dayakan Pemilihan dan Carian Teks

Cara OCR PDF dan membolehkan pemilihan dan carian teks

Andaikan anda mempunyai PDF yang dibuat menggunakan pengimbas, atau mereka memberikannya kepada anda tetapi mengandungi maklumat dalam bentuk gambar. Prosedur yang mesti kami kirimkan adalah PDF yang dicintai OCR: proses yang secara automatik mengenal pasti simbol atau watak yang termasuk dalam abjad tertentu, dari gambar untuk menyimpannya dalam bentuk data yang dengannya kita dapat berinteraksi menggunakan program penyuntingan teks atau yang serupa.

pdfocr adalah alat mudah yang membuat PDF baru dengan lapisan teks tertanam, yang membolehkan pengguna memilih teks dan mencari kata-kata di dalamnya, tanpa mengubah penampilan akhir PDF.

Apa yang pdfocr TIDAK untuk:

Ini hanya berguna jika PDF mengandungi maklumat dalam bentuk gambar; jika anda mengeksport PDF dari OpenOffice, ia sudah mempunyai lapisan teks tertanam, jadi prosedur ini tidak diperlukan.

Cara memasang pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get install pdfocr

Cara menggunakan pdfocr:

Buka terminal, pergi ke direktori di mana PDF yang ingin anda ubah berada, dan masukkan yang berikut (menggantikan input.pdf dengan PDF yang ingin anda ubah dan keluarkan.pdf dengan nama fail baru dengan lapisan teks terbenam )

pdfocr -i input.pdf -o output.pdf

Tunggu setiap halaman PDF anda dipraktikkan OCR dan fail terakhir yang diubah akan dibuat. Proses ini memerlukan beberapa saat setiap halaman, bergantung pada resolusi PDF anda.

Tinggalkan komen anda Batal balasan

Rudolph Lara kata
membuat 11 tahun

rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Senarai pakej membaca ... Selesai
Membuat pokok pergantungan
Membaca maklumat status ... Selesai
E: Pakej pdfocr tidak dapat dijumpai
rodolfo @ rodolfo-desktop: ~ $

Balas Rodolfo Lara
Mari gunakan Linux kata
membuat 11 tahun

Adakah anda memastikan untuk menambahkan PPA yang sesuai?
PPA ini mungkin mempunyai versi pdfocr untuk versi Ubuntu yang lebih lama. Fikirkan bahawa siaran ini sudah berusia beberapa bulan. Bagaimanapun, idea itu sama. Pergi ke Launchpad dan cari PPA yang mengandungi versi pdfocr untuk Maverick.
Ceria! Paul.

Balas Mari Menggunakan Linux
Jvare. kata
membuat 11 tahun

Baiklah, akan mengujinya untuk melihat bagaimana ia berfungsi

Balas Jvare
Mari gunakan Linux kata
membuat 11 tahun

Teruskan! Beritahu kami jika anda berjaya !! Sekiranya tidak berjaya, kami juga boleh mencuba membantu anda! Ceria! Paul.

Balas Mari Menggunakan Linux
a01653 kata
membuat 11 tahun

Hello,
Saya telah menguji program ini pada pdf dan hasilnya tidak begitu baik. Saya biasa dengan pemain akrobat 8 dan mencari sesuatu yang serupa. Acrobat menyampaikan utiliti ke fail untuk membersihkan dan meluruskan pdf yang diimbas dan dengan itu memperoleh sumber yang lebih baik untuk ocr. Anda tahu jika ada penyelesaian untuk ini.

Sesuatu ucapan

Balas a01653
Mari gunakan Linux kata
membuat 11 tahun

Helo! Saya pernah mendengar bahawa Tesseract adalah OCR sumber terbuka terbaik. Saya tidak tahu adakah ia akan baik. Selain itu, anda mesti sedikit kotor untuk menjadikannya berfungsi. Berikut adalah beberapa arahan. Sekiranya anda berjaya, beritahu saya kerana, jika berjaya, ia mungkin akan menjadi jawatan.

Pasang dahulu pakej "tesseract 2.03-4" dan "imagemagick" menggunakan Synaptic, "xsane2tess" dari "http://download.tuxfamily.org/guadausers/guadaV4/".

Kemudian buat folder tmp di: / home / nama pengguna anda / tmp

Kemudian buka Xsane untuk mengkonfigurasinya, Preferences–> Configuration–> tab OCR dan isikan yang berikut:

Perintah OCR -> xsane2tess -l spa
Pilihan fail input -> -i
Pilihan fail output -> -o
Pilihan output antara muka fd -> -x

Dalam konfigurasi Xsane di tab "simpan" di bahagian yang mengatakan direktori sementara, pastikan ada folder "tmp" yang anda buat di "/ home / nama pengguna anda"

Saya juga meninggalkan anda halaman dengan perincian mengenai cara melakukan OCR di Ubuntu: https://help.ubuntu.com/community/OCR

Balas Mari Menggunakan Linux
Mari gunakan Linux kata
membuat 11 tahun

Kaedah lain yang saya dapati ada yang berikut:

Dengan andaian pengimbas telah disambungkan dan dikenali oleh sistem

1. Saya membuka Sistem> Pentadbiran> Pengurus Pakej Synaptic (di GNOME)

2. Cari dan rangka untuk memasang tesseract-ocr-spa (untuk mengimbas dalam bahasa Sepanyol) dan gscan2pdf

3. Untuk mengimbas saya buka Aplikasi> Grafik> gscan2pdf

Dan bersedia.

Balas Mari Menggunakan Linux
Troubadour kata
membuat 10 tahun

Hai kawan, terima kasih banyak, sebenarnya tesseract adalah alat yang baik, tetapi sangat terhad berbanding buku dengan pengimbasan "bermasalah". Sebaliknya, perisian ini menyesuaikan diri dengan lebih mudah ... 😀

Balas Trovadordebarro
Juan Anez kata
membuat 10 tahun

Dalam proses mendigitalkan Imej, fail PDF-A sedang ditukar, fail tersebut mesti OCR. Sejauh mana sensitif terhadap hasil pengimbasan dalam Hitam & Putih atau Skala Kelabu? Apa yang disyorkan?

Balas juan anez