Andaikan anda mempunyai PDF yang dibuat menggunakan pengimbas, atau mereka memberikannya kepada anda tetapi mengandungi maklumat dalam bentuk gambar. Prosedur yang mesti kami kirimkan adalah PDF yang dicintai OCR: proses yang secara automatik mengenal pasti simbol atau watak yang termasuk dalam abjad tertentu, dari gambar untuk menyimpannya dalam bentuk data yang dengannya kita dapat berinteraksi menggunakan program penyuntingan teks atau yang serupa. |
pdfocr adalah alat mudah yang membuat PDF baru dengan lapisan teks tertanam, yang membolehkan pengguna memilih teks dan mencari kata-kata di dalamnya, tanpa mengubah penampilan akhir PDF.
Apa yang pdfocr TIDAK untuk:
Ini hanya berguna jika PDF mengandungi maklumat dalam bentuk gambar; jika anda mengeksport PDF dari OpenOffice, ia sudah mempunyai lapisan teks tertanam, jadi prosedur ini tidak diperlukan.
Cara memasang pdfocr:
sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get install pdfocr
Cara menggunakan pdfocr:
Buka terminal, pergi ke direktori di mana PDF yang ingin anda ubah berada, dan masukkan yang berikut (menggantikan input.pdf dengan PDF yang ingin anda ubah dan keluarkan.pdf dengan nama fail baru dengan lapisan teks terbenam )
pdfocr -i input.pdf -o output.pdf
Tunggu setiap halaman PDF anda dipraktikkan OCR dan fail terakhir yang diubah akan dibuat. Proses ini memerlukan beberapa saat setiap halaman, bergantung pada resolusi PDF anda.
rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Senarai pakej membaca ... Selesai
Membuat pokok pergantungan
Membaca maklumat status ... Selesai
E: Pakej pdfocr tidak dapat dijumpai
rodolfo @ rodolfo-desktop: ~ $
Adakah anda memastikan untuk menambahkan PPA yang sesuai?
PPA ini mungkin mempunyai versi pdfocr untuk versi Ubuntu yang lebih lama. Fikirkan bahawa siaran ini sudah berusia beberapa bulan. Bagaimanapun, idea itu sama. Pergi ke Launchpad dan cari PPA yang mengandungi versi pdfocr untuk Maverick.
Ceria! Paul.
Baiklah, akan mengujinya untuk melihat bagaimana ia berfungsi
Teruskan! Beritahu kami jika anda berjaya !! Sekiranya tidak berjaya, kami juga boleh mencuba membantu anda! Ceria! Paul.
Hello,
Saya telah menguji program ini pada pdf dan hasilnya tidak begitu baik. Saya biasa dengan pemain akrobat 8 dan mencari sesuatu yang serupa. Acrobat menyampaikan utiliti ke fail untuk membersihkan dan meluruskan pdf yang diimbas dan dengan itu memperoleh sumber yang lebih baik untuk ocr. Anda tahu jika ada penyelesaian untuk ini.
Sesuatu ucapan
Helo! Saya pernah mendengar bahawa Tesseract adalah OCR sumber terbuka terbaik. Saya tidak tahu adakah ia akan baik. Selain itu, anda mesti sedikit kotor untuk menjadikannya berfungsi. Berikut adalah beberapa arahan. Sekiranya anda berjaya, beritahu saya kerana, jika berjaya, ia mungkin akan menjadi jawatan.
Pasang dahulu pakej "tesseract 2.03-4" dan "imagemagick" menggunakan Synaptic, "xsane2tess" dari "http://download.tuxfamily.org/guadausers/guadaV4/".
Kemudian buat folder tmp di: / home / nama pengguna anda / tmp
Kemudian buka Xsane untuk mengkonfigurasinya, Preferences–> Configuration–> tab OCR dan isikan yang berikut:
Perintah OCR -> xsane2tess -l spa
Pilihan fail input -> -i
Pilihan fail output -> -o
Pilihan output antara muka fd -> -x
Dalam konfigurasi Xsane di tab "simpan" di bahagian yang mengatakan direktori sementara, pastikan ada folder "tmp" yang anda buat di "/ home / nama pengguna anda"
Saya juga meninggalkan anda halaman dengan perincian mengenai cara melakukan OCR di Ubuntu: https://help.ubuntu.com/community/OCR
Kaedah lain yang saya dapati ada yang berikut:
Dengan andaian pengimbas telah disambungkan dan dikenali oleh sistem
1. Saya membuka Sistem> Pentadbiran> Pengurus Pakej Synaptic (di GNOME)
2. Cari dan rangka untuk memasang tesseract-ocr-spa (untuk mengimbas dalam bahasa Sepanyol) dan gscan2pdf
3. Untuk mengimbas saya buka Aplikasi> Grafik> gscan2pdf
Dan bersedia.
Hai kawan, terima kasih banyak, sebenarnya tesseract adalah alat yang baik, tetapi sangat terhad berbanding buku dengan pengimbasan "bermasalah". Sebaliknya, perisian ini menyesuaikan diri dengan lebih mudah ... 😀
Dalam proses mendigitalkan Imej, fail PDF-A sedang ditukar, fail tersebut mesti OCR. Sejauh mana sensitif terhadap hasil pengimbasan dalam Hitam & Putih atau Skala Kelabu? Apa yang disyorkan?