Misalkan Anda memiliki PDF yang dibuat dengan menggunakan pemindai, atau mereka memberikannya kepada Anda tetapi berisi informasi dalam bentuk gambar. Prosedur di mana kita harus mengirimkan PDF tercinta disebut OCR: proses yang secara otomatis mengidentifikasi simbol atau karakter yang termasuk dalam alfabet tertentu, dari gambar untuk menyimpannya dalam bentuk data yang dapat kita gunakan untuk berinteraksi melalui program pengeditan teks atau serupa. |
pdfocr adalah alat sederhana yang membuat PDF baru dengan lapisan teks tertanam, memungkinkan pengguna memilih teks dan mencari kata-kata di dalamnya, tanpa mengubah tampilan akhir PDF.
Apa pdfocr BUKAN untuk:
Ini hanya berguna jika PDF berisi informasi dalam bentuk gambar; jika Anda mengekspor PDF dari OpenOffice, itu sudah memiliki lapisan teks yang disematkan, jadi prosedur ini tidak diperlukan.
Cara memasang pdfocr:
sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo update apt-get
sudo apt-get install pdfocr
Cara menggunakan pdfocr:
Buka terminal, buka direktori tempat PDF yang ingin Anda ubah berada, dan masukkan yang berikut ini (ganti input.pdf dengan PDF yang ingin Anda ubah dan keluaran.pdf dengan nama file baru dengan lapisan teks tertanam )
pdfocr -i masukan.pdf -o keluaran.pdf
Tunggu setiap halaman PDF Anda menjadi OCR dan file terakhir yang dimodifikasi akan dibuat. Ini akan memakan waktu beberapa detik per halaman, tergantung pada resolusi PDF Anda.
rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Membaca daftar paket ... Selesai
Membuat pohon ketergantungan
Membaca informasi status ... Selesai
E: Paket pdfocr tidak dapat ditemukan
rodolfo @ rodolfo-desktop: ~ $
Apakah Anda memastikan untuk menambahkan PPA yang sesuai?
PPA ini kemungkinan memiliki versi pdfocr untuk versi Ubuntu yang lebih lama. Pikirkan bahwa posting ini sudah berumur beberapa bulan. Bagaimanapun, idenya sama. Buka Launchpad dan cari PPA yang berisi versi pdfocr untuk Maverick.
Bersulang! Paul.
Nah, itu akan menjadi masalah mengujinya untuk melihat cara kerjanya
Lanjutkan! Beri tahu kami jika Anda berhasil !! Jika tidak berhasil, kami juga dapat mencoba membantu Anda! Bersulang! Paul.
Halo,
Saya telah menguji program di pdf dan hasilnya tidak terlalu bagus. Saya sudah terbiasa dengan pemain akrobat profesional 8 dan sedang mencari sesuatu yang serupa. Acrobat meneruskan utilitas ke file untuk membersihkan dan meluruskan pdf yang dipindai dan dengan demikian mendapatkan sumber yang lebih baik untuk ocr tersebut. Anda tahu apakah ada solusi untuk ini.
Sebuah ucapan
Halo! Saya pernah mendengar bahwa Tesseract adalah OCR open source terbaik. Saya tidak tahu apakah itu akan bagus. Juga, Anda harus sedikit mengotori tangan Anda untuk membuatnya bekerja. Berikut beberapa petunjuknya. Jika Anda berhasil, saya mohon Anda memberi tahu saya karena, jika berhasil, itu mungkin akan berakhir menjadi sebuah posting.
Pertama instal paket "tesseract 2.03-4" dan "imagemagick" menggunakan Synaptic, "xsane2tess" dari "http://download.tuxfamily.org/guadausers/guadaV4/".
Kemudian buat folder tmp di: / home / yourusername / tmp
Kemudian buka Xsane untuk mengkonfigurasinya, Preferences–> Configuration–> tab OCR dan isi yang berikut ini:
Perintah OCR -> xsane2tess -l spa
Opsi file input -> -i
Opsi file keluaran -> -o
Opsi keluaran -fd interface -> -x
Pada konfigurasi Xsane di tab "save" di bagian yang menyatakan direktori sementara, pastikan ada folder "tmp" yang Anda buat di "/ home / yourusername"
Saya juga meninggalkan Anda halaman dengan detail tentang cara melakukan OCR di Ubuntu: https://help.ubuntu.com/community/OCR
Metode lain yang saya temukan x adalah sebagai berikut:
Dengan asumsi pemindai telah terhubung dan dikenali oleh sistem
1. Saya membuka System> Administration> Synaptic Package Manager (di GNOME)
2. Cari dan kerangka kerja untuk menginstal tesseract-ocr-spa (untuk memindai dalam bahasa Spanyol) dan gscan2pdf
3. Untuk memindai saya membuka Aplikasi> Grafik> gscan2pdf
Dan siap.
Hai teman, terima kasih banyak, sebenarnya tesseract adalah alat yang bagus, tetapi sangat terbatas dibandingkan dengan buku dengan pemindaian yang "bermasalah". Di sisi lain, perangkat lunak ini beradaptasi dengan lebih mudah ... 😀
Dalam proses mendigitalkan Gambar, file PDF-A sedang dikonversi, file tersebut harus dalam format OCR. Seberapa sensitif hasil pemindaian dalam Black & White atau Grayscale? Apa yang direkomendasikan?