|
Andaikan anda mempunyai PDF yang dibuat menggunakan pengimbas, atau mereka memberikannya kepada anda tetapi mengandungi maklumat dalam bentuk gambar. Prosedur yang mesti kami kirimkan adalah PDF yang dicintai OCR: proses yang secara automatik mengenal pasti simbol atau watak yang termasuk dalam abjad tertentu, dari gambar untuk menyimpannya dalam bentuk data yang dengannya kita dapat berinteraksi menggunakan program penyuntingan teks atau yang serupa. |
pdfocr adalah alat mudah yang membuat PDF baru dengan lapisan teks tertanam, yang membolehkan pengguna memilih teks dan mencari kata-kata di dalamnya, tanpa mengubah penampilan akhir PDF.
Apa yang pdfocr TIDAK untuk:
Ini hanya berguna jika PDF mengandungi maklumat dalam bentuk gambar; jika anda mengeksport PDF dari OpenOffice, ia sudah mempunyai lapisan teks tertanam, jadi prosedur ini tidak diperlukan.
Cara memasang pdfocr:
sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get install pdfocr
Cara menggunakan pdfocr:
Buka terminal, pergi ke direktori di mana PDF yang ingin anda ubah berada, dan masukkan yang berikut (menggantikan input.pdf dengan PDF yang ingin anda ubah dan keluarkan.pdf dengan nama fail baru dengan lapisan teks terbenam )
pdfocr -i input.pdf -o output.pdf
Tunggu setiap halaman PDF anda dipraktikkan OCR dan fail terakhir yang diubah akan dibuat. Proses ini memerlukan beberapa saat setiap halaman, bergantung pada resolusi PDF anda.