Cara OCR PDF dan Mengaktifkan Pemilihan dan Pencarian Teks

Cara OCR PDF dan mengaktifkan pemilihan dan pencarian teks

Misalkan Anda memiliki PDF yang dibuat dengan menggunakan pemindai, atau mereka memberikannya kepada Anda tetapi berisi informasi dalam bentuk gambar. Prosedur di mana kita harus mengirimkan PDF tercinta disebut OCR: proses yang secara otomatis mengidentifikasi simbol atau karakter yang termasuk dalam alfabet tertentu, dari gambar untuk menyimpannya dalam bentuk data yang dapat kita gunakan untuk berinteraksi melalui program pengeditan teks atau serupa.

pdfocr adalah alat sederhana yang membuat PDF baru dengan lapisan teks tertanam, memungkinkan pengguna memilih teks dan mencari kata-kata di dalamnya, tanpa mengubah tampilan akhir PDF.

Apa pdfocr BUKAN untuk:

Ini hanya berguna jika PDF berisi informasi dalam bentuk gambar; jika Anda mengekspor PDF dari OpenOffice, itu sudah memiliki lapisan teks yang disematkan, jadi prosedur ini tidak diperlukan.

Cara memasang pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo update apt-get
sudo apt-get install pdfocr

Cara menggunakan pdfocr:

Buka terminal, buka direktori tempat PDF yang ingin Anda ubah berada, dan masukkan yang berikut ini (ganti input.pdf dengan PDF yang ingin Anda ubah dan keluaran.pdf dengan nama file baru dengan lapisan teks tertanam )

pdfocr -i masukan.pdf -o keluaran.pdf

Tunggu setiap halaman PDF Anda menjadi OCR dan file terakhir yang dimodifikasi akan dibuat. Ini akan memakan waktu beberapa detik per halaman, tergantung pada resolusi PDF Anda.

tinggalkan Komentar Anda Batalkan balasan

Rudolph Lara dijo
dahulu 11 tahun

rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Membaca daftar paket ... Selesai
Membuat pohon ketergantungan
Membaca informasi status ... Selesai
E: Paket pdfocr tidak dapat ditemukan
rodolfo @ rodolfo-desktop: ~ $

Balas ke Rodolfo Lara
Mari gunakan Linux dijo
dahulu 11 tahun

Apakah Anda memastikan untuk menambahkan PPA yang sesuai?
PPA ini kemungkinan memiliki versi pdfocr untuk versi Ubuntu yang lebih lama. Pikirkan bahwa posting ini sudah berumur beberapa bulan. Bagaimanapun, idenya sama. Buka Launchpad dan cari PPA yang berisi versi pdfocr untuk Maverick.
Bersulang! Paul.

Tanggapi Let's Use Linux
jvare dijo
dahulu 11 tahun

Nah, itu akan menjadi masalah mengujinya untuk melihat cara kerjanya

Balas ke Jvare
Mari gunakan Linux dijo
dahulu 11 tahun

Lanjutkan! Beri tahu kami jika Anda berhasil !! Jika tidak berhasil, kami juga dapat mencoba membantu Anda! Bersulang! Paul.

Tanggapi Let's Use Linux
a01653 dijo
dahulu 11 tahun

Halo,
Saya telah menguji program di pdf dan hasilnya tidak terlalu bagus. Saya sudah terbiasa dengan pemain akrobat profesional 8 dan sedang mencari sesuatu yang serupa. Acrobat meneruskan utilitas ke file untuk membersihkan dan meluruskan pdf yang dipindai dan dengan demikian mendapatkan sumber yang lebih baik untuk ocr tersebut. Anda tahu apakah ada solusi untuk ini.

Sebuah ucapan

Balas ke a01653
Mari gunakan Linux dijo
dahulu 11 tahun

Halo! Saya pernah mendengar bahwa Tesseract adalah OCR open source terbaik. Saya tidak tahu apakah itu akan bagus. Juga, Anda harus sedikit mengotori tangan Anda untuk membuatnya bekerja. Berikut beberapa petunjuknya. Jika Anda berhasil, saya mohon Anda memberi tahu saya karena, jika berhasil, itu mungkin akan berakhir menjadi sebuah posting.

Pertama instal paket "tesseract 2.03-4" dan "imagemagick" menggunakan Synaptic, "xsane2tess" dari "http://download.tuxfamily.org/guadausers/guadaV4/".

Kemudian buat folder tmp di: / home / yourusername / tmp

Kemudian buka Xsane untuk mengkonfigurasinya, Preferences–> Configuration–> tab OCR dan isi yang berikut ini:

Perintah OCR -> xsane2tess -l spa
Opsi file input -> -i
Opsi file keluaran -> -o
Opsi keluaran -fd interface -> -x

Pada konfigurasi Xsane di tab "save" di bagian yang menyatakan direktori sementara, pastikan ada folder "tmp" yang Anda buat di "/ home / yourusername"

Saya juga meninggalkan Anda halaman dengan detail tentang cara melakukan OCR di Ubuntu: https://help.ubuntu.com/community/OCR

Tanggapi Let's Use Linux
Mari gunakan Linux dijo
dahulu 11 tahun

Metode lain yang saya temukan x adalah sebagai berikut:

Dengan asumsi pemindai telah terhubung dan dikenali oleh sistem

1. Saya membuka System> Administration> Synaptic Package Manager (di GNOME)

2. Cari dan kerangka kerja untuk menginstal tesseract-ocr-spa (untuk memindai dalam bahasa Spanyol) dan gscan2pdf

3. Untuk memindai saya membuka Aplikasi> Grafik> gscan2pdf

Dan siap.

Tanggapi Let's Use Linux
Penyanyi dijo
dahulu 10 tahun

Hai teman, terima kasih banyak, sebenarnya tesseract adalah alat yang bagus, tetapi sangat terbatas dibandingkan dengan buku dengan pemindaian yang "bermasalah". Di sisi lain, perangkat lunak ini beradaptasi dengan lebih mudah ... 😀

Balas Trovadordebarro
Juan Anez dijo
dahulu 10 tahun

Dalam proses mendigitalkan Gambar, file PDF-A sedang dikonversi, file tersebut harus dalam format OCR. Seberapa sensitif hasil pemindaian dalam Black & White atau Grayscale? Apa yang direkomendasikan?

Balas juan anez