Cara OCR PDF dan mengaktifkan pemilihan dan pencarian teks

Misalkan Anda memiliki PDF yang dibuat dengan menggunakan pemindai, atau mereka memberikannya kepada Anda tetapi berisi informasi dalam bentuk gambar. Prosedur di mana kita harus mengirimkan PDF tercinta disebut OCR: proses yang secara otomatis mengidentifikasi simbol atau karakter yang termasuk dalam alfabet tertentu, dari gambar untuk menyimpannya dalam bentuk data yang dapat kita gunakan untuk berinteraksi melalui program pengeditan teks atau serupa.


pdfocr adalah alat sederhana yang membuat PDF baru dengan lapisan teks tertanam, memungkinkan pengguna memilih teks dan mencari kata-kata di dalamnya, tanpa mengubah tampilan akhir PDF.

Apa pdfocr BUKAN untuk:

Ini hanya berguna jika PDF berisi informasi dalam bentuk gambar; jika Anda mengekspor PDF dari OpenOffice, itu sudah memiliki lapisan teks yang disematkan, jadi prosedur ini tidak diperlukan.

Cara memasang pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo update apt-get
sudo apt-get install pdfocr

Cara menggunakan pdfocr:

Buka terminal, buka direktori tempat PDF yang ingin Anda ubah berada, dan masukkan yang berikut ini (ganti input.pdf dengan PDF yang ingin Anda ubah dan keluaran.pdf dengan nama file baru dengan lapisan teks tertanam )

pdfocr -i masukan.pdf -o keluaran.pdf

Tunggu setiap halaman PDF Anda menjadi OCR dan file terakhir yang dimodifikasi akan dibuat. Ini akan memakan waktu beberapa detik per halaman, tergantung pada resolusi PDF Anda.


tinggalkan Komentar Anda

Alamat email Anda tidak akan dipublikasikan. Bidang yang harus diisi ditandai dengan *

*

*

  1. Penanggung jawab data: Miguel Ángel Gatón
  2. Tujuan data: Mengontrol SPAM, manajemen komentar.
  3. Legitimasi: Persetujuan Anda
  4. Komunikasi data: Data tidak akan dikomunikasikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Basis data dihosting oleh Occentus Networks (UE)
  6. Hak: Anda dapat membatasi, memulihkan, dan menghapus informasi Anda kapan saja.

  1.   Rudolph Lara dijo

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    Membaca daftar paket ... Selesai
    Membuat pohon ketergantungan
    Membaca informasi status ... Selesai
    E: Paket pdfocr tidak dapat ditemukan
    rodolfo @ rodolfo-desktop: ~ $

  2.   Mari gunakan Linux dijo

    Apakah Anda memastikan untuk menambahkan PPA yang sesuai?
    PPA ini kemungkinan memiliki versi pdfocr untuk versi Ubuntu yang lebih lama. Pikirkan bahwa posting ini sudah berumur beberapa bulan. Bagaimanapun, idenya sama. Buka Launchpad dan cari PPA yang berisi versi pdfocr untuk Maverick.
    Bersulang! Paul.

  3.   jvare dijo

    Nah, itu akan menjadi masalah mengujinya untuk melihat cara kerjanya

  4.   Mari gunakan Linux dijo

    Lanjutkan! Beri tahu kami jika Anda berhasil !! Jika tidak berhasil, kami juga dapat mencoba membantu Anda! Bersulang! Paul.

  5.   a01653 dijo

    Halo,
    Saya telah menguji program di pdf dan hasilnya tidak terlalu bagus. Saya sudah terbiasa dengan pemain akrobat profesional 8 dan sedang mencari sesuatu yang serupa. Acrobat meneruskan utilitas ke file untuk membersihkan dan meluruskan pdf yang dipindai dan dengan demikian mendapatkan sumber yang lebih baik untuk ocr tersebut. Anda tahu apakah ada solusi untuk ini.

    Sebuah ucapan

  6.   Mari gunakan Linux dijo

    Halo! Saya pernah mendengar bahwa Tesseract adalah OCR open source terbaik. Saya tidak tahu apakah itu akan bagus. Juga, Anda harus sedikit mengotori tangan Anda untuk membuatnya bekerja. Berikut beberapa petunjuknya. Jika Anda berhasil, saya mohon Anda memberi tahu saya karena, jika berhasil, itu mungkin akan berakhir menjadi sebuah posting.

    Pertama instal paket "tesseract 2.03-4" dan "imagemagick" menggunakan Synaptic, "xsane2tess" dari "http://download.tuxfamily.org/guadausers/guadaV4/".

    Kemudian buat folder tmp di: / home / yourusername / tmp

    Kemudian buka Xsane untuk mengkonfigurasinya, Preferences–> Configuration–> tab OCR dan isi yang berikut ini:

    Perintah OCR -> xsane2tess -l spa
    Opsi file input -> -i
    Opsi file keluaran -> -o
    Opsi keluaran -fd interface -> -x

    Pada konfigurasi Xsane di tab "save" di bagian yang menyatakan direktori sementara, pastikan ada folder "tmp" yang Anda buat di "/ home / yourusername"

    Saya juga meninggalkan Anda halaman dengan detail tentang cara melakukan OCR di Ubuntu: https://help.ubuntu.com/community/OCR

  7.   Mari gunakan Linux dijo

    Metode lain yang saya temukan x adalah sebagai berikut:

    Dengan asumsi pemindai telah terhubung dan dikenali oleh sistem

    1. Saya membuka System> Administration> Synaptic Package Manager (di GNOME)

    2. Cari dan kerangka kerja untuk menginstal tesseract-ocr-spa (untuk memindai dalam bahasa Spanyol) dan gscan2pdf

    3. Untuk memindai saya membuka Aplikasi> Grafik> gscan2pdf

    Dan siap.

  8.   Penyanyi dijo

    Hai teman, terima kasih banyak, sebenarnya tesseract adalah alat yang bagus, tetapi sangat terbatas dibandingkan dengan buku dengan pemindaian yang "bermasalah". Di sisi lain, perangkat lunak ini beradaptasi dengan lebih mudah ... 😀

  9.   Juan Anez dijo

    Dalam proses mendigitalkan Gambar, file PDF-A sedang dikonversi, file tersebut harus dalam format OCR. Seberapa sensitif hasil pemindaian dalam Black & White atau Grayscale? Apa yang direkomendasikan?