Cara mengimbas dokumen dan menggunakan OCR di Linux

Sudahkah anda mencuba Simple Scan, program Ubuntu lalai, tetapi kecewa kerana tidak menyokong OCR, dll? Pada masa yang sama, adakah XSANE terlalu rumit untuk tugas mudah yang anda ingin lakukan? Adakah anda terlepas betapa mudahnya mengimbas dokumen dengan Omnipage?

Tidak hairanlah ... mari kita lihat cara mengimbas dan melakukan OCR dalam dokumen yang diimbas dengan cara yang sangat mudah. Anda akan kagum dengan hasilnya.

Cara mengimbas dalam 2 langkah mudah

1.- memasang gscan2pdf & tesseract-ocr (bersama dengan paket bahasa masing-masing). Sekiranya anda akan mengimbas dokumen dalam bahasa Inggeris, pasang tesseract-ocr-eng; Sekiranya mereka menggunakan bahasa Sepanyol, pasang tesseract-ocr-eng dan juga.

sudo apt-get install gscan2pdf tesseract-ocr tesseract-ocr-eng

2.- Selebihnya cukup mudah bagi anda yang pernah mengimbas dan OCR dokumen di Windows. Saya buka gscan2pdf, imbas dokumen, pergi ke Pilihan> OCR dan pilih Tesseract sebagai enjin OCR. Terdapat enjin lain, tetapi sejauh ini Tesseract adalah enjin berkinerja terbaik. Akhirnya, anda boleh menyimpan dokumen akhir sebagai PDF, DJVU, dll. pergi ke Fail> Simpan.

Catatan: semasa menyimpan dokumen yang diimbas, lebih baik menyimpannya dalam format DJVU (kualitinya sama dengan PDF tetapi ada perbezaan ukuran yang sangat penting).

Video berikut adalah dalam bahasa Inggeris tetapi cukup untuk melihatnya untuk memahami bagaimana semuanya berfungsi.