Giả sử bạn có một tệp PDF được tạo bằng máy quét hoặc được chuyển cho bạn nhưng nó chứa thông tin ở dạng hình ảnh.. Quy trình mà chúng ta phải tuân theo bản PDF yêu quý của mình được gọi là OCR: một quá trình tự động xác định các ký hiệu hoặc ký tự thuộc một bảng chữ cái nhất định, từ một hình ảnh để lưu trữ nó dưới dạng dữ liệu mà chúng ta có thể tương tác bằng chương trình chỉnh sửa văn bản hoặc tương tự. |
pdfocr là một công cụ đơn giản giúp tạo một tệp PDF mới với lớp văn bản được nhúng, cho phép người dùng chọn văn bản và tìm kiếm các từ trong đó mà không thay đổi hình thức cuối cùng của tệp PDF.
PDFocr KHÔNG dành cho:
Điều này chỉ hoạt động nếu tệp PDF chứa thông tin ở dạng hình ảnh; Nếu bạn xuất tệp PDF từ OpenOffice thì tệp PDF đó đã được nhúng sẵn một lớp văn bản nên quy trình này không cần thiết.
Cách cài đặt pdfocr:
sudo add-apt-repository ppa:gezakovacs/pdfocr
sudo apt-get update
sudo apt-get cài đặt pdfocr
Cách sử dụng pdfocr:
Mở một thiết bị đầu cuối, đi đến thư mục chứa tệp PDF bạn muốn chuyển đổi và nhập thông tin sau (thay thế input.pdf bằng tệp PDF bạn muốn chuyển đổi và out.pdf bằng tên của tệp mới có lớp văn bản được nhúng )
pdfocr -i input.pdf -o đầu ra.pdf
Đợi OCR được thực hiện trên mỗi trang trong tệp PDF của bạn và tệp sửa đổi cuối cùng sẽ được tạo. Quá trình này sẽ mất vài giây trên mỗi trang, tùy thuộc vào độ phân giải của tệp PDF của bạn.
rodolfo@rodolfo-desktop:~$ sudo apt-get cài đặt pdfocr
Đang đọc danh sách gói ... Xong
Tạo cây phụ thuộc
Đang đọc thông tin trạng thái ... Xong
E: Không thể định vị được gói pdfocr
rodolfo@rodolfo-desktop:~$
Bạn có đảm bảo thêm PPA tương ứng không?
PPA này có thể có phiên bản pdfocr cho các phiên bản Ubuntu cũ hơn. Hãy nhớ rằng bài đăng này đã được vài tháng rồi. Dù sao thì ý tưởng cũng giống nhau. Đi tới Launchpad và tìm PPA có chứa các phiên bản pdfocr cho Maverick.
Chúc mừng! Paul.
Chà, vấn đề là bạn nên thử xem nó hoạt động như thế nào.
Hãy tiếp tục! Hãy cho chúng tôi biết nếu bạn thành công!! Nếu nó không hoạt động, chúng tôi cũng có thể cố gắng giúp bạn! Lời chào hỏi! Pablo.
Xin chào,
Tôi đã thử nghiệm chương trình trên bản pdf và kết quả không được tốt lắm. Tôi đã quen với trò nhào lộn chuyên nghiệp 8 và đang tìm kiếm thứ gì đó tương tự. Acrobat chuyển các tiện ích tới các tệp để dọn dẹp và làm thẳng các tệp PDF được quét và do đó có được nguồn tốt hơn cho OCR. Bạn có biết liệu có giải pháp nào cho việc này không.
lời chúc mừng
Xin chào! Tôi nghe nói Tesseract là OCR mã nguồn mở tốt nhất. Tôi không biết liệu nó có tốt không. Ngoài ra, bạn phải làm bẩn tay mình một chút để nó hoạt động. Ở đây tôi để lại cho bạn một số hướng dẫn. Nếu bạn thành công, vui lòng cho tôi biết vì nếu nó hoạt động, nó có thể sẽ trở thành một bài đăng.
Trước tiên hãy cài đặt các gói "tesseract 2.03-4" và "imagemagick" bằng Synaptic, "xsane2tess" từ "http://download.tuxfamily.org/guadausers/guadaV4/".
Sau đó tạo thư mục tmp trong: /home/yourusername/tmp
Sau đó mở Xsane để định cấu hình nó, Tùy chọn -> Cài đặt -> tab OCR và điền vào thông tin sau:
Lệnh OCR –> xsane2tess -l eng
Tùy chọn tệp đầu vào -> -i
Tùy chọn tệp đầu ra -> -o
Tùy chọn đầu ra fd giao diện -> -x
Trong cài đặt Xsane trong tab "lưu" ở phần có thư mục tạm thời, hãy đảm bảo rằng thư mục "tmp" mà bạn đã tạo trong "/home/yourusername" ở đó.
Tôi cũng để lại cho bạn một trang có thông tin chi tiết về cách thực hiện OCR trong Ubuntu: https://help.ubuntu.com/community/OCR
Một phương pháp khác mà tôi phát hiện ra là:
Giả sử rằng máy quét đã được hệ thống kết nối và nhận dạng
1. Tôi mở Hệ thống>Quản trị>Trình quản lý gói Synaptic (trong Gnome)
2. Tôi đang tìm kiếm và framework để cài đặt tesseract-ocr-spa (để quét bằng tiếng Tây Ban Nha) và gscan2pdf
3. Để quét, tôi mở Ứng dụng>Đồ họa>gscan2pdf
Và sẵn sàng.
Này bạn, cảm ơn bạn rất nhiều, sự thật là tesseract là một công cụ tốt, nhưng lại rất hạn chế khi nói đến những cuốn sách quét "có vấn đề". Mặt khác, phần mềm này thích ứng dễ dàng hơn… 😀
Trong quá trình số hóa hình ảnh, các tệp PDF-A đang được chuyển đổi, các tệp này phải được OCRed. Mức độ nhạy cảm với kết quả quét ở Thang màu đen và trắng hoặc xám? Điều gì được khuyến khích?