Cách OCR một tệp PDF và cho phép lựa chọn và tìm kiếm văn bản

Giả sử bạn có một tệp PDF được tạo bằng máy quét hoặc được chuyển cho bạn nhưng nó chứa thông tin ở dạng hình ảnh.. Quy trình mà chúng ta phải tuân theo bản PDF yêu quý của mình được gọi là OCR: một quá trình tự động xác định các ký hiệu hoặc ký tự thuộc một bảng chữ cái nhất định, từ một hình ảnh để lưu trữ nó dưới dạng dữ liệu mà chúng ta có thể tương tác bằng chương trình chỉnh sửa văn bản hoặc tương tự.


pdfocr là một công cụ đơn giản giúp tạo một tệp PDF mới với lớp văn bản được nhúng, cho phép người dùng chọn văn bản và tìm kiếm các từ trong đó mà không thay đổi hình thức cuối cùng của tệp PDF.

PDFocr KHÔNG dành cho:

Điều này chỉ hoạt động nếu tệp PDF chứa thông tin ở dạng hình ảnh; Nếu bạn xuất tệp PDF từ OpenOffice thì tệp PDF đó đã được nhúng sẵn một lớp văn bản nên quy trình này không cần thiết.

Cách cài đặt pdfocr:

sudo add-apt-repository ppa:gezakovacs/pdfocr
sudo apt-get update
sudo apt-get cài đặt pdfocr

Cách sử dụng pdfocr:

Mở một thiết bị đầu cuối, đi đến thư mục chứa tệp PDF bạn muốn chuyển đổi và nhập thông tin sau (thay thế input.pdf bằng tệp PDF bạn muốn chuyển đổi và out.pdf bằng tên của tệp mới có lớp văn bản được nhúng )

pdfocr -i input.pdf -o đầu ra.pdf

Đợi OCR được thực hiện trên mỗi trang trong tệp PDF của bạn và tệp sửa đổi cuối cùng sẽ được tạo. Quá trình này sẽ mất vài giây trên mỗi trang, tùy thuộc vào độ phân giải của tệp PDF của bạn.


Để lại bình luận của bạn

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

*

*

  1. Chịu trách nhiệm về dữ liệu: Miguel Ángel Gatón
  2. Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
  3. Hợp pháp: Sự đồng ý của bạn
  4. Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
  5. Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
  6. Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.

  1.   Rodolfo Lara dijo

    rodolfo@rodolfo-desktop:~$ sudo apt-get cài đặt pdfocr
    Đang đọc danh sách gói ... Xong
    Tạo cây phụ thuộc
    Đang đọc thông tin trạng thái ... Xong
    E: Không thể định vị được gói pdfocr
    rodolfo@rodolfo-desktop:~$

  2.   Hãy sử dụng Linux dijo

    Bạn có đảm bảo thêm PPA tương ứng không?
    PPA này có thể có phiên bản pdfocr cho các phiên bản Ubuntu cũ hơn. Hãy nhớ rằng bài đăng này đã được vài tháng rồi. Dù sao thì ý tưởng cũng giống nhau. Đi tới Launchpad và tìm PPA có chứa các phiên bản pdfocr cho Maverick.
    Chúc mừng! Paul.

  3.   jvare dijo

    Chà, vấn đề là bạn nên thử xem nó hoạt động như thế nào.

  4.   Hãy sử dụng Linux dijo

    Hãy tiếp tục! Hãy cho chúng tôi biết nếu bạn thành công!! Nếu nó không hoạt động, chúng tôi cũng có thể cố gắng giúp bạn! Lời chào hỏi! Pablo.

  5.   a01653 dijo

    Xin chào,
    Tôi đã thử nghiệm chương trình trên bản pdf và kết quả không được tốt lắm. Tôi đã quen với trò nhào lộn chuyên nghiệp 8 ​​và đang tìm kiếm thứ gì đó tương tự. Acrobat chuyển các tiện ích tới các tệp để dọn dẹp và làm thẳng các tệp PDF được quét và do đó có được nguồn tốt hơn cho OCR. Bạn có biết liệu có giải pháp nào cho việc này không.

    lời chúc mừng

  6.   Hãy sử dụng Linux dijo

    Xin chào! Tôi nghe nói Tesseract là OCR mã nguồn mở tốt nhất. Tôi không biết liệu nó có tốt không. Ngoài ra, bạn phải làm bẩn tay mình một chút để nó hoạt động. Ở đây tôi để lại cho bạn một số hướng dẫn. Nếu bạn thành công, vui lòng cho tôi biết vì nếu nó hoạt động, nó có thể sẽ trở thành một bài đăng.

    Trước tiên hãy cài đặt các gói "tesseract 2.03-4" và "imagemagick" bằng Synaptic, "xsane2tess" từ "http://download.tuxfamily.org/guadausers/guadaV4/".

    Sau đó tạo thư mục tmp trong: /home/yourusername/tmp

    Sau đó mở Xsane để định cấu hình nó, Tùy chọn -> Cài đặt -> tab OCR và điền vào thông tin sau:

    Lệnh OCR –> xsane2tess -l eng
    Tùy chọn tệp đầu vào -> -i
    Tùy chọn tệp đầu ra -> -o
    Tùy chọn đầu ra fd giao diện -> -x

    Trong cài đặt Xsane trong tab "lưu" ở phần có thư mục tạm thời, hãy đảm bảo rằng thư mục "tmp" mà bạn đã tạo trong "/home/yourusername" ở đó.

    Tôi cũng để lại cho bạn một trang có thông tin chi tiết về cách thực hiện OCR trong Ubuntu: https://help.ubuntu.com/community/OCR

  7.   Hãy sử dụng Linux dijo

    Một phương pháp khác mà tôi phát hiện ra là:

    Giả sử rằng máy quét đã được hệ thống kết nối và nhận dạng

    1. Tôi mở Hệ thống>Quản trị>Trình quản lý gói Synaptic (trong Gnome)

    2. Tôi đang tìm kiếm và framework để cài đặt tesseract-ocr-spa (để quét bằng tiếng Tây Ban Nha) và gscan2pdf

    3. Để quét, tôi mở Ứng dụng>Đồ họa>gscan2pdf

    Và sẵn sàng.

  8.   Người hát rong bùn dijo

    Này bạn, cảm ơn bạn rất nhiều, sự thật là tesseract là một công cụ tốt, nhưng lại rất hạn chế khi nói đến những cuốn sách quét "có vấn đề". Mặt khác, phần mềm này thích ứng dễ dàng hơn… 😀

  9.   Juan Anez dijo

    Trong quá trình số hóa hình ảnh, các tệp PDF-A đang được chuyển đổi, các tệp này phải được OCRed. Mức độ nhạy cảm với kết quả quét ở Thang màu đen và trắng hoặc xám? Điều gì được khuyến khích?