Cách quét tài liệu và áp dụng OCR trong Linux

Bạn đã thử Simple Scan, chương trình Ubuntu mặc định, nhưng thất vọng khi thấy nó không hỗ trợ OCR, v.v.? Đồng thời, XSANE có quá phức tạp đối với nhiệm vụ đơn giản mà bạn đặt ra không? Bạn có bỏ lỡ việc quét tài liệu với Omnipage dễ dàng như thế nào không?

Chà, không có gì lạ ... chúng ta hãy xem cách quét và thực hiện OCR trong các tài liệu được quét một cách rất, rất đơn giản. Bạn sẽ ngạc nhiên với kết quả.

Cách quét trong 2 bước đơn giản

1.- Cài đặt gscan2pdf & tesseract-ocr (cùng với gói ngôn ngữ tương ứng của nó). Đó là, trong trường hợp bạn định quét tài liệu bằng tiếng Anh, hãy cài đặt tesseract-ocr-eng; Nếu chúng bằng tiếng Tây Ban Nha, hãy cài đặt tesseract-ocr-eng và vì thế.

sudo apt-get cài đặt gscan2pdf tesseract-ocr tesseract-ocr-eng

2.- Phần còn lại khá đơn giản đối với những bạn đã từng quét và OCR tài liệu trong Windows. Tôi đã mở gscan2pdf, quét tài liệu, đi tới Tùy chọn> OCR và chọn Tesseract như một động cơ OCR. Có những động cơ khác, nhưng Tesseract cho đến nay là động cơ hoạt động tốt nhất. Cuối cùng, bạn có thể lưu tài liệu cuối cùng dưới dạng PDF, DJVU, v.v. sẽ Tệp> Lưu.

Lưu ý: khi lưu các tài liệu đã quét, tốt hơn nên lưu chúng ở định dạng DJVU (chất lượng giống như PDF nhưng có sự khác biệt rất quan trọng về kích thước).

Video sau bằng tiếng Anh nhưng xem cũng đủ hiểu mọi thứ hoạt động như thế nào.


Để lại bình luận của bạn

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

*

*

  1. Chịu trách nhiệm về dữ liệu: Miguel Ángel Gatón
  2. Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
  3. Hợp pháp: Sự đồng ý của bạn
  4. Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
  5. Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
  6. Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.

  1.   Nặc Danh dijo

    Alex: Nhiều game thủ gặp khó khăn trong việc «khoanh vùng kết bạn» với những cô gái họ thích.
    Sau khi giải thích cho Melissa bối rối rằng anh ta không phải là Waldo,
    nhưng Hon Ludovick Watson, cô ấy đồng ý đi đến
    Nước Anh. Câu hỏi của bạn cũng cần đủ ĐƠN GIẢN
    để cô ấy trả lời mà không cần suy nghĩ nhiều.

    Đây là blog web của tôi - Đánh giá Tao of Badass

  2.   bachitux dijo

    Lưu ý rằng các gói cũng có sẵn trong Fedora. 🙂

  3.   nhà nguyện dijo

    Tôi có hai máy quét, một là Canon Scan 5000f cho tài liệu A4, và một là Braun NovoScan, để quét âm bản và trang trình bày. Sau khi cài đặt tiện ích gscan2 và khởi động lại, bạn không thấy bất kỳ trình quét nào. Chuyện gì đã xảy ra? Tại sao bạn không thấy máy quét?

  4.   Hãy sử dụng Linux dijo

    Không có bạn bè xúc phạm, nhưng không có điểm trong các hàm toán học OCRing.

    Trong mọi trường hợp, họ nên thực hiện OCR đối với văn bản xung quanh (giải thích các chức năng đó hoặc bất cứ điều gì) và các chức năng vẫn ở dạng hình ảnh.
    Chúc mừng! Paul.

  5.   Không Đến Từ Brooklyn dijo

    Này, nếu bạn đã tìm ra giải pháp cho vấn đề của mình, tôi muốn biết.

  6.   Juan Vallejo dijo

    Tôi nghĩ tôi hơi muộn nhưng tôi có một câu hỏi. Tôi là một sinh viên kỹ thuật và tôi đang tìm cách số hóa và làm sạch các ghi chú của mình, nhưng vấn đề là hầu hết các ghi chú đó chứa đầy các ký hiệu toán học, đồ thị và hàm. Hiện tại có điều gì có thể giúp tôi không?

  7.   Hãy sử dụng Linux dijo

    Tuyệt quá! Hẹn hò vui vẻ! Trong Arch Tesseract, nó nằm trong kho lưu trữ chính thức, nhưng không phải gscan2pdf. Bạn phải cài đặt nó thông qua yaourt.

  8.   elcaliman13142 dijo

    Cảm ơn bạn rất nhiều nó đã giúp tôi rất nhiều, họ làm cho linux thân thiện hơn một lần nữa

  9.   Hãy sử dụng Linux dijo

    Không có gì! Rất vui khi có thể giúp đỡ.
    Một cái ôm! Paul.

  10.   một giống én dijo

    Rất tốt, tôi đã tìm kiếm nó, tôi sẽ thử và tôi sẽ cho biết điều này diễn ra như thế nào.

  11.   Mauro Nicolas Ybanez Girard dijo

    Cảm ơn, tôi sẽ cố gắng!

  12.   Leonard Hernandez dijo

    Khi tôi chạy OCR với công cụ Tesseract, nó chỉ cung cấp cho tôi tùy chọn quy trình bằng tiếng Anh mặc dù tôi đã cài đặt gói tesseract-ocr-spa. Những gì tôi có thể làm được?

  13.   jaime và isabel dijo

    tải xuống gnscaner2pdf nhưng nó không quét, nó chỉ tìm kiếm thiết bị và không ngừng tìm kiếm sau 15 phút. Có chuyện gì vậy?