如何在Linux中掃描文檔和應用OCR

您是否嘗試過Ubuntu的默認程序“簡單掃描”,但對它不支持OCR等感到失望? 同時,對於您要完成的簡單任務,XSANE是否過於復雜? 您是否想念使用Omnipage掃描文檔有多麼容易?

好吧,難怪... 讓我們看看如何掃描和執行OCR 以非常非常簡單的方式在掃描的文檔中 您會對結果感到驚訝.

如何通過2個簡單步驟進行掃描

1。 - 安裝 gscan2pdf & Tesseract-ocr (及其相應的語言包)。 也就是說,如果您要掃描英文文檔,請安裝 Tesseract-ocr-eng; 如果使用西班牙語,請安裝 正方體-OCR-溫泉 所以。

須藤 apt-get 安裝 gscan2pdf tesseract-ocr tesseract-ocr-spa

2。 - 對於那些曾經在Windows中掃描並OCRed文檔的人來說,其餘的工作非常簡單。 我打開了 gscan2pdf,掃描文檔,轉到 選項> OCR 然後選擇 正方體 作為OCR引擎。 還有其他引擎,但是Tesseract是迄今為止性能最好的引擎。 最後,您可以將最終文檔另存為PDF,DJVU等。 正在去 文件>保存.

注意:保存掃描的文檔時,最好以DJVU格式保存它們(質量與PDF相同,但是大小上有非常重要的區別)。

以下視頻是英語,但足以觀看它以了解一切工作原理。


13條評論,留下您的評論

發表您的評論

您的電子郵件地址將不會被發表。 必填字段標有 *

*

*

  1. 負責數據:MiguelÁngelGatón
  2. 數據用途:控制垃圾郵件,註釋管理。
  3. 合法性:您的同意
  4. 數據通訊:除非有法律義務,否則不會將數據傳達給第三方。
  5. 數據存儲:Occentus Networks(EU)託管的數據庫
  6. 權利:您可以隨時限制,恢復和刪除您的信息。

  1.   匿名 他說:

    亞歷克斯:許多遊戲玩家在與喜歡的女孩“交友”時遇到問題。
    向困惑的梅麗莎(Melissa)解釋說他不是沃爾多之後,
    但是Ludovick Watson國王,她同意去
    英國。 您的問題還需要足夠簡單
    讓她不加思索地回應。

    這是我的網絡博客- 壞蛋之道評論

  2.   芭奇禮服 他說:

    注意,這些軟件包在Fedora中也可用。 🙂

  3.   教堂 他說:

    我有兩台掃描儀,一台是用於A5000文檔的Canon Scan 4f,另一台是Braun NovoScan,用於掃描底片和幻燈片。 安裝gscan2實用程序並重新啟動後,您看不到任何掃描儀。 發生了什麼? 為什麼看不到掃描儀?

  4.   讓我們使用Linux 他說:

    沒有冒犯的朋友,但是OCRing數學函數毫無意義。

    無論如何,它們對OCR周圍的文本(解釋那些功能或其他內容)都非常方便,並且這些功能仍保留為圖像。
    乾杯! 保羅

  5.   不來自布魯克林 他說:

    嘿,如果您想解決您的問題,我想知道。

  6.   胡安瓦列霍 他說:

    我想我有點晚了,但是我有一個問題。 我是一名工程專業的學生,我正在尋找一種數字化和清除筆記的方法,但是問題是這些筆記中的大多數都充滿了數學符號,圖形和函數。 目前有什麼可以幫助我的嗎?

  7.   讓我們使用Linux 他說:

    大! 約會好! 在Arch Tesseract中,它在官方存儲庫中,但不在gscan2pdf中。 您必須通過yaourt安裝它。

  8.   elcaliman13142 他說:

    非常感謝,它對我有很大幫助,再次使linux更友好

  9.   讓我們使用Linux 他說:

    別客氣! 很高興能夠提供幫助。
    一個擁抱! 保羅

  10.   馬丁 他說:

    很好,我一直在尋找,我會嘗試一下,然後告訴一切如何。

  11.   毛羅·尼古拉斯·伊巴涅斯·吉拉德 他說:

    謝謝,我會努力的!

  12.   列昂納多·埃爾南德斯 他說:

    當我使用Tesseract引擎運行OCR時,即使安裝了tesseract-ocr-spa軟件包,它也只能以英語提供該過程的選項。 我可以做什麼?

  13.   傑米和伊莎貝爾 他說:

    下載gnscaner2pdf,但不會進行掃描,它只會查找設備,而不是查找設備,它會在15分鐘後繼續搜索。 這是怎麼回事?