如何OCR PDF和啟用文本選擇和搜索

假設您有一個使用掃描儀創建的PDF,或者他們將其傳遞給您,但其中包含的信息是圖像形式。 我們必須提交心愛的PDF的程序稱為 OCR:一種自動識別圖像中屬於某個字母的符號或字符並將其以數據形式存儲的過程,我們可以通過文本編輯程序或類似程序與之交互。


pdfocr是一個簡單的工具,可以使用嵌入的文本層創建新的PDF,使用戶可以選擇文本並在其中搜索單詞,而無需更改PDF的最終外觀。

pdfocr不適用於:

僅當PDF包含圖像形式的信息時,此方法才有效。 如果您從OpenOffice導出PDF,則它已經具有嵌入式文本層,因此不需要此過程。

如何安裝pdfocr:

sudo add-apt-repository ppa:gezakovacs / pdfocr
命令和apt-get update更新
須藤apt-get install pdfocr

如何使用pdfocr:

打開終端,轉到要轉換的PDF所在的目錄,然後輸入以下內容(將input.pdf替換為要轉換的PDF,並使用帶有嵌入式文本層的新文件的名稱替換output.pdf )

pdfocr -i輸入.pdf -o輸出.pdf

等待PDF的每一頁都經過OCR練習,並創建最終的修改文件。 每頁這需要花費幾秒鐘的時間,具體取決於PDF的分辨率。


發表您的評論

您的電子郵件地址將不會被發表。 必填字段標有 *

*

*

  1. 負責數據:MiguelÁngelGatón
  2. 數據用途:控制垃圾郵件,註釋管理。
  3. 合法性:您的同意
  4. 數據通訊:除非有法律義務,否則不會將數據傳達給第三方。
  5. 數據存儲:Occentus Networks(EU)託管的數據庫
  6. 權利:您可以隨時限制,恢復和刪除您的信息。

  1.   魯道夫·拉拉 他說:

    rodolfo @ rodolfo-desktop:〜$ sudo apt-get安裝pdfocr
    正在閱讀包裝清單...完成
    創建依賴樹
    正在讀取狀態信息...完成
    E:找不到pdfocr軟件包
    rodolfo @ rodolfo-desktop:〜$

  2.   讓我們使用Linux 他說:

    您確定要添加相應的PPA嗎?
    該PPA可能具有適用於較早Ubuntu版本的pdfocr版本。 認為此帖子已經有幾個月曆史了。 無論如何,想法是一樣的。 轉到啟動板並查找包含Maverick的pdfocr版本的PPA。
    乾杯! 保羅

  3.   傑瓦雷 他說:

    好吧,這將是測試它以了解其工作原理的問題

  4.   讓我們使用Linux 他說:

    前進! 讓我們知道您是否成功! 如果它不起作用,我們也可以嘗試為您提供幫助! 乾杯! 保羅

  5.   a01653 他說:

    HOLA,
    我已經在pdf上測試了該程序,結果不是很好。 我已經習慣了專業的acrobat 8​​,並且正在尋找類似的東西。 Acrobat將實用程序傳遞給文件,以清理和拉直掃描的pdf,從而為ocr獲取更好的源。 您知道是否有解決方案。

    問候

  6.   讓我們使用Linux 他說:

    你好! 我聽說Tesseract是最好的開源OCR。 我不知道這是否會好。 另外,您必須稍微動手才能使其工作。 以下是一些說明。 如果您成功了,請告訴我,因為如果成功,它最終可能會成為職位。

    首先使用Synaptic的“ xsane2.03tess”從“ http://download.tuxfamily.org/guadausers/guadaV4/”安裝軟件包“ tesseract 2-4”和“ imagemagick”。

    然後在以下位置創建tmp文件夾:/ home / yourusername / tmp

    然後打開Xsane對其進行配置,在“首選項”->“配置”->“ OCR”選項卡中填寫以下內容:

    OCR命令-> xsane2tess -l spa
    輸入文件選項-> -i
    輸出文件選項-> -o
    輸出選項-fd接口-> -x

    在Xsane配置的臨時目錄部分的“保存”選項卡中,確保在“ / home / yourusername”中創建了“ tmp”文件夾。

    我還會在頁面上留下有關如何在Ubuntu中進行OCR的詳細信息: https://help.ubuntu.com/community/OCR

  7.   讓我們使用Linux 他說:

    我發現x的另一種方法是:

    假設掃描儀已被系統連接並識別

    1.我打開系統>管理>突觸軟件包管理器(在GNOME中)

    2.搜索和安裝tesseract-ocr-spa(以西班牙語掃描)和gscan2pdf的框架

    3.要掃描,請打開“應用程序”>“圖形”>“ gscan2pdf”

    準備好了

  8.   特魯巴杜爾 他說:

    嗨,朋友,非常感謝,事實是tesseract是一個很好的工具,但是與具有“問題性”掃描功能的書籍相比非常有限。 另一方面,該軟件更容易適應...😀

  9.   胡安·內茲 他說:

    在數字化圖像的過程中,正在轉換PDF-A文件,它們必須是OCRed。 以黑白或灰度掃描對結果有多敏感? 推薦什麼?