如何 OCR PDF 並啟用文字選擇和搜尋

如何OCR PDF和啟用文本選擇和搜索

假設您有一個使用掃描儀創建的PDF，或者他們將其傳遞給您，但其中包含的信息是圖像形式。我們必須提交心愛的PDF的程序稱為 OCR：一種自動識別圖像中屬於某個字母的符號或字符並將其以數據形式存儲的過程，我們可以通過文本編輯程序或類似程序與之交互。

pdfocr是一個簡單的工具，可以使用嵌入的文本層創建新的PDF，使用戶可以選擇文本並在其中搜索單詞，而無需更改PDF的最終外觀。

pdfocr不適用於：

僅當PDF包含圖像形式的信息時，此方法才有效。如果您從OpenOffice導出PDF，則它已經具有嵌入式文本層，因此不需要此過程。

如何安裝pdfocr：

sudo add-apt-repository ppa：gezakovacs / pdfocr
命令和apt-get update更新
須藤apt-get install pdfocr

如何使用pdfocr：

打開終端，轉到要轉換的PDF所在的目錄，然後輸入以下內容（將input.pdf替換為要轉換的PDF，並使用帶有嵌入式文本層的新文件的名稱替換output.pdf ）

pdfocr -i輸入.pdf -o輸出.pdf

等待PDF的每一頁都經過OCR練習，並創建最終的修改文件。每頁這需要花費幾秒鐘的時間，具體取決於PDF的分辨率。

發表您的評論取消回复

魯道夫·拉拉他說：
前 11年

rodolfo @ rodolfo-desktop：〜$ sudo apt-get安裝pdfocr
正在閱讀包裝清單...完成
創建依賴樹
正在讀取狀態信息...完成
E：找不到pdfocr軟件包
rodolfo @ rodolfo-desktop：〜$

回复Rodolfo Lara
讓我們使用Linux 他說：
前 11年

您確定要添加相應的PPA嗎？
該PPA可能具有適用於較早Ubuntu版本的pdfocr版本。認為此帖子已經有幾個月曆史了。無論如何，想法是一樣的。轉到啟動板並查找包含Maverick的pdfocr版本的PPA。
乾杯! 保羅

回應讓我們使用Linux
傑瓦雷他說：
前 11年

好吧，這將是測試它以了解其工作原理的問題

回复Jvare
讓我們使用Linux 他說：
前 11年

前進！讓我們知道您是否成功！如果它不起作用，我們也可以嘗試為您提供幫助！乾杯! 保羅

回應讓我們使用Linux
a01653 他說：
前 11年

HOLA，
我已經在pdf上測試了該程序，結果不是很好。我已經習慣了專業的acrobat 8，並且正在尋找類似的東西。 Acrobat將實用程序傳遞給文件，以清理和拉直掃描的pdf，從而為ocr獲取更好的源。您知道是否有解決方案。

問候

回复a01653
讓我們使用Linux 他說：
前 11年

你好！我聽說Tesseract是最好的開源OCR。我不知道這是否會好。另外，您必須稍微動手才能使其工作。以下是一些說明。如果您成功了，請告訴我，因為如果成功，它最終可能會成為職位。

首先使用Synaptic的“ xsane2.03tess”從“ http://download.tuxfamily.org/guadausers/guadaV4/”安裝軟件包“ tesseract 2-4”和“ imagemagick”。

然後在以下位置創建tmp文件夾：/ home / yourusername / tmp

然後打開Xsane對其進行配置，在“首選項”->“配置”->“ OCR”選項卡中填寫以下內容：

OCR命令-> xsane2tess -l spa
輸入文件選項-> -i
輸出文件選項-> -o
輸出選項-fd接口-> -x

在Xsane配置的臨時目錄部分的“保存”選項卡中，確保在“ / home / yourusername”中創建了“ tmp”文件夾。

我還會在頁面上留下有關如何在Ubuntu中進行OCR的詳細信息： https://help.ubuntu.com/community/OCR

回應讓我們使用Linux
讓我們使用Linux 他說：
前 11年

我發現x的另一種方法是：

假設掃描儀已被系統連接並識別

1.我打開系統>管理>突觸軟件包管理器（在GNOME中）

2.搜索和安裝tesseract-ocr-spa（以西班牙語掃描）和gscan2pdf的框架

3.要掃描，請打開“應用程序”>“圖形”>“ gscan2pdf”

準備好了

回應讓我們使用Linux
特魯巴杜爾他說：
前 10年

嗨，朋友，非常感謝，事實是tesseract是一個很好的工具，但是與具有“問題性”掃描功能的書籍相比非常有限。另一方面，該軟件更容易適應...😀

回复Trovadordebarro
胡安·內茲他說：
前 10年

在數字化圖像的過程中，正在轉換PDF-A文件，它們必須是OCRed。以黑白或灰度掃描對結果有多敏感？推薦什麼？

回复胡安·安妮茲

發表您的評論 取消回复

發表您的評論取消回复