如何OCR PDF和启用文本选择和搜索

假设您有一个使用扫描仪创建的PDF,或者他们将其传递给您,但其中包含的信息是图像形式。 我们必须提交心爱的PDF的程序称为 OCR:一种自动识别图像中属于某个字母的符号或字符并将其以数据形式存储的过程,我们可以通过文本编辑程序或类似程序与之交互。


pdfocr是一个简单的工具,可以使用嵌入的文本层创建新的PDF,使用户可以选择文本并在其中搜索单词,而无需更改PDF的最终外观。

pdfocr不适用于:

仅当PDF包含图像形式的信息时,此方法才有效。 如果您从OpenOffice导出PDF,则它已经具有嵌入式文本层,因此不需要此过程。

如何安装pdfocr:

sudo add-apt-repository ppa:gezakovacs / pdfocr
sudo易于得到更新
须藤apt-get install pdfocr

如何使用pdfocr:

打开一个终端,转到要转换的PDF所在的目录,然后输入以下内容(将input.pdf替换为要转换的PDF,并使用带有嵌入文本层的新文件的名称替换output.pdf )

pdfocr -i输入.pdf -o输出.pdf

等待PDF的每一页都经过OCR练习,并创建最终的修改文件。 每页这需要花费几秒钟的时间,具体取决于PDF的分辨率。


发表您的评论

您的电子邮件地址将不会被发表。 必填字段标有 *

*

*

  1. 负责数据:MiguelÁngelGatón
  2. 数据用途:控制垃圾邮件,注释管理。
  3. 合法性:您的同意
  4. 数据通讯:除非有法律义务,否则不会将数据传达给第三方。
  5. 数据存储:Occentus Networks(EU)托管的数据库
  6. 权利:您可以随时限制,恢复和删除您的信息。

  1.   鲁道夫·拉拉

    rodolfo @ rodolfo-desktop:〜$ sudo apt-get安装pdfocr
    正在阅读包装清单...完成
    创建依赖树
    正在读取状态信息...完成
    E:找不到pdfocr软件包
    rodolfo @ rodolfo-desktop:〜$

  2.   让我们使用Linux

    您确定要添加相应的PPA吗?
    该PPA可能具有适用于较早Ubuntu版本的pdfocr版本。 认为这篇文章已经有几个月历史了。 无论如何,想法是一样的。 转到启动板并查找包含Maverick的pdfocr版本的PPA。
    干杯! 保罗

  3.   杰瓦雷

    好吧,这将是测试它以了解其工作原理的问题

  4.   让我们使用Linux

    前进! 让我们知道您是否成功! 如果它不起作用,我们也可以尝试为您提供帮助! 干杯! 保罗

  5.   a01653

    你好,
    我已经在pdf上测试了该程序,结果不是很好。 我已经习惯了专业的acrobat 8​​,并且正在寻找类似的东西。 Acrobat将实用程序传递给文件,以清理和拉直扫描的pdf,从而为ocr获取更好的源。 您是否知道是否有解决方案。

    问候

  6.   让我们使用Linux

    你好! 我听说Tesseract是最好的开源OCR。 我不知道这是否会好。 另外,您必须动动手才能使其正常工作。 以下是一些说明。 如果您成功了,请告诉我,因为如果成功,它最终可能会成为职位。

    首先使用Synaptic的“ xsane2.03tess”从“ http://download.tuxfamily.org/guadausers/guadaV4/”安装软件包“ tesseract 2-4”和“ imagemagick”。

    然后在以下位置创建tmp文件夹:/ home / yourusername / tmp

    然后打开Xsane对其进行配置,在“首选项”->“配置”->“ OCR”选项卡中填写以下内容:

    OCR命令-> xsane2tess -l spa
    输入文件选项-> -i
    输出文件选项-> -o
    输出选项-fd接口-> -x

    在Xsane配置的临时目录部分的“保存”选项卡中,确保在“ / home / yourusername”中创建了“ tmp”文件夹。

    我还会在页面上留下有关如何在Ubuntu中进行OCR的详细信息: https://help.ubuntu.com/community/OCR

  7.   让我们使用Linux

    我发现x的另一种方法是:

    假设扫描仪已被系统连接并识别

    1.我打开系统>管理>突触软件包管理器(在GNOME中)

    2.搜索和安装tesseract-ocr-spa(以西班牙语扫描)和gscan2pdf的框架

    3.要扫描,请打开应用程序>图形> gscan2pdf

    准备好了

  8.   特鲁巴杜尔

    嗨,朋友,非常感谢,事实是tesseract是一个很好的工具,但是与具有“问题”扫描功能的书籍相比,它非常有限。 另一方面,该软件更容易适应...😀

  9.   胡安·内兹

    在数字化图像的过程中,正在转换PDF-A文件,它们必须是OCRed。 以黑白或灰度扫描对结果有多敏感? 推荐什么?