PDF を OCR し、テキストの選択と検索を有効にする方法

PDFをOCRし、テキストの選択と検索を有効にする方法

スキャナーを使用して作成されたPDF、または渡されたPDFがあるが、画像の形式で情報が含まれているとします。。最愛のPDFを提出しなければならない手続きは OCR：特定のアルファベットに属する記号または文字を画像から自動的に識別し、テキスト編集プログラムなどを使用して対話できるデータの形式で保存するプロセス。

pdfocrは、テキストレイヤーが埋め込まれた新しいPDFを作成するシンプルなツールであり、ユーザーはPDFの最終的な外観を変更することなく、テキストを選択してその中の単語を検索できます。

pdfocrの対象外：

これは、PDFに画像形式の情報が含まれている場合にのみ役立ちます。 OpenOfficeからPDFをエクスポートした場合、PDFにはすでにテキストレイヤーが埋め込まれているため、この手順は不要です。

pdfocrのインストール方法：

sudo add-apt-repository ppa：gezakovacs / pdfocr
sudoのapt-get updateを実行し
sudo apt-get インストール pdfocr

pdfocrの使用方法：

ターミナルを開き、変換するPDFが配置されているディレクトリに移動し、次のように入力します（input.pdfを変換するPDFに置き換え、output.pdfを新しいファイルの名前に置き換えてテキストレイヤーを埋め込みます）

pdfocr -i 入力.pdf -o 出力.pdf

PDFの各ページがOCRを実行し、最終的に変更されたファイルが作成されるのを待ちます。 PDFの解像度にもよりますが、これにはXNUMXページあたり数秒かかるはずです。

コメントを残す返信をキャンセル

ロドルフォ・ララ同
HACE 11年

rodolfo @ rodolfo-デスクトップ：〜$ sudo apt-get install pdfocr
パッケージリストを読んでいます...完了
依存関係ツリーの作成
ステータス情報の読み取り...完了
E：pdfocrパッケージが見つかりませんでした
rodolfo @ rodolfo-デスクトップ：〜$

RodolfoLaraに返信する
Linuxを使いましょう同
HACE 11年

対応するPPAを必ず追加しましたか？
このPPAには、古いUbuntuバージョン用のpdfocrのバージョンが含まれている可能性があります。この投稿はすでに数か月前のものだと思います。とにかく、考え方は同じです。 Launchpadに移動し、Maverickのpdfocrのバージョンを含むPPAを探します。
乾杯！ポール。

Linuxを使用しように応答する
ジュヴァレ同
HACE 11年

まあ、それがどのように機能するかを確認するためにそれをテストすることの問題になります

Jvareに返信する
Linuxを使いましょう同
HACE 11年

どうぞ！あなたが成功したかどうか私たちに知らせてください！それがうまくいかない場合は、私たちもあなたを助けることを試みることができます！乾杯！ポール。

Linuxを使用しように応答する
a01653 同
HACE 11年

こんにちは、
私はPDFでプログラムをテストしましたが、結果はあまり良くありません。私はプロのアクロバット8に慣れていて、似たようなものを探していました。 Acrobatはユーティリティをファイルに渡して、スキャンされたpdfをクリーンアップおよび修正し、ocrのより適切なソースを取得します。これに対する解決策があるかどうか知っていますか。

拝啓

a01653に返信
Linuxを使いましょう同
HACE 11年

こんにちは！ Tesseractが最高のオープンソースOCRだと聞いたことがあります。それが良いかどうかはわかりません。また、それを機能させるには、手を少し汚す必要があります。ここにいくつかの指示があります。成功した場合は、私に知らせてください。うまくいけば、おそらく投稿になるでしょう。

まず、「http://download.tuxfamily.org/guadausers/guadaV2.03/」からSynaptic「xsane4tess」を使用してパッケージ「tesseract2-4」と「imagemagick」をインストールします。

次に、次の場所にtmpフォルダーを作成します：/ home / yourusername / tmp

次に、Xsaneを開いて構成し、[設定] –> [構成] –> [OCR]タブを開き、次のように入力します。

OCRコマンド-> xsane2tess -l spa
入力ファイルオプション->-i
出力ファイルオプション->-o
出力オプション-fdinterface-> -x

一時ディレクトリと表示されている部分の[保存]タブのXsane構成で、「/ home / yourusername」に作成した「tmp」フォルダーがあることを確認します。

また、UbuntuでOCRを実行する方法の詳細が記載されたページを残します。 https://help.ubuntu.com/community/OCR

Linuxを使用しように応答する
Linuxを使いましょう同
HACE 11年

私がxを発見した別の方法は次のとおりです。

スキャナーがすでに接続され、システムによって認識されていると仮定します

1. [システム]> [管理]> [Synaptic Package Manager]（GNOME内）を開きます

2. tesseract-ocr-spa（スペイン語でスキャンするため）とgscan2pdfをインストールするための検索とフレームワーク

3.スキャンするには、[アプリケーション]> [グラフィックス]> [gscan2pdf]を開きます。

そして準備ができました。

Linuxを使用しように応答する
吟遊詩人同
HACE 10年

こんにちは、ありがとうございます。真実は、正八胞体は優れたツールですが、「問題のある」スキャンを備えた本と比較すると非常に限られています。一方、このソフトウェアはより簡単に適応します...😀

Trovadordebarroに返信する
フアン・アネス同
HACE 10年

画像をデジタル化する過程で、PDF-Aファイルが変換されています。これらはOCRedである必要があります。白黒またはグレースケールでのスキャンは、結果にどの程度敏感ですか？何がお勧めですか？

フアン・アネスに返信

コメントを残す 返信をキャンセル

コメントを残す返信をキャンセル