PDFをOCRし、テキストの選択と検索を有効にする方法

スキャナーを使用して作成されたPDF、または渡されたPDFがあるが、画像の形式で情報が含まれているとします。。 最愛のPDFを提出しなければならない手続きは OCR:特定のアルファベットに属する記号または文字を画像から自動的に識別し、テキスト編集プログラムなどを使用して対話できるデータの形式で保存するプロセス。


pdfocrは、テキストレイヤーが埋め込まれた新しいPDFを作成するシンプルなツールであり、ユーザーはPDFの最終的な外観を変更することなく、テキストを選択してその中の単語を検索できます。

pdfocrの対象外:

これは、PDFに画像形式の情報が含まれている場合にのみ役立ちます。 OpenOfficeからPDFをエクスポートした場合、PDFにはすでにテキストレイヤーが埋め込まれているため、この手順は不要です。

pdfocrのインストール方法:

sudo add-apt-repository ppa:gezakovacs / pdfocr
sudoのapt-get updateを実行し
sudo apt-get インストール pdfocr

pdfocrの使用方法:

ターミナルを開き、変換するPDFが配置されているディレクトリに移動し、次のように入力します(input.pdfを変換するPDFに置き換え、output.pdfを新しいファイルの名前に置き換えてテキストレイヤーを埋め込みます)

pdfocr -i 入力.pdf -o 出力.pdf

PDFの各ページがOCRを実行し、最終的に変更されたファイルが作成されるのを待ちます。 PDFの解像度にもよりますが、これにはXNUMXページあたり数秒かかるはずです。


コメントを残す

あなたのメールアドレスが公開されることはありません。 必須フィールドには付いています *

*

*

  1. データの責任者:MiguelÁngelGatón
  2. データの目的:SPAMの制御、コメント管理。
  3. 正当化:あなたの同意
  4. データの伝達:法的義務がある場合を除き、データが第三者に伝達されることはありません。
  5. データストレージ:Occentus Networks(EU)がホストするデータベース
  6. 権利:いつでも情報を制限、回復、削除できます。

  1.   ロドルフォ・ララ

    rodolfo @ rodolfo-デスクトップ:〜$ sudo apt-get install pdfocr
    パッケージリストを読んでいます...完了
    依存関係ツリーの作成
    ステータス情報の読み取り...完了
    E:pdfocrパッケージが見つかりませんでした
    rodolfo @ rodolfo-デスクトップ:〜$

  2.   Linuxを使いましょう

    対応するPPAを必ず追加しましたか?
    このPPAには、古いUbuntuバージョン用のpdfocrのバージョンが含まれている可能性があります。 この投稿はすでに数か月前のものだと思います。 とにかく、考え方は同じです。 Launchpadに移動し、Maverickのpdfocrのバージョンを含むPPAを探します。
    乾杯! ポール。

  3.   ジュヴァレ

    まあ、それがどのように機能するかを確認するためにそれをテストすることの問題になります

  4.   Linuxを使いましょう

    どうぞ! あなたが成功したかどうか私たちに知らせてください! それがうまくいかない場合は、私たちもあなたを助けることを試みることができます! 乾杯! ポール。

  5.   a01653

    こんにちは、
    私はPDFでプログラムをテストしましたが、結果はあまり良くありません。 私はプロのアクロバット8に慣れていて、似たようなものを探していました。 Acrobatはユーティリティをファイルに渡して、スキャンされたpdfをクリーンアップおよび修正し、ocrのより適切なソースを取得します。 これに対する解決策があるかどうか知っていますか。

    拝啓

  6.   Linuxを使いましょう

    こんにちは! Tesseractが最高のオープンソースOCRだと聞いたことがあります。 それが良いかどうかはわかりません。 また、それを機能させるには、手を少し汚す必要があります。 ここにいくつかの指示があります。 成功した場合は、私に知らせてください。うまくいけば、おそらく投稿になるでしょう。

    まず、「http://download.tuxfamily.org/guadausers/guadaV2.03/」からSynaptic「xsane4tess」を使用してパッケージ「tesseract2-4」と「imagemagick」をインストールします。

    次に、次の場所にtmpフォルダーを作成します:/ home / yourusername / tmp

    次に、Xsaneを開いて構成し、[設定] –> [構成] –> [OCR]タブを開き、次のように入力します。

    OCRコマンド-> xsane2tess -l spa
    入力ファイルオプション->-i
    出力ファイルオプション->-o
    出力オプション-fdinterface-> -x

    一時ディレクトリと表示されている部分の[保存]タブのXsane構成で、「/ home / yourusername」に作成した「tmp」フォルダーがあることを確認します。

    また、UbuntuでOCRを実行する方法の詳細が記載されたページを残します。 https://help.ubuntu.com/community/OCR

  7.   Linuxを使いましょう

    私がxを発見した別の方法は次のとおりです。

    スキャナーがすでに接続され、システムによって認識されていると仮定します

    1. [システム]> [管理]> [Synaptic Package Manager](GNOME内)を開きます

    2. tesseract-ocr-spa(スペイン語でスキャンするため)とgscan2pdfをインストールするための検索とフレームワーク

    3.スキャンするには、[アプリケーション]> [グラフィックス]> [gscan2pdf]を開きます。

    そして準備ができました。

  8.   吟遊詩人

    こんにちは、ありがとうございます。真実は、正八胞体は優れたツールですが、「問題のある」スキャンを備えた本と比較すると非常に限られています。 一方、このソフトウェアはより簡単に適応します...😀

  9.   フアン・アネス

    画像をデジタル化する過程で、PDF-Aファイルが変換されています。これらはOCRedである必要があります。 白黒またはグレースケールでのスキャンは、結果にどの程度敏感ですか? 何がお勧めですか?