So OCRen Sie eine PDF-Datei und aktivieren Sie die Textauswahl und -suche

Angenommen, Sie haben eine PDF-Datei, die mit einem Scanner erstellt wurde, oder sie wurde an Sie übergeben, enthält jedoch die Informationen in Form eines Bildes. Das Verfahren, an das wir unser geliebtes PDF senden müssen, wird aufgerufen OCR: Ein Prozess, der automatisch Symbole oder Zeichen identifiziert, die zu einem bestimmten Alphabet gehören, aus einem Bild, um es in Form von Daten zu speichern, mit denen wir über ein Textbearbeitungsprogramm oder ähnliches interagieren können.


pdfocr ist ein einfaches Tool, das eine neue PDF-Datei mit einer eingebetteten Textebene erstellt, mit der der Benutzer Text auswählen und nach Wörtern suchen kann, ohne das endgültige Erscheinungsbild der PDF-Datei zu ändern.

Wofür ist pdfocr NICHT:

Dies funktioniert nur, wenn das PDF die Informationen in Bildform enthält. Wenn Sie die PDF-Datei aus OpenOffice exportiert haben, ist bereits eine Textebene eingebettet, sodass dieser Vorgang nicht erforderlich ist.

So installieren Sie pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get install pdfocr

So verwenden Sie pdfocr:

Öffnen Sie ein Terminal, wechseln Sie in das Verzeichnis, in dem sich die zu konvertierende PDF-Datei befindet, und geben Sie Folgendes ein (ersetzen Sie input.pdf durch die zu konvertierende PDF-Datei und output.pdf durch den Namen der neuen Datei mit der eingebetteten Textebene )

pdfocr -i Eingabe.pdf -o Ausgabe.pdf

Warten Sie, bis jede Seite Ihrer PDF-Datei OCR-geübt und die endgültige geänderte Datei erstellt wurde. Dies sollte pro Seite einige Sekunden dauern, abhängig von der Auflösung Ihres PDF.


Hinterlasse einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert mit *

*

*

  1. Verantwortlich für die Daten: Miguel Ángel Gatón
  2. Zweck der Daten: Kontrolle von SPAM, Kommentarverwaltung.
  3. Legitimation: Ihre Zustimmung
  4. Übermittlung der Daten: Die Daten werden nur durch gesetzliche Verpflichtung an Dritte weitergegeben.
  5. Datenspeicherung: Von Occentus Networks (EU) gehostete Datenbank
  6. Rechte: Sie können Ihre Informationen jederzeit einschränken, wiederherstellen und löschen.

  1.   Rudolf Lara sagte

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    Paketliste lesen ... Fertig
    Abhängigkeitsbaum erstellen
    Statusinformationen lesen ... Fertig
    E: Das pdfocr-Paket konnte nicht gefunden werden
    rodolfo @ rodolfo-desktop: ~ $

  2.   Verwenden wir Linux sagte

    Haben Sie sichergestellt, dass Sie das entsprechende PPA hinzufügen?
    Diese PPA enthält wahrscheinlich Versionen von pdfocr für ältere Ubuntu-Versionen. Denken Sie, dass dieser Beitrag bereits mehrere Monate alt ist. Auf jeden Fall ist die Idee dieselbe. Gehen Sie zu Launchpad und suchen Sie nach einem PPA, das Versionen von pdfocr für Maverick enthält.
    Prost! Paul.

  3.   Jvar sagte

    Nun, es wird eine Frage des Testens sein, um zu sehen, wie es funktioniert

  4.   Verwenden wir Linux sagte

    Gehen Sie geradeaus! Lassen Sie uns wissen, ob Sie erfolgreich waren! Wenn es nicht funktioniert, können wir auch versuchen, Ihnen zu helfen! Prost! Paul.

  5.   a01653 sagte

    Hallo,
    Ich habe das Programm auf einem PDF getestet und das Ergebnis ist nicht sehr gut. Ich bin an den professionellen Akrobaten 8 gewöhnt und habe nach etwas Ähnlichem gesucht. Acrobat übergibt Dienstprogramme an die Dateien, um die gescannten PDFs zu bereinigen und zu begradigen und so eine bessere Quelle für den OCR zu erhalten. Sie wissen, ob es dafür eine Lösung gibt.

    un saludo

  6.   Verwenden wir Linux sagte

    Hallo! Ich habe gehört, dass Tesseract die beste OpenSource-OCR ist. Ich weiß nicht, ob es gut sein wird. Außerdem müssen Sie sich die Hände etwas schmutzig machen, damit es funktioniert. Hier sind einige Anweisungen. Wenn Sie erfolgreich sind, lassen Sie es mich bitte wissen, da es, wenn es funktioniert, wahrscheinlich zu einem Beitrag wird.

    Installieren Sie zuerst die Pakete "tesseract 2.03-4" und "imagemagick" mit Synaptic "xsane2tess" von "http://download.tuxfamily.org/guadausers/guadaV4/".

    Erstellen Sie dann den Ordner tmp unter: / home / yourusername / tmp

    Öffnen Sie dann Xsane, um es zu konfigurieren. Klicken Sie auf die Registerkarte Einstellungen -> Konfiguration -> OCR und geben Sie Folgendes ein:

    OCR-Befehl -> xsane2tess -l spa
    Eingabedateioption -> -i
    Ausgabedateioption -> -o
    Ausgabeoption -fd Schnittstelle -> -x

    Stellen Sie in Xsane-Konfigurationen auf der Registerkarte "Speichern" in dem Teil, in dem das temporäre Verzeichnis steht, sicher, dass sich der Ordner "tmp" befindet, den Sie unter "/ home / yourusername" erstellt haben.

    Ich hinterlasse Ihnen auch eine Seite mit Details zur OCR in Ubuntu: https://help.ubuntu.com/community/OCR

  7.   Verwenden wir Linux sagte

    Eine andere Methode, die ich dort entdeckt habe, ist die folgende:

    Angenommen, der Scanner wurde bereits angeschlossen und vom System erkannt

    1. Ich öffne System> Administration> Synaptic Package Manager (in GNOME).

    2. Suche und Framework zur Installation von tesseract-ocr-spa (zum Scannen auf Spanisch) und gscan2pdf

    3. Zum Scannen öffne ich Anwendungen> Grafik> gscan2pdf

    Und fertig.

  8.   Troubadour sagte

    Hey Freund, vielen Dank, die Wahrheit ist, dass Tesseract ein gutes Werkzeug ist, aber im Vergleich zu Büchern mit "problematischem" Scannen sehr begrenzt. Andererseits passt sich diese Software leichter an ... 😀

  9.   Juan Anez sagte

    Beim Digitalisieren von Bildern werden PDF-A-Dateien konvertiert und müssen OCR-zertifiziert werden. Wie empfindlich reagiert das Scannen in Schwarzweiß oder Graustufen auf das Ergebnis? Was wird empfohlen?