So erstellen Sie eine OCR-Datei in einer PDF-Datei und aktivieren die Textauswahl und -suche

So OCRen Sie eine PDF-Datei und aktivieren Sie die Textauswahl und -suche

Angenommen, Sie haben eine PDF-Datei, die mit einem Scanner erstellt wurde, oder sie wurde an Sie übergeben, enthält jedoch die Informationen in Form eines Bildes. Das Verfahren, an das wir unser geliebtes PDF senden müssen, wird aufgerufen OCR: Ein Prozess, der automatisch Symbole oder Zeichen identifiziert, die zu einem bestimmten Alphabet gehören, aus einem Bild, um es in Form von Daten zu speichern, mit denen wir über ein Textbearbeitungsprogramm oder ähnliches interagieren können.

pdfocr ist ein einfaches Tool, das eine neue PDF-Datei mit einer eingebetteten Textebene erstellt, mit der der Benutzer Text auswählen und nach Wörtern suchen kann, ohne das endgültige Erscheinungsbild der PDF-Datei zu ändern.

Wofür ist pdfocr NICHT:

Dies funktioniert nur, wenn das PDF die Informationen in Bildform enthält. Wenn Sie die PDF-Datei aus OpenOffice exportiert haben, ist bereits eine Textebene eingebettet, sodass dieser Vorgang nicht erforderlich ist.

So installieren Sie pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get install pdfocr

So verwenden Sie pdfocr:

Öffnen Sie ein Terminal, wechseln Sie in das Verzeichnis, in dem sich die zu konvertierende PDF-Datei befindet, und geben Sie Folgendes ein (ersetzen Sie input.pdf durch die zu konvertierende PDF-Datei und output.pdf durch den Namen der neuen Datei mit der eingebetteten Textebene )

pdfocr -i Eingabe.pdf -o Ausgabe.pdf

Warten Sie, bis jede Seite Ihrer PDF-Datei OCR-geübt und die endgültige geänderte Datei erstellt wurde. Dies sollte pro Seite einige Sekunden dauern, abhängig von der Auflösung Ihres PDF.

Hinterlasse einen Kommentar Antwort abbrechen

Rudolf Lara sagte
vor 11-jährige

rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Paketliste lesen ... Fertig
Abhängigkeitsbaum erstellen
Statusinformationen lesen ... Fertig
E: Das pdfocr-Paket konnte nicht gefunden werden
rodolfo @ rodolfo-desktop: ~ $

Antwort an Rodolfo Lara
Verwenden wir Linux sagte
vor 11-jährige

Haben Sie sichergestellt, dass Sie das entsprechende PPA hinzufügen?
Diese PPA enthält wahrscheinlich Versionen von pdfocr für ältere Ubuntu-Versionen. Denken Sie, dass dieser Beitrag bereits mehrere Monate alt ist. Auf jeden Fall ist die Idee dieselbe. Gehen Sie zu Launchpad und suchen Sie nach einem PPA, das Versionen von pdfocr für Maverick enthält.
Prost! Paul.

Antworten Sie auf Let's Use Linux
Jvar sagte
vor 11-jährige

Nun, es wird eine Frage des Testens sein, um zu sehen, wie es funktioniert

Antwort an Jvare
Verwenden wir Linux sagte
vor 11-jährige

Gehen Sie geradeaus! Lassen Sie uns wissen, ob Sie erfolgreich waren! Wenn es nicht funktioniert, können wir auch versuchen, Ihnen zu helfen! Prost! Paul.

Antworten Sie auf Let's Use Linux
a01653 sagte
vor 11-jährige

Hallo,
Ich habe das Programm auf einem PDF getestet und das Ergebnis ist nicht sehr gut. Ich bin an den professionellen Akrobaten 8 gewöhnt und habe nach etwas Ähnlichem gesucht. Acrobat übergibt Dienstprogramme an die Dateien, um die gescannten PDFs zu bereinigen und zu begradigen und so eine bessere Quelle für den OCR zu erhalten. Sie wissen, ob es dafür eine Lösung gibt.

un saludo

Antworte auf a01653
Verwenden wir Linux sagte
vor 11-jährige

Hallo! Ich habe gehört, dass Tesseract die beste OpenSource-OCR ist. Ich weiß nicht, ob es gut sein wird. Außerdem müssen Sie sich die Hände etwas schmutzig machen, damit es funktioniert. Hier sind einige Anweisungen. Wenn Sie erfolgreich sind, lassen Sie es mich bitte wissen, da es, wenn es funktioniert, wahrscheinlich zu einem Beitrag wird.

Installieren Sie zuerst die Pakete "tesseract 2.03-4" und "imagemagick" mit Synaptic "xsane2tess" von "http://download.tuxfamily.org/guadausers/guadaV4/".

Erstellen Sie dann den Ordner tmp unter: / home / yourusername / tmp

Öffnen Sie dann Xsane, um es zu konfigurieren. Klicken Sie auf die Registerkarte Einstellungen -> Konfiguration -> OCR und geben Sie Folgendes ein:

OCR-Befehl -> xsane2tess -l spa
Eingabedateioption -> -i
Ausgabedateioption -> -o
Ausgabeoption -fd Schnittstelle -> -x

Stellen Sie in Xsane-Konfigurationen auf der Registerkarte "Speichern" in dem Teil, in dem das temporäre Verzeichnis steht, sicher, dass sich der Ordner "tmp" befindet, den Sie unter "/ home / yourusername" erstellt haben.

Ich hinterlasse Ihnen auch eine Seite mit Details zur OCR in Ubuntu: https://help.ubuntu.com/community/OCR

Antworten Sie auf Let's Use Linux
Verwenden wir Linux sagte
vor 11-jährige

Eine andere Methode, die ich dort entdeckt habe, ist die folgende:

Angenommen, der Scanner wurde bereits angeschlossen und vom System erkannt

1. Ich öffne System> Administration> Synaptic Package Manager (in GNOME).

2. Suche und Framework zur Installation von tesseract-ocr-spa (zum Scannen auf Spanisch) und gscan2pdf

3. Zum Scannen öffne ich Anwendungen> Grafik> gscan2pdf

Und fertig.

Antworten Sie auf Let's Use Linux
Troubadour sagte
vor 10-jährige

Hey Freund, vielen Dank, die Wahrheit ist, dass Tesseract ein gutes Werkzeug ist, aber im Vergleich zu Büchern mit "problematischem" Scannen sehr begrenzt. Andererseits passt sich diese Software leichter an ... 😀

Antwort an Trovadordebarro
Juan Anez sagte
vor 10-jährige

Beim Digitalisieren von Bildern werden PDF-A-Dateien konvertiert und müssen OCR-zertifiziert werden. Wie empfindlich reagiert das Scannen in Schwarzweiß oder Graustufen auf das Ergebnis? Was wird empfohlen?

Antworte an Juan Anez