Πώς να OCR ένα PDF και να ενεργοποιήσετε την επιλογή και την αναζήτηση κειμένου

Πώς να OCR ένα PDF και να ενεργοποιήσετε την επιλογή και αναζήτηση κειμένου

Ας υποθέσουμε ότι έχετε ένα PDF που δημιουργήθηκε χρησιμοποιώντας σαρωτή ή ότι σας διαβιβάστηκε, αλλά περιέχει τις πληροφορίες με τη μορφή εικόνας. Η διαδικασία στην οποία πρέπει να υποβάλουμε το αγαπημένο μας PDF καλείται OCR: μια διαδικασία που προσδιορίζει αυτόματα σύμβολα ή χαρακτήρες που ανήκουν σε ένα συγκεκριμένο αλφάβητο, από μια εικόνα για να την αποθηκεύσει με τη μορφή δεδομένων με τα οποία μπορούμε να αλληλεπιδράσουμε χρησιμοποιώντας ένα πρόγραμμα επεξεργασίας κειμένου ή παρόμοιο.

Το pdfocr είναι ένα απλό εργαλείο που δημιουργεί ένα νέο PDF με ενσωματωμένο επίπεδο κειμένου, επιτρέποντας στον χρήστη να επιλέξει κείμενο και να αναζητήσει λέξεις σε αυτό, χωρίς να αλλάξει την τελική εμφάνιση του PDF.

Σε τι δεν είναι το pdfocr:

Αυτό είναι χρήσιμο μόνο εάν το PDF περιέχει τις πληροφορίες σε μορφή εικόνας. εάν εξάγετε το PDF από το OpenOffice, έχει ήδη ενσωματωμένο επίπεδο κειμένου, επομένως αυτή η διαδικασία δεν είναι απαραίτητη.

Πώς να εγκαταστήσετε το pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo update apt-get
sudo apt-get εγκατάσταση pdfocr

Πώς να χρησιμοποιήσετε το pdfocr:

Ανοίξτε ένα τερματικό, μεταβείτε στον κατάλογο όπου βρίσκεται το PDF που θέλετε να μετατρέψετε και εισαγάγετε τα ακόλουθα (αντικαθιστώντας το input.pdf με το PDF που θέλετε να μετατρέψετε και το output.pdf με το όνομα του νέου αρχείου με το ενσωματωμένο επίπεδο κειμένου )

pdfocr -i είσοδος.pdf -o έξοδος.pdf

Περιμένετε να εφαρμοστεί κάθε σελίδα του PDF σας και να δημιουργηθεί το τελικό τροποποιημένο αρχείο. Αυτό θα διαρκέσει λίγα δευτερόλεπτα ανά σελίδα, ανάλογα με την ανάλυση του PDF σας.

Αφήστε το σχόλιό σας Ακύρωση απάντησης

Η διεύθυνση email σας δεν θα δημοσιευθεί. Τα υποχρεωτικά πεδία σημειώνονται με *

σχόλιο *

όνομα*

ηλεκτρονικό ταχυδρομείο*

δέχομαι το τους όρους προστασίας της ιδιωτικής ζωής*

Υπεύθυνος για τα δεδομένα: Miguel Ángel Gatón
Σκοπός των δεδομένων: Έλεγχος SPAM, διαχείριση σχολίων.
Νομιμοποίηση: Η συγκατάθεσή σας
Κοινοποίηση των δεδομένων: Τα δεδομένα δεν θα κοινοποιούνται σε τρίτους, εκτός από νομική υποχρέωση.
Αποθήκευση δεδομένων: Βάση δεδομένων που φιλοξενείται από τα δίκτυα Occentus (ΕΕ)
Δικαιώματα: Ανά πάσα στιγμή μπορείτε να περιορίσετε, να ανακτήσετε και να διαγράψετε τις πληροφορίες σας.

Θέλω να λαμβάνω το ενημερωτικό δελτίο

Ροδόλφο Λάρα dijo
πριν 11 χρόνια

rodolfo @ rodolfo-desktop: ~ $ sudo apt-get εγκατάσταση pdfocr
Λίστα πακέτων ανάγνωσης ... Έγινε
Δημιουργία δέντρου εξάρτησης
Διαβάζοντας τις πληροφορίες κατάστασης ... Έγινε
E: Δεν ήταν δυνατή η εύρεση του πακέτου pdfocr
rodolfo @ rodolfo-desktop: ~ $

Απάντηση στο Rodolfo Lara
Ας χρησιμοποιήσουμε το Linux dijo
πριν 11 χρόνια

Φροντίσατε να προσθέσετε το αντίστοιχο PPA;
Αυτό το PPA έχει πιθανώς εκδόσεις pdfocr για παλαιότερες εκδόσεις Ubuntu. Σκεφτείτε ότι αυτή η ανάρτηση είναι ήδη αρκετών μηνών. Τέλος πάντων, η ιδέα είναι η ίδια. Μεταβείτε στο Launchpad και αναζητήστε ένα PPA που περιέχει εκδόσεις pdfocr για το Maverick.
Στην υγειά σας! Παύλος.

Απαντήστε στο Let's Use Linux
jvare dijo
πριν 11 χρόνια

Λοιπόν, θα είναι θέμα δοκιμής για να δούμε πώς λειτουργεί

Απάντηση στο Jvare
Ας χρησιμοποιήσουμε το Linux dijo
πριν 11 χρόνια

Προχώρα! Ενημερώστε μας εάν πετύχατε !! Εάν δεν λειτουργεί, μπορούμε επίσης να προσπαθήσουμε να σας βοηθήσουμε! Στην υγειά σας! Παύλος.

Απαντήστε στο Let's Use Linux
a01653 dijo
πριν 11 χρόνια

Γεια σας,
Έχω δοκιμάσει το πρόγραμμα σε pdf και το αποτέλεσμα δεν είναι πολύ καλό. Είμαι συνηθισμένος στον επαγγελματία ακροβάτη 8 και έψαχνα κάτι παρόμοιο. Το Acrobat μεταβιβάζει βοηθητικά προγράμματα στα αρχεία για να καθαρίσει και να ισιώσει τα σαρωμένα pdf και έτσι να αποκτήσει μια καλύτερη πηγή για το ocr. Ξέρετε αν υπάρχει λύση για αυτό.

χαιρετίσματα

Απάντηση στο a01653
Ας χρησιμοποιήσουμε το Linux dijo
πριν 11 χρόνια

Γειά σου! Έχω ακούσει ότι το Tesseract είναι το καλύτερο OCR ανοιχτού κώδικα. Δεν ξέρω αν θα είναι καλό. Επίσης, πρέπει να βγάλετε τα χέρια σας λίγο βρώμικα για να λειτουργήσει. Ακολουθούν μερικές οδηγίες. Αν είστε επιτυχημένοι, σας παρακαλώ να με ενημερώσετε αφού, εάν λειτουργεί, πιθανότατα θα καταλήξει να γίνει θέση.

Εγκαταστήστε πρώτα τα πακέτα "tesseract 2.03-4" και "imagemagick" χρησιμοποιώντας το Synaptic, "xsane2tess" από το "http://download.tuxfamily.org/guadausers/guadaV4/".

Στη συνέχεια, δημιουργήστε το φάκελο tmp στο: / home / το όνομα χρήστη / tmp

Στη συνέχεια, ανοίξτε το Xsane για να το διαμορφώσετε, Προτιμήσεις–> Διαμόρφωση–> καρτέλα OCR και συμπληρώστε τα εξής:

Εντολή OCR -> xsane2tess -l spa
Επιλογή αρχείου εισαγωγής -> -i
Επιλογή αρχείου εξόδου -> -o
Επιλογή εξόδου -fd interface -> -x

Στις διαμορφώσεις Xsane στην καρτέλα "αποθήκευση" στο μέρος όπου λέει προσωρινός κατάλογος, βεβαιωθείτε ότι υπάρχει ο φάκελος "tmp" που δημιουργήσατε στο "/ home / yourusername"

Σας αφήνω επίσης μια σελίδα με λεπτομέρειες για το πώς να κάνετε OCR στο Ubuntu: https://help.ubuntu.com/community/OCR

Απαντήστε στο Let's Use Linux
Ας χρησιμοποιήσουμε το Linux dijo
πριν 11 χρόνια

Μια άλλη μέθοδος που ανακάλυψα x υπάρχει η ακόλουθη:

Υποθέτοντας ότι ο σαρωτής έχει ήδη συνδεθεί και αναγνωριστεί από το σύστημα

1. Ανοίγω Σύστημα> Διαχείριση> Synaptic Package Manager (στο GNOME)

2. Αναζήτηση και πλαίσιο για την εγκατάσταση του tesseract-ocr-spa (για σάρωση στα ισπανικά) και του gscan2pdf

3. Για σάρωση ανοίγω Εφαρμογές> Γραφικά> gscan2pdf

Και έτοιμος.

Απαντήστε στο Let's Use Linux
Τροβαδούρος dijo
πριν 10 χρόνια

Γεια σου φίλε, ευχαριστώ πολύ, η αλήθεια είναι ότι το tesseract είναι ένα καλό εργαλείο, αλλά πολύ περιορισμένο σε σύγκριση με τα βιβλία με "προβληματική" σάρωση. Από την άλλη πλευρά, αυτό το λογισμικό προσαρμόζεται πιο εύκολα ... 😀

Απάντηση στο Trovadordebarro
Χουάν Ανέζ dijo
πριν 10 χρόνια

Σε μια διαδικασία ψηφιοποίησης εικόνων, τα αρχεία PDF-A μετατρέπονται, πρέπει να είναι OCR. Πόσο ευαίσθητο στο αποτέλεσμα είναι η σάρωση σε ασπρόμαυρη ή σε κλίμακα του γκρι; Τι συνιστάται;

Απάντηση στο juan anez