Πώς να OCR ένα PDF και να ενεργοποιήσετε την επιλογή και αναζήτηση κειμένου

Ας υποθέσουμε ότι έχετε ένα PDF που δημιουργήθηκε χρησιμοποιώντας σαρωτή ή ότι σας διαβιβάστηκε, αλλά περιέχει τις πληροφορίες με τη μορφή εικόνας. Η διαδικασία στην οποία πρέπει να υποβάλουμε το αγαπημένο μας PDF καλείται OCR: μια διαδικασία που προσδιορίζει αυτόματα σύμβολα ή χαρακτήρες που ανήκουν σε ένα συγκεκριμένο αλφάβητο, από μια εικόνα για να την αποθηκεύσει με τη μορφή δεδομένων με τα οποία μπορούμε να αλληλεπιδράσουμε χρησιμοποιώντας ένα πρόγραμμα επεξεργασίας κειμένου ή παρόμοιο.


Το pdfocr είναι ένα απλό εργαλείο που δημιουργεί ένα νέο PDF με ενσωματωμένο επίπεδο κειμένου, επιτρέποντας στον χρήστη να επιλέξει κείμενο και να αναζητήσει λέξεις σε αυτό, χωρίς να αλλάξει την τελική εμφάνιση του PDF.

Σε τι δεν είναι το pdfocr:

Αυτό είναι χρήσιμο μόνο εάν το PDF περιέχει τις πληροφορίες σε μορφή εικόνας. εάν εξάγετε το PDF από το OpenOffice, έχει ήδη ενσωματωμένο επίπεδο κειμένου, επομένως αυτή η διαδικασία δεν είναι απαραίτητη.

Πώς να εγκαταστήσετε το pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo update apt-get
sudo apt-get εγκατάσταση pdfocr

Πώς να χρησιμοποιήσετε το pdfocr:

Ανοίξτε ένα τερματικό, μεταβείτε στον κατάλογο όπου βρίσκεται το PDF που θέλετε να μετατρέψετε και εισαγάγετε τα ακόλουθα (αντικαθιστώντας το input.pdf με το PDF που θέλετε να μετατρέψετε και το output.pdf με το όνομα του νέου αρχείου με το ενσωματωμένο επίπεδο κειμένου )

pdfocr -i είσοδος.pdf -o έξοδος.pdf

Περιμένετε να εφαρμοστεί κάθε σελίδα του PDF σας και να δημιουργηθεί το τελικό τροποποιημένο αρχείο. Αυτό θα διαρκέσει λίγα δευτερόλεπτα ανά σελίδα, ανάλογα με την ανάλυση του PDF σας.


Αφήστε το σχόλιό σας

Η διεύθυνση email σας δεν θα δημοσιευθεί. Τα υποχρεωτικά πεδία σημειώνονται με *

*

*

  1. Υπεύθυνος για τα δεδομένα: Miguel Ángel Gatón
  2. Σκοπός των δεδομένων: Έλεγχος SPAM, διαχείριση σχολίων.
  3. Νομιμοποίηση: Η συγκατάθεσή σας
  4. Κοινοποίηση των δεδομένων: Τα δεδομένα δεν θα κοινοποιούνται σε τρίτους, εκτός από νομική υποχρέωση.
  5. Αποθήκευση δεδομένων: Βάση δεδομένων που φιλοξενείται από τα δίκτυα Occentus (ΕΕ)
  6. Δικαιώματα: Ανά πάσα στιγμή μπορείτε να περιορίσετε, να ανακτήσετε και να διαγράψετε τις πληροφορίες σας.

  1.   Ροδόλφο Λάρα dijo

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get εγκατάσταση pdfocr
    Λίστα πακέτων ανάγνωσης ... Έγινε
    Δημιουργία δέντρου εξάρτησης
    Διαβάζοντας τις πληροφορίες κατάστασης ... Έγινε
    E: Δεν ήταν δυνατή η εύρεση του πακέτου pdfocr
    rodolfo @ rodolfo-desktop: ~ $

  2.   Ας χρησιμοποιήσουμε το Linux dijo

    Φροντίσατε να προσθέσετε το αντίστοιχο PPA;
    Αυτό το PPA έχει πιθανώς εκδόσεις pdfocr για παλαιότερες εκδόσεις Ubuntu. Σκεφτείτε ότι αυτή η ανάρτηση είναι ήδη αρκετών μηνών. Τέλος πάντων, η ιδέα είναι η ίδια. Μεταβείτε στο Launchpad και αναζητήστε ένα PPA που περιέχει εκδόσεις pdfocr για το Maverick.
    Στην υγειά σας! Παύλος.

  3.   jvare dijo

    Λοιπόν, θα είναι θέμα δοκιμής για να δούμε πώς λειτουργεί

  4.   Ας χρησιμοποιήσουμε το Linux dijo

    Προχώρα! Ενημερώστε μας εάν πετύχατε !! Εάν δεν λειτουργεί, μπορούμε επίσης να προσπαθήσουμε να σας βοηθήσουμε! Στην υγειά σας! Παύλος.

  5.   a01653 dijo

    Γεια σας,
    Έχω δοκιμάσει το πρόγραμμα σε pdf και το αποτέλεσμα δεν είναι πολύ καλό. Είμαι συνηθισμένος στον επαγγελματία ακροβάτη 8 και έψαχνα κάτι παρόμοιο. Το Acrobat μεταβιβάζει βοηθητικά προγράμματα στα αρχεία για να καθαρίσει και να ισιώσει τα σαρωμένα pdf και έτσι να αποκτήσει μια καλύτερη πηγή για το ocr. Ξέρετε αν υπάρχει λύση για αυτό.

    χαιρετίσματα

  6.   Ας χρησιμοποιήσουμε το Linux dijo

    Γειά σου! Έχω ακούσει ότι το Tesseract είναι το καλύτερο OCR ανοιχτού κώδικα. Δεν ξέρω αν θα είναι καλό. Επίσης, πρέπει να βγάλετε τα χέρια σας λίγο βρώμικα για να λειτουργήσει. Ακολουθούν μερικές οδηγίες. Αν είστε επιτυχημένοι, σας παρακαλώ να με ενημερώσετε αφού, εάν λειτουργεί, πιθανότατα θα καταλήξει να γίνει θέση.

    Εγκαταστήστε πρώτα τα πακέτα "tesseract 2.03-4" και "imagemagick" χρησιμοποιώντας το Synaptic, "xsane2tess" από το "http://download.tuxfamily.org/guadausers/guadaV4/".

    Στη συνέχεια, δημιουργήστε το φάκελο tmp στο: / home / το όνομα χρήστη / tmp

    Στη συνέχεια, ανοίξτε το Xsane για να το διαμορφώσετε, Προτιμήσεις–> Διαμόρφωση–> καρτέλα OCR και συμπληρώστε τα εξής:

    Εντολή OCR -> xsane2tess -l spa
    Επιλογή αρχείου εισαγωγής -> -i
    Επιλογή αρχείου εξόδου -> -o
    Επιλογή εξόδου -fd interface -> -x

    Στις διαμορφώσεις Xsane στην καρτέλα "αποθήκευση" στο μέρος όπου λέει προσωρινός κατάλογος, βεβαιωθείτε ότι υπάρχει ο φάκελος "tmp" που δημιουργήσατε στο "/ home / yourusername"

    Σας αφήνω επίσης μια σελίδα με λεπτομέρειες για το πώς να κάνετε OCR στο Ubuntu: https://help.ubuntu.com/community/OCR

  7.   Ας χρησιμοποιήσουμε το Linux dijo

    Μια άλλη μέθοδος που ανακάλυψα x υπάρχει η ακόλουθη:

    Υποθέτοντας ότι ο σαρωτής έχει ήδη συνδεθεί και αναγνωριστεί από το σύστημα

    1. Ανοίγω Σύστημα> Διαχείριση> Synaptic Package Manager (στο GNOME)

    2. Αναζήτηση και πλαίσιο για την εγκατάσταση του tesseract-ocr-spa (για σάρωση στα ισπανικά) και του gscan2pdf

    3. Για σάρωση ανοίγω Εφαρμογές> Γραφικά> gscan2pdf

    Και έτοιμος.

  8.   Τροβαδούρος dijo

    Γεια σου φίλε, ευχαριστώ πολύ, η αλήθεια είναι ότι το tesseract είναι ένα καλό εργαλείο, αλλά πολύ περιορισμένο σε σύγκριση με τα βιβλία με "προβληματική" σάρωση. Από την άλλη πλευρά, αυτό το λογισμικό προσαρμόζεται πιο εύκολα ... 😀

  9.   Χουάν Ανέζ dijo

    Σε μια διαδικασία ψηφιοποίησης εικόνων, τα αρχεία PDF-A μετατρέπονται, πρέπει να είναι OCR. Πόσο ευαίσθητο στο αποτέλεσμα είναι η σάρωση σε ασπρόμαυρη ή σε κλίμακα του γκρι; Τι συνιστάται;