Jak OCR PDF i włączyć zaznaczanie tekstu i wyszukiwanie

Załóżmy, że masz plik PDF utworzony za pomocą skanera lub przekazany do Ciebie, ale zawiera informacje w postaci obrazu. Procedura, do której musimy przesłać nasz ukochany plik PDF, nazywa się OCR: proces, który automatycznie identyfikuje symbole lub znaki należące do określonego alfabetu, od obrazu do przechowywania go w postaci danych, z którymi możemy wchodzić w interakcje za pomocą programu do edycji tekstu lub podobnego.


pdfocr to proste narzędzie, które tworzy nowy plik PDF z osadzoną warstwą tekstową, umożliwiając użytkownikowi zaznaczanie tekstu i wyszukiwanie w nim słów bez zmiany ostatecznego wyglądu pliku PDF.

Do czego NIE służy pdfocr:

Jest to przydatne tylko wtedy, gdy plik PDF zawiera informacje w postaci obrazu; jeśli wyeksportowałeś plik PDF z OpenOffice, ma on już osadzoną warstwę tekstową, więc ta procedura jest niepotrzebna.

Jak zainstalować pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get zainstaluj pdfocr

Jak korzystać z pdfocr:

Otwórz terminal, przejdź do katalogu, w którym znajduje się plik PDF, który chcesz przekonwertować, i wprowadź następujące dane (zastępując input.pdf plikiem PDF, który chcesz przekonwertować, a output.pdf nazwą nowego pliku z osadzoną warstwą tekstową )

pdfocr -i wejście.pdf -o wyjście.pdf

Poczekaj, aż każda strona Twojego pliku PDF zostanie przećwiczona OCR i zostanie utworzony ostateczny zmodyfikowany plik. Powinno to zająć kilka sekund na stronę, w zależności od rozdzielczości pliku PDF.


Zostaw swój komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

*

*

  1. Odpowiedzialny za dane: Miguel Ángel Gatón
  2. Cel danych: kontrola spamu, zarządzanie komentarzami.
  3. Legitymacja: Twoja zgoda
  4. Przekazywanie danych: Dane nie będą przekazywane stronom trzecim, z wyjątkiem obowiązku prawnego.
  5. Przechowywanie danych: baza danych hostowana przez Occentus Networks (UE)
  6. Prawa: w dowolnym momencie możesz ograniczyć, odzyskać i usunąć swoje dane.

  1.   Rudolf Lara powiedział

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    Czytanie listy pakietów ... Gotowe
    Tworzenie drzewa zależności
    Czytanie informacji o stanie ... Gotowe
    E: Nie można znaleźć pakietu pdfocr
    rodolfo @ rodolfo-desktop: ~ $

  2.   Użyjmy Linuksa powiedział

    Czy upewniłeś się, że dodałeś odpowiedni PPA?
    Ten PPA prawdopodobnie ma wersje pdfocr dla starszych wersji Ubuntu. Pomyśl, że ten post ma już kilka miesięcy. Zresztą idea jest taka sama. Przejdź do Launchpada i poszukaj PPA zawierającego wersje pdfocr dla Maverick.
    Twoje zdrowie! Paweł.

  3.   jvare powiedział

    Cóż, będzie to kwestia przetestowania tego, aby zobaczyć, jak to działa

  4.   Użyjmy Linuksa powiedział

    Śmiało! Daj nam znać, jeśli Ci się udało !! Jeśli to nie zadziała, możemy również spróbować Ci pomóc! Twoje zdrowie! Paweł.

  5.   a01653 powiedział

    Cześć,
    Przetestowałem program w formacie pdf i wynik nie jest zbyt dobry. Jestem przyzwyczajony do profesjonalnego Acrobata 8 i szukałem czegoś podobnego. Acrobat przekazuje do plików narzędzia do czyszczenia i prostowania zeskanowanych plików PDF, uzyskując w ten sposób lepsze źródło pliku ocr. Czy wiesz, czy istnieje na to rozwiązanie.

    pozdrowienia

  6.   Użyjmy Linuksa powiedział

    Witaj! Słyszałem, że Tesseract to najlepszy open source OCR. Nie wiem, czy będzie dobrze. Aby to zadziałało, musisz trochę pobrudzić sobie ręce. Oto kilka instrukcji. Jeśli ci się powiedzie, daj mi znać, ponieważ jeśli to zadziała, prawdopodobnie zostanie postem.

    Najpierw zainstaluj pakiety „tesseract 2.03-4” i „imagemagick” przy użyciu Synaptic, „xsane2tess” z „http://download.tuxfamily.org/guadausers/guadaV4/”.

    Następnie utwórz folder tmp w: / home / nazwa użytkownika / tmp

    Następnie otwórz Xsane, aby go skonfigurować, Preferencje–> Konfiguracja–> karta OCR i wypełnij następujące informacje:

    Polecenie OCR -> xsane2tess -l spa
    Opcja pliku wejściowego -> -i
    Opcja pliku wyjściowego -> -o
    Opcja wyjściowa -fd interfejs -> -x

    W konfiguracjach Xsane w zakładce „zapisz” w części, w której jest napisany katalog tymczasowy, upewnij się, że istnieje folder „tmp”, który utworzyłeś w „/ home / nazwa_użytkownika”

    Zostawiam ci również stronę ze szczegółami, jak wykonać OCR w Ubuntu: https://help.ubuntu.com/community/OCR

  7.   Użyjmy Linuksa powiedział

    Inna metoda, którą odkryłem x, jest następująca:

    Zakładając, że skaner został już podłączony i rozpoznany przez system

    1. Otwieram System> Administracja> Synaptic Package Manager (w GNOME)

    2. Wyszukuję i framework, aby zainstalować tesseract-ocr-spa (do skanowania w języku hiszpańskim) i gscan2pdf

    3. Aby skanować, otwieram Aplikacje> Grafika> gscan2pdf

    I gotowy.

  8.   Trubadur powiedział

    Hej przyjacielu, bardzo dziękuję, prawda jest taka, że ​​tesseract to dobre narzędzie, ale bardzo ograniczone w porównaniu z książkami z „problematycznym” skanowaniem. Z drugiej strony to oprogramowanie łatwiej się dostosowuje ... 😀

  9.   Juan Anez powiedział

    W procesie digitalizacji obrazów konwertowane są pliki PDF-A, które należy poddać OCR. Jak wrażliwe jest skanowanie w czerni i bieli lub w skali szarości? Co jest zalecane?