Jak OCR pliku PDF i włączyć zaznaczanie i wyszukiwanie tekstu

Jak OCR PDF i włączyć zaznaczanie tekstu i wyszukiwanie

Załóżmy, że masz plik PDF utworzony za pomocą skanera lub przekazany do Ciebie, ale zawiera informacje w postaci obrazu. Procedura, do której musimy przesłać nasz ukochany plik PDF, nazywa się OCR: proces, który automatycznie identyfikuje symbole lub znaki należące do określonego alfabetu, od obrazu do przechowywania go w postaci danych, z którymi możemy wchodzić w interakcje za pomocą programu do edycji tekstu lub podobnego.

pdfocr to proste narzędzie, które tworzy nowy plik PDF z osadzoną warstwą tekstową, umożliwiając użytkownikowi zaznaczanie tekstu i wyszukiwanie w nim słów bez zmiany ostatecznego wyglądu pliku PDF.

Do czego NIE służy pdfocr:

Jest to przydatne tylko wtedy, gdy plik PDF zawiera informacje w postaci obrazu; jeśli wyeksportowałeś plik PDF z OpenOffice, ma on już osadzoną warstwę tekstową, więc ta procedura jest niepotrzebna.

Jak zainstalować pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get zainstaluj pdfocr

Jak korzystać z pdfocr:

Otwórz terminal, przejdź do katalogu, w którym znajduje się plik PDF, który chcesz przekonwertować, i wprowadź następujące dane (zastępując input.pdf plikiem PDF, który chcesz przekonwertować, a output.pdf nazwą nowego pliku z osadzoną warstwą tekstową )

pdfocr -i wejście.pdf -o wyjście.pdf

Poczekaj, aż każda strona Twojego pliku PDF zostanie przećwiczona OCR i zostanie utworzony ostateczny zmodyfikowany plik. Powinno to zająć kilka sekund na stronę, w zależności od rozdzielczości pliku PDF.

Zostaw swój komentarz Anuluj odpowiedź

Rudolf Lara powiedział
temu 11 roku

rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Czytanie listy pakietów ... Gotowe
Tworzenie drzewa zależności
Czytanie informacji o stanie ... Gotowe
E: Nie można znaleźć pakietu pdfocr
rodolfo @ rodolfo-desktop: ~ $

Odpowiedz Rodolfo Lara
Użyjmy Linuksa powiedział
temu 11 roku

Czy upewniłeś się, że dodałeś odpowiedni PPA?
Ten PPA prawdopodobnie ma wersje pdfocr dla starszych wersji Ubuntu. Pomyśl, że ten post ma już kilka miesięcy. Zresztą idea jest taka sama. Przejdź do Launchpada i poszukaj PPA zawierającego wersje pdfocr dla Maverick.
Twoje zdrowie! Paweł.

Odpowiedz na Let's Use Linux
jvare powiedział
temu 11 roku

Cóż, będzie to kwestia przetestowania tego, aby zobaczyć, jak to działa

Odpowiedz Jvare
Użyjmy Linuksa powiedział
temu 11 roku

Śmiało! Daj nam znać, jeśli Ci się udało !! Jeśli to nie zadziała, możemy również spróbować Ci pomóc! Twoje zdrowie! Paweł.

Odpowiedz na Let's Use Linux
a01653 powiedział
temu 11 roku

Cześć,
Przetestowałem program w formacie pdf i wynik nie jest zbyt dobry. Jestem przyzwyczajony do profesjonalnego Acrobata 8 i szukałem czegoś podobnego. Acrobat przekazuje do plików narzędzia do czyszczenia i prostowania zeskanowanych plików PDF, uzyskując w ten sposób lepsze źródło pliku ocr. Czy wiesz, czy istnieje na to rozwiązanie.

pozdrowienia

Odpowiedz a01653
Użyjmy Linuksa powiedział
temu 11 roku

Witaj! Słyszałem, że Tesseract to najlepszy open source OCR. Nie wiem, czy będzie dobrze. Aby to zadziałało, musisz trochę pobrudzić sobie ręce. Oto kilka instrukcji. Jeśli ci się powiedzie, daj mi znać, ponieważ jeśli to zadziała, prawdopodobnie zostanie postem.

Najpierw zainstaluj pakiety „tesseract 2.03-4” i „imagemagick” przy użyciu Synaptic, „xsane2tess” z „http://download.tuxfamily.org/guadausers/guadaV4/”.

Następnie utwórz folder tmp w: / home / nazwa użytkownika / tmp

Następnie otwórz Xsane, aby go skonfigurować, Preferencje–> Konfiguracja–> karta OCR i wypełnij następujące informacje:

Polecenie OCR -> xsane2tess -l spa
Opcja pliku wejściowego -> -i
Opcja pliku wyjściowego -> -o
Opcja wyjściowa -fd interfejs -> -x

W konfiguracjach Xsane w zakładce „zapisz” w części, w której jest napisany katalog tymczasowy, upewnij się, że istnieje folder „tmp”, który utworzyłeś w „/ home / nazwa_użytkownika”

Zostawiam ci również stronę ze szczegółami, jak wykonać OCR w Ubuntu: https://help.ubuntu.com/community/OCR

Odpowiedz na Let's Use Linux
Użyjmy Linuksa powiedział
temu 11 roku

Inna metoda, którą odkryłem x, jest następująca:

Zakładając, że skaner został już podłączony i rozpoznany przez system

1. Otwieram System> Administracja> Synaptic Package Manager (w GNOME)

2. Wyszukuję i framework, aby zainstalować tesseract-ocr-spa (do skanowania w języku hiszpańskim) i gscan2pdf

3. Aby skanować, otwieram Aplikacje> Grafika> gscan2pdf

I gotowy.

Odpowiedz na Let's Use Linux
Trubadur powiedział
temu 10 roku

Hej przyjacielu, bardzo dziękuję, prawda jest taka, że tesseract to dobre narzędzie, ale bardzo ograniczone w porównaniu z książkami z „problematycznym” skanowaniem. Z drugiej strony to oprogramowanie łatwiej się dostosowuje ... 😀

Odpowiedz Trovadordebarro
Juan Anez powiedział
temu 10 roku

W procesie digitalizacji obrazów konwertowane są pliki PDF-A, które należy poddać OCR. Jak wrażliwe jest skanowanie w czerni i bieli lub w skali szarości? Co jest zalecane?

Odpowiedz juan anez