Załóżmy, że masz plik PDF utworzony za pomocą skanera lub przekazany do Ciebie, ale zawiera informacje w postaci obrazu. Procedura, do której musimy przesłać nasz ukochany plik PDF, nazywa się OCR: proces, który automatycznie identyfikuje symbole lub znaki należące do określonego alfabetu, od obrazu do przechowywania go w postaci danych, z którymi możemy wchodzić w interakcje za pomocą programu do edycji tekstu lub podobnego. |
pdfocr to proste narzędzie, które tworzy nowy plik PDF z osadzoną warstwą tekstową, umożliwiając użytkownikowi zaznaczanie tekstu i wyszukiwanie w nim słów bez zmiany ostatecznego wyglądu pliku PDF.
Do czego NIE służy pdfocr:
Jest to przydatne tylko wtedy, gdy plik PDF zawiera informacje w postaci obrazu; jeśli wyeksportowałeś plik PDF z OpenOffice, ma on już osadzoną warstwę tekstową, więc ta procedura jest niepotrzebna.
Jak zainstalować pdfocr:
sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get zainstaluj pdfocr
Jak korzystać z pdfocr:
Otwórz terminal, przejdź do katalogu, w którym znajduje się plik PDF, który chcesz przekonwertować, i wprowadź następujące dane (zastępując input.pdf plikiem PDF, który chcesz przekonwertować, a output.pdf nazwą nowego pliku z osadzoną warstwą tekstową )
pdfocr -i wejście.pdf -o wyjście.pdf
Poczekaj, aż każda strona Twojego pliku PDF zostanie przećwiczona OCR i zostanie utworzony ostateczny zmodyfikowany plik. Powinno to zająć kilka sekund na stronę, w zależności od rozdzielczości pliku PDF.
rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Czytanie listy pakietów ... Gotowe
Tworzenie drzewa zależności
Czytanie informacji o stanie ... Gotowe
E: Nie można znaleźć pakietu pdfocr
rodolfo @ rodolfo-desktop: ~ $
Czy upewniłeś się, że dodałeś odpowiedni PPA?
Ten PPA prawdopodobnie ma wersje pdfocr dla starszych wersji Ubuntu. Pomyśl, że ten post ma już kilka miesięcy. Zresztą idea jest taka sama. Przejdź do Launchpada i poszukaj PPA zawierającego wersje pdfocr dla Maverick.
Twoje zdrowie! Paweł.
Cóż, będzie to kwestia przetestowania tego, aby zobaczyć, jak to działa
Śmiało! Daj nam znać, jeśli Ci się udało !! Jeśli to nie zadziała, możemy również spróbować Ci pomóc! Twoje zdrowie! Paweł.
Cześć,
Przetestowałem program w formacie pdf i wynik nie jest zbyt dobry. Jestem przyzwyczajony do profesjonalnego Acrobata 8 i szukałem czegoś podobnego. Acrobat przekazuje do plików narzędzia do czyszczenia i prostowania zeskanowanych plików PDF, uzyskując w ten sposób lepsze źródło pliku ocr. Czy wiesz, czy istnieje na to rozwiązanie.
pozdrowienia
Witaj! Słyszałem, że Tesseract to najlepszy open source OCR. Nie wiem, czy będzie dobrze. Aby to zadziałało, musisz trochę pobrudzić sobie ręce. Oto kilka instrukcji. Jeśli ci się powiedzie, daj mi znać, ponieważ jeśli to zadziała, prawdopodobnie zostanie postem.
Najpierw zainstaluj pakiety „tesseract 2.03-4” i „imagemagick” przy użyciu Synaptic, „xsane2tess” z „http://download.tuxfamily.org/guadausers/guadaV4/”.
Następnie utwórz folder tmp w: / home / nazwa użytkownika / tmp
Następnie otwórz Xsane, aby go skonfigurować, Preferencje–> Konfiguracja–> karta OCR i wypełnij następujące informacje:
Polecenie OCR -> xsane2tess -l spa
Opcja pliku wejściowego -> -i
Opcja pliku wyjściowego -> -o
Opcja wyjściowa -fd interfejs -> -x
W konfiguracjach Xsane w zakładce „zapisz” w części, w której jest napisany katalog tymczasowy, upewnij się, że istnieje folder „tmp”, który utworzyłeś w „/ home / nazwa_użytkownika”
Zostawiam ci również stronę ze szczegółami, jak wykonać OCR w Ubuntu: https://help.ubuntu.com/community/OCR
Inna metoda, którą odkryłem x, jest następująca:
Zakładając, że skaner został już podłączony i rozpoznany przez system
1. Otwieram System> Administracja> Synaptic Package Manager (w GNOME)
2. Wyszukuję i framework, aby zainstalować tesseract-ocr-spa (do skanowania w języku hiszpańskim) i gscan2pdf
3. Aby skanować, otwieram Aplikacje> Grafika> gscan2pdf
I gotowy.
Hej przyjacielu, bardzo dziękuję, prawda jest taka, że tesseract to dobre narzędzie, ale bardzo ograniczone w porównaniu z książkami z „problematycznym” skanowaniem. Z drugiej strony to oprogramowanie łatwiej się dostosowuje ... 😀
W procesie digitalizacji obrazów konwertowane są pliki PDF-A, które należy poddać OCR. Jak wrażliwe jest skanowanie w czerni i bieli lub w skali szarości? Co jest zalecane?