Jak skanować dokumenty i stosować OCR w systemie Linux

Czy wypróbowałeś Simple Scan, domyślny program Ubuntu, ale rozczarowałeś się, że nie obsługuje on OCR itp.? Jednocześnie, czy XSANE jest zbyt skomplikowane dla prostego zadania, które zamierzałeś wykonać? Czy tęsknisz za tym, jak łatwo było skanować dokumenty za pomocą Omnipage?

Cóż, nic dziwnego ... zobaczmy, jak skanować i wykonywać OCR w zeskanowanych dokumentach w bardzo, bardzo prosty sposób. Będziesz zaskoczony wynikami.

Jak skanować w 2 prostych krokach

1.- zainstalować gscan2pdf & tesserakt-ocr (wraz z odpowiednim pakietem językowym). Oznacza to, że jeśli zamierzasz skanować dokumenty w języku angielskim, zainstaluj tesserakt-ocr-eng; Jeśli są w języku hiszpańskim, zainstaluj tesseract-ocr-eng a więc.

sudo apt-get zainstaluj gscan2pdf tesseract-ocr tesseract-ocr-spa

2.- Reszta jest całkiem prosta dla tych z Was, którzy kiedykolwiek skanowali i OCR dokument w systemie Windows. otworzyłem gscan2pdf, zeskanuj dokument, przejdź do Opcje> OCR i wybierz Tesseract jako silnik OCR. Istnieją inne silniki, ale Tesseract jest zdecydowanie najlepszym silnikiem. Na koniec możesz zapisać ostateczny dokument jako PDF, DJVU itp. zamierzam Plik> Zapisz.

Uwaga: zapisując zeskanowane dokumenty lepiej zapisać je w formacie DJVU (jakość jest taka sama jak w przypadku pliku PDF, ale istnieje bardzo ważna różnica w rozmiarze).

Poniższy film jest w języku angielskim, ale wystarczy go zobaczyć, aby zrozumieć, jak wszystko działa.


Zostaw swój komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

*

*

  1. Odpowiedzialny za dane: Miguel Ángel Gatón
  2. Cel danych: kontrola spamu, zarządzanie komentarzami.
  3. Legitymacja: Twoja zgoda
  4. Przekazywanie danych: Dane nie będą przekazywane stronom trzecim, z wyjątkiem obowiązku prawnego.
  5. Przechowywanie danych: baza danych hostowana przez Occentus Networks (UE)
  6. Prawa: w dowolnym momencie możesz ograniczyć, odzyskać i usunąć swoje dane.

  1.   Anonimowy powiedział

    Alex: Wielu graczy ma problem z „strefą znajomych” z dziewczynami, które lubią.
    Po wyjaśnieniu zdezorientowanej Melissie, że nie jest Waldo,
    ale Hon Ludovick Watson, ona zgadza się iść
    Anglia. Twoje pytanie również musi być wystarczająco PROSTE
    żeby odpowiedziała bez zastanowienia.

    Oto mój blog internetowy - Tao Badass Review

  2.   bachitux powiedział

    Zauważ, że pakiety są również dostępne w Fedorze. 🙂

  3.   kaplica powiedział

    Mam dwa skanery, jeden to Canon Scan 5000f do dokumentów A4, a drugi to Braun NovoScan, do skanowania negatywów i slajdów. Po zainstalowaniu narzędzia gscan2 i ponownym uruchomieniu nie widać żadnego skanera. co się stało? Dlaczego nie widzisz skanerów?

  4.   Użyjmy Linuksa powiedział

    Bez urazy, przyjaciele, ale nie ma sensu rozpoznawanie funkcji matematycznych.

    W każdym razie powinni wykonać OCR do otaczającego tekstu (który wyjaśnia te funkcje lub cokolwiek) i zachować funkcje jako obrazy.
    Twoje zdrowie! Paweł.

  5.   Nie z Brooklynu powiedział

    Hej, jeśli znalazłeś rozwiązanie swojego problemu, chciałbym wiedzieć.

  6.   Juan Vallejo powiedział

    Myślę, że trochę się spóźniłem, ale mam pytanie. Jestem studentem inżynierii i szukam sposobu na zdigitalizowanie i wyczyszczenie moich notatek, ale problem polega na tym, że większość tych notatek jest pełna symboli matematycznych, wykresów i funkcji. Czy jest obecnie coś, co może mi pomóc?

  7.   Użyjmy Linuksa powiedział

    Świetny! Dobra randka! W Arch Tesseract znajduje się w oficjalnych repozytoriach, ale nie w gscan2pdf. Musisz go zainstalować przez yaourt.

  8.   elcaliman13142 powiedział

    Dziękuję bardzo, bardzo mi pomogło, sprawiają, że linux znów jest bardziej przyjazny

  9.   Użyjmy Linuksa powiedział

    Nie ma za co! To przyjemność móc pomóc.
    Uścisk! Paweł.

  10.   Martin powiedział

    Bardzo dobrze szukałem, spróbuję i powiem jak to idzie.

  11.   Mauro Nicolas Ybanez Girard powiedział

    Dzięki, spróbuję!

  12.   Leonard Hernandez powiedział

    Kiedy idę uruchomić OCR z silnikiem Tesseract, daje mi to tylko opcję procesu w języku angielskim, mimo że zainstalowałem pakiet tesseract-ocr-spa. Co mogę zrobić?

  13.   jaime i isabel powiedział

    Pobierz gnscaner2pdf, ale nie skanuje, tylko wyszukuje urządzenia, a nie je, kontynuuje wyszukiwanie po 15 min. Co tam?