Kaip nuskaityti dokumentus ir pritaikyti OCR sistemoje „Linux“

Ar bandėte „Simple Scan“, numatytąją „Ubuntu“ programą, bet nusivylėte pamatę, kad ji nepalaiko OCR ir pan.? Ar tuo pačiu metu „XSANE“ yra per daug sudėtinga norint atlikti paprastą užduotį? Ar jums trūksta, kaip lengva buvo nuskaityti dokumentus naudojant „Omnipage“?

Na, nenuostabu ... pažiūrėkime, kaip nuskaityti ir atlikti OCR nuskaitytuose dokumentuose labai labai paprastai. Jūs būsite nustebinti rezultatais.

Kaip nuskaityti atlikus 2 paprastus veiksmus

1. Įrengti gscan2pdf & tesseraktas-ocr (kartu su atitinkamu kalbų paketu). Tai yra, jei ketinate nuskaityti dokumentus anglų kalba, įdiekite tesseract-ocr-eng; Jei jie yra ispanų kalba, įdiekite tesseract-ocr-eng ir tiek.

sudo apt-get install gscan2pdf tesseract-ocr tesseract-ocr-eng

2. Visa kita yra gana paprasta tiems, kurie kada nors skenavo ir OCR dokumentą „Windows“ sistemoje. atidariau gscan2pdf, nuskaitykite dokumentą, eikite į Funkcijos> OCR ir pasirinkite Testeraktas kaip OCR variklis. Yra ir kitų variklių, tačiau „Tesseract“ yra neabejotinai geriausiai veikiantis variklis. Galiausiai galite išsaugoti galutinį dokumentą kaip PDF, DJVU ir kt. ketina Failas> Išsaugoti.

Pastaba: išsaugant nuskaitytus dokumentus geriau juos išsaugoti DJVU formatu (kokybė yra tokia pati kaip PDF, tačiau yra labai svarbus dydžio skirtumas).

Šis vaizdo įrašas yra anglų kalba, tačiau pakanka jį pamatyti, kad suprastumėte, kaip viskas veikia.


Palikite komentarą

Jūsų elektroninio pašto adresas nebus skelbiamas. Privalomi laukai yra pažymėti *

*

*

  1. Atsakingas už duomenis: Miguel Ángel Gatón
  2. Duomenų paskirtis: kontroliuoti šlamštą, komentarų valdymą.
  3. Įteisinimas: jūsų sutikimas
  4. Duomenų perdavimas: Duomenys nebus perduoti trečiosioms šalims, išskyrus teisinius įsipareigojimus.
  5. Duomenų saugojimas: „Occentus Networks“ (ES) talpinama duomenų bazė
  6. Teisės: bet kuriuo metu galite apriboti, atkurti ir ištrinti savo informaciją.

  1.   anoniminis sakė

    Aleksas: Daugeliui žaidėjų kyla problema, kaip „patekti į draugus“ su patinkančiomis merginomis.
    Pasimetusiai Melissai paaiškinęs, kad jis nėra Waldo,
    bet The Hon Ludovick Watson ji sutinka eiti
    Anglija. Jūsų klausimas taip pat turi būti pakankamai paprastas
    kad ji atsakytų be daugybės minčių.

    Čia yra mano internetinis dienoraštis - Tao iš Badass apžvalga

  2.   „BachiTux“ sakė

    Atkreipkite dėmesį, kad paketus galima įsigyti ir „Fedora“. 🙂

  3.   koplyčia sakė

    Turiu du skaitytuvus, vienas yra „Canon Scan 5000f“, skirtas A4 formato dokumentams, kitas - „Braun NovoScan“, skirtas negatyvams ir skaidrėms nuskaityti. Įdiegę „gscan2“ įrankį ir perkraunami, nematote nė vieno skaitytuvo. kas nutiko? Kodėl nematote skaitytuvų?

  4.   Panaudokime „Linux“ sakė

    Nėra įžeidžiančių draugų, bet nėra prasmės OCR matematikos funkcijoms.

    Bet kokiu atveju jiems patogu OCR apgauti aplinkinį tekstą (kuris paaiškina tas ar kitas funkcijas) ir kad funkcijos išlieka kaip vaizdai.
    Cheers! Paulius.

  5.   Ne iš Brooklyn sakė

    Ei, jei sugalvojai išspręsti savo problemą, norėčiau žinoti.

  6.   Juan Vallejo sakė

    Manau, kad šiek tiek vėluoju, bet man kyla klausimas. Esu inžinerijos studentas ir ieškau kažkokio būdo skaitmeninti ir išvalyti užrašus, tačiau problema ta, kad daugumoje tų užrašų gausu matematinių simbolių, grafikų ir funkcijų. Ar šiuo metu yra kažkas, kas man gali padėti?

  7.   Panaudokime „Linux“ sakė

    Puiku! Gera data! Arch Tesseract yra oficialiose saugyklose, bet ne gscan2pdf. Jūs turite jį įdiegti per „yaourt“.

  8.   Elcalimanas13142 sakė

    Labai ačiū, tai man labai padėjo, vėl padarykite „Linux“ draugiškesnę malonę

  9.   Panaudokime „Linux“ sakė

    Prašom! Malonu, kad galėjau padėti.
    Apkabinimas! Paulius.

  10.   kregždė sakė

    Labai gerai, aš to ieškojau, pabandysiu ir pasakysiu, kaip tai vyksta.

  11.   Mauro Nicolás Ybáñezas Girardas sakė

    Aciu, pabandysiu!

  12.   Leonardo Hernandezas sakė

    Kai einu paleisti OCR su „Tesseract“ varikliu, man suteikiama tik galimybė pasirinkti procesą angliškai, nors aš įdiegiau „tesseract-ocr-spa“ paketą. Ką aš galiu padaryti?

  13.   jaime ir isabel sakė

    atsisiųskite „gnscaner2pdf“, bet jis nenuskaito, ieško tik įrenginių ir nenustoja ieškoti po 15 min. Kas atsitiko?