Научите како да правилно препознате текст са слике помоћу тесеракта и оцрфеедер-а.

Многи од вас већ морају знати програме за оптичко препознавање знакова (ОЦР), ако јесу, наишли сте на неке који не препознају знакове типичне за шпански језик, попут ене, тилде између осталог (н, о, у).

Сада захваљујући тессерацт и на пакет тессерацт-оцр-спа Моћи ћемо да препознамо ове знакове и видећемо како да третирамо одређене слике где ниво боја или пиксела није тачан.

Прво морамо инсталирати следеће програме:

тессерацт-оцр
тессерацт-оцр-спа
оцрфеедер

У Дебиану вам савјетујем да их инсталирате без инсталирања препоручених софтвера:

sudo apt-get --no-install-recommends install ocrfeeder tesseract-ocr-spa tesseract-ocr

Ако имамо слику (скенирани документ) у којој је писмо читљиво, текст ће бити могуће препознати у приближно 90% случајева, табеле се неће препознати, ако слика има 2 колоне, аутоматски ће препознати прво колона, а затим друга да би се одржао редослед текста.

Постоје два начина за препознавање текста, један кроз командну линију на терминалу или путем оцрфеедер-а, за други ће бити потребно више времена за обраду:

Метод командне линије:

tesseract "/entrada/fichero.jpg" "/salida/fichero.txt" -l spa -psm 3

За конверзију више слика користићемо следећу команду:

cd /carpeta/imagenes find ./ -name "*.jpg" | sort | while read file; do tesseract "$file" "`basename "$file" | sed 's/\.[[:alnum:]]*$//'`.txt" -l spa -psm 3; done

Да бисмо се придружили резултујућим текстуалним датотекама у поменутој фасцикли, користићемо следећу наредбу помоћу које ће пасуси бити правилно спојени.

cd /carpeta/imagenes find ./ -name "*.txt" | sort | while read file; do cat "$file" | sed 's|^$|##|g' | tr '\n' " " | tr '##' "\n" >> Texto-unido.txt; done

Метода са оцрфеедер-ом:
1- Отварамо програм оцрфеедер.
2- Уређујемо мотор кликом на Тоолс - ОЦР Енгинес, одабиремо ессерацт енгине и кликните на едит, а тамо где пише аргументи мотора, мењамо скрипту за ову:

$IMAGE $FILE -l spa -psm 3 > /dev/null 2> /dev/null; cat $FILE.txt; rm $FILE $FILE.txt

3- Увозимо слику или фасциклу у којој има неколико слика.
4- Кликнемо на идентификуј документ, након што документ буде идентификован, можете ручно одабрати који ће његови делови бити слике или текст.
5- Пре извоза документа кликнемо на Уреди - Уреди страницу, бирамо жељену страницу, најчешће је писмо (писмо).
6- За извоз документа кликнемо Датотека - Извоз, бирамо жељени излазни формат, ако документ има слике, саветујем вам да користите формат одт или хтмл, ако је то само текст најбоље је користити обичан текст ( ткт) формат.

Ово се овде не завршава јер постоји много фотокопија чији квалитет није адекватан, а за њихово поправак користићемо гимп и рељефни филтер (овај поступак може бити спор):
1- Отварамо слику гимп-ом.
2- Кликнемо на Филтери - Изобличења - Утискивање, Означимо оквир мапе избочина, подесимо нивое азимута на приближно 162,25, надморску висину на 88,73 и дубину на 6 или 3. Снимамо слику са 100% квалитетом ако је јпг, у извозу - име.јпг.

По жељи можете прилагодити нивое белог кликом на Боје - Нивои - аутоматски.

DesdeLinux

Научите како правилно препознати текст на слици помоћу тессерацт-а и оцрфеедер-а.