Sužinokite, kaip teisingai atpažinti tekstą iš vaizdo naudojant tesseract ir ocrfeeder.

Daugelis iš jūsų jau turite žinoti optinio simbolių atpažinimo (OCR) programas, jei taip, teko susidurti su kai kuriomis, kurios neatpažįsta ispanų kalbai būdingų simbolių, tokių kaip eñe, tílde (ñ, ó, ü).

Dabar ačiū tesseraktas ir į pakuotę tesseract-ocr-eng Galėsime atpažinti šiuos simbolius ir pamatysime, kaip elgtis su tam tikrais vaizdais, kai spalvų ar pikselių lygiai nėra teisingi.

Pirmiausia turime įdiegti šias programas:

tesseraktas-ocr
tesseract-ocr-eng
maitintojas

Debian'e patariu juos įdiegti neįdiegus rekomenduojamų programinių programų:

sudo apt-get --no-install-recommends install ocrfeeder tesseract-ocr-spa tesseract-ocr

Jei turime vaizdą (nuskaitytą dokumentą), kuriame raidė įskaitoma, tekstą bus galima atpažinti maždaug 90 proc. Atvejų, lentelės nebus atpažintos. Jei paveikslėlyje yra 2 stulpeliai, jis automatiškai atpažins stulpelį, tada kitą, kad būtų išlaikyta teksto tvarka.

Yra du būdai atpažinti tekstą: vienas per komandą eilutėje terminale arba per ocrfeeder, pastarasis pareikalaus daugiau apdorojimo laiko:

Komandinės eilutės metodas:

tesseract "/entrada/fichero.jpg" "/salida/fichero.txt" -l spa -psm 3

Norėdami konvertuoti kelis vaizdus, naudosime šią komandą:

cd /carpeta/imagenes find ./ -name "*.jpg" | sort | while read file; do tesseract "$file" "`basename "$file" | sed 's/\.[[:alnum:]]*$//'`.txt" -l spa -psm 3; done

Norėdami prisijungti prie gautų tekstinių failų minėtame aplanke, naudosime šią komandą, su kuria pastraipos bus sujungtos teisingai.

cd /carpeta/imagenes find ./ -name "*.txt" | sort | while read file; do cat "$file" | sed 's|^$|##|g' | tr '\n' " " | tr '##' "\n" >> Texto-unido.txt; done

Metodas su ocrfeeder:
1- Mes atidarome ocrfeeder programą.
2 - Mes redaguojame variklį spustelėdami Įrankiai - OCR varikliai, mes pasirenkame eseract variklį ir spustelėkite Redaguoti, o ten, kur sakoma variklio argumentai, pakeičiame šio scenarijų:

$IMAGE $FILE -l spa -psm 3 > /dev/null 2> /dev/null; cat $FILE.txt; rm $FILE $FILE.txt

3- Mes importuojame vaizdą ar aplanką, kuriame yra keli vaizdai.
4 - Spustelėjame identifikuoti dokumentą. Kai dokumentas bus atpažintas, rankiniu būdu galėsite pasirinkti, kurios jo dalys bus vaizdai ar tekstas.
5 - Prieš eksportuodami dokumentą, mes spustelėkite Redaguoti - Redaguoti puslapį, mes pasirenkame norimą puslapį, dažniausiai yra raidė (raidė).
6 - Norėdami eksportuoti dokumentą, spustelėkite File - Export, mes pasirenkame norimą išvesties formatą, jei dokumente yra vaizdų, patariu jums naudoti odt arba html formatą, jei tai tik tekstas, geriausia naudoti paprastą tekstą ( txt) formatas.

Čia viskas nesibaigia, nes yra daugybė netinkamos kokybės fotokopijų. Norėdami jas ištaisyti, naudosime gimpą ir reljefinį filtrą (šis procesas gali būti lėtas):
1- Mes atidarome vaizdą su gimp.
2 - Spustelėjame „Filtrai - iškraipymai - reljefas“, pažymime žemėlapio langelį, pakoreguojame azimuto lygius maždaug iki 162,25, aukštį iki 88,73 ir gylį iki 6 arba 3. Mes išsaugome vaizdą 100% kokybe, jei jis yra JPG, eksportuojant - pavadinimas.jpg.

Pasirinktinai galite reguliuoti baltos spalvos lygius spustelėdami Spalvos - Lygiai - automatinis.

DesdeLinux

Sužinokite, kaip teisingai atpažinti paveikslėlyje esantį tekstą naudojant „tesseract“ ir „ocrfeeder“.