Baro sida saxda ah ee loo aqoonsado qoraalka ku jira sawir leh tesseract iyo ocrfeeder.

In badan oo idinka mid ah waa inay marhoreba ogaadaan barnaamijyada aqoonsiga dabeecadda (OCR), haddii ay sidaas tahay, waxaad la kulantay qaar aan aqoonsanayn astaamo caan ku ah luuqadda Isbaanishka sida eñe, kuwalde kuwa kale (ñ, ó, ü).

Hada mahadsanid tesseract iyo xirmada Tesseract-ocr- Eng Waan awoodi doonnaa inaan aqoonsanno astaamahan waxaanan arki doonaa sida loola dhaqmo sawirrada qaarkood halkaasoo midabbada ama heerarka pixilku aysan sax ahayn.

Marka hore waa inaan rakibnaa barnaamijyada soo socda:

tesseract-ocr
Tesseract-ocr- Eng
ocrfeederer

Debian-ka waxaan kugula talinayaa inaad rakibtid iyaga oo aan rakibin softwares lagu taliyay:

sudo apt-get --no-install-recommends install ocrfeeder tesseract-ocr-spa tesseract-ocr

Haddii aan hayno sawir (dukumiinti la marsiiyey) oo xarafku yahay mid la akhrin karo, waxaa suurtagal noqon doonta in la aqoonsado qoraalka qiyaastii 90% kiisaska, miisaska lama aqoonsan doono, haddii sawirku leeyahay 2 tiir si toos ah ayuu u aqoonsan doonaa a sadarka marka hore ka dibna kan kale si loo ilaaliyo amarka qoraalka.

Waxaa jira 2 dariiqo oo lagu aqoonsan karo qoraalka, midna iyada oo loo maro qadka amarka ee ku yaal terminaalka ama loo maro ocrfeeder, kan dambe wuxuu u baahan doonaa wakhti dheeri ah:

Habka taliska:

tesseract "/entrada/fichero.jpg" "/salida/fichero.txt" -l spa -psm 3

Beddelashada sawirro badan waxaan u adeegsan doonnaa amarka soo socda:

cd /carpeta/imagenes
find ./ -name "*.jpg" | sort | while read file; do tesseract "$file" "`basename "$file" | sed 's/\.[[:alnum:]]*$//'`.txt" -l spa -psm 3; done

Si aad ugu soo biirto feylasha qoraalka ee galka ku jira waxaan u isticmaali doonaa amarka soo socda kaas oo cutubyada si sax ah loogu biiri doono.

cd /carpeta/imagenes
find ./ -name "*.txt" | sort | while read file; do cat "$file" | sed 's|^$|##|g' | tr '\n' " " | tr '##' "\n" >> Texto-unido.txt; done

Habka ocrfeeder:
1- Waxaan fureynaa barnaamijka ocrfeeder.
2- Waxaan wax ka bedelnaa mashiinka adoo gujinaya Qalabka - OCR Engines, dooro mashiinka jajabinta oo guji wax ka beddelka, iyo halka ay ku leedahay doodaha mashiinka, waxaan u beddeleynaa qoraalka kan:

$IMAGE $FILE -l spa -psm 3 > /dev/null 2> /dev/null; cat $FILE.txt; rm $FILE $FILE.txt

3- Waxaan soo dhoofsaneynaa sawir ama galka ay ku yaalliin dhowr sawir.
4- Waxaan gujineynaa aqoonsiga dukumiintiga, markii dukumeentiga la aqoonsado, waxaad gacanta ku dooran kartaa qeybaha ay noqon doonaan sawirro ama qoraal.
5- Kahor dhoofinta dukumintiga waxaan gujineynaa Tafatir - Tafsiir bogga, waxaan dooranaa bogga la doonayo, midka ugu caansan waa warqad.
6- Si loo dhoofiyo dukumiintiga waxaan gujineynaa Faylka - Dhoofinta, waxaan dooraneynaa qaabka wax soo saar ee la rabo, haddii dukumiintiga uu leeyahay sawirro waxaan kugula talinayaa inaad isticmaasho qaabka odt ama html, haddii ay tahay kaliya qoraalka waxaa ugu wanaagsan in la isticmaalo qoraalka cad ( txt) qaab.

Tani halkan kuma eka maxaa yeelay waxaa jira koobiyo badan oo tayadoodu aysan ku filneyn, si loo dayactiro kuwan waxaan isticmaali doonaa gimp-ka iyo shaandhada shaashadda leh (Nidaamkani wuu gaabin karaa):
1- Waxaan ku furaynaa sawirka gimp.
2- Waxaan gujineynaa Filters - Distortions - Embossing, Waxaan dooranaynaa sanduuqa boodhka boodhka, waxaan ku hagaajinaynaa heerarka azimuth ku dhowaad 162,25, sare u qaadista 88,73 iyo qoto dheer ilaa 6 ama 3. Waxaan ku keydinaa sawirka 100% tayo leh haddii uu jpg dhoofinta - name.jpg.

Ikhtiyaar ahaan waad hagaajin kartaa heerarka cad adoo gujinaya Midabada - Heerarka - auto.