Uzziniet, kā pareizi atpazīt tekstu attēlā, izmantojot tesseract un ocrfeeder.

Daudziem no jums jau jāzina optisko rakstzīmju atpazīšanas (OCR) programmas, ja tā, tad esat saskāries ar dažām, kas neatpazīst spāņu valodai raksturīgas rakstzīmes, piemēram, eñe, tílde (ñ, ó, ü).

Tagad pateicoties tesseract un uz iepakojumu tesseract-ocr-eng Mēs varēsim atpazīt šīs rakstzīmes un redzēsim, kā rīkoties ar noteiktiem attēliem, ja krāsu vai pikseļu līmenis nav pareizs.

Vispirms mums jāinstalē šādas programmas:

tesserakts-okr
tesseract-ocr-eng
barotava

Debian iesaku tos instalēt, neinstalējot ieteicamās programmatūras:

sudo apt-get --no-install-recommends install ocrfeeder tesseract-ocr-spa tesseract-ocr

Ja mums ir attēls (skenēts dokuments), kurā burts ir salasāms, tekstu būs iespējams atpazīt aptuveni 90% gadījumu, tabulas netiks atpazītas, ja attēlā ir 2 kolonnas, tas vispirms automātiski atpazīs kolonnu un pēc tam otrs, lai saglabātu teksta kārtību.

Ir divi veidi, kā atpazīt tekstu, viens caur komandrindu terminālā vai izmantojot ocrfeeder, pēdējam būs nepieciešams vairāk apstrādes laika:

Komandrindas metode:

tesseract "/entrada/fichero.jpg" "/salida/fichero.txt" -l spa -psm 3

Vairāku attēlu konvertēšanai mēs izmantosim šādu komandu:

cd /carpeta/imagenes
find ./ -name "*.jpg" | sort | while read file; do tesseract "$file" "`basename "$file" | sed 's/\.[[:alnum:]]*$//'`.txt" -l spa -psm 3; done

Lai pievienotos iegūtos teksta failus minētajā mapē, mēs izmantosim šādu komandu, ar kuru rindkopas tiks pareizi savienotas.

cd /carpeta/imagenes
find ./ -name "*.txt" | sort | while read file; do cat "$file" | sed 's|^$|##|g' | tr '\n' " " | tr '##' "\n" >> Texto-unido.txt; done

Metode ar okvedi:
1 - Mēs atveram ocrfeeder programmu.
2 - Mēs rediģējam motoru, noklikšķinot uz Rīki - OCR motori, mēs izvēlamies esseract dzinēju un noklikšķiniet uz Rediģēt, un tur, kur teikts motora argumenti, mēs mainām skriptu šim:

$IMAGE $FILE -l spa -psm 3 > /dev/null 2> /dev/null; cat $FILE.txt; rm $FILE $FILE.txt

3- Mēs importējam attēlu vai mapi, kurā ir vairāki attēli.
4- Mēs noklikšķinām uz Identificēt dokumentu. Kad dokuments ir identificēts, varat manuāli izvēlēties, kuras tā daļas būs attēli vai teksts.
5. Pirms dokumenta eksportēšanas mēs noklikšķinām uz Rediģēt - Rediģēt lapu, mēs izvēlamies vēlamo lapu, visbiežāk sastopamā ir burts (burts).
6. Lai eksportētu dokumentu, noklikšķiniet uz Fails - eksportēt, mēs izvēlamies vēlamo izvades formātu. Ja dokumentā ir attēli, es iesaku jums izmantot odt vai html formātu, ja tas ir tikai teksts, vislabāk ir izmantot vienkāršā teksta (txt) formātu .

Ar to viss nebeidzas, jo ir daudz fotokopiju, kuru kvalitāte nav atbilstoša. Lai to labotu, mēs izmantosim gimp un reljefu filtru (šis process var būt lēns):
1 - Mēs atveram attēlu ar gimp.
2- Mēs noklikšķinām uz Filters - Distortions - Reljefing, mēs atlasām izciļņu kartes lodziņu, mēs pielāgojam azimuta līmeni aptuveni 162,25, augstumu līdz 88,73 un dziļumu līdz 6 vai 3. Mēs saglabājam attēlu ar 100% kvalitāti ja tas ir JPG, eksportā - nosaukums.jpg.

Pēc izvēles jūs varat pielāgot baltās krāsas līmeni, noklikšķinot uz Krāsas - Līmeņi - automātisks.