Diajar kumaha leres ngaidentipikasi téks dina gambar nganggo tesseract sareng ocrfeeder.

Seueur anjeun kedah parantos terang program pangenal karakter optik (OCR), upami kitu, anjeun parantos mendakan sababaraha anu henteu mikawanoh karakter anu khas tina basa Spanyol sapertos eñe, tílde sareng anu sanésna (ñ, ó, ü).

Ayeuna berkat tesseract sareng kana bungkusan tesseract-ocr-eng Urang bakal tiasa mikawanoh karakter ieu sareng urang bakal ningali kumaha ngubaran gambar anu tangtu dimana tingkat warna atanapi pikselna henteu leres.

Mimiti urang kedah masang program ieu:

tesseract-ocr
tesseract-ocr-eng
ocrfeeder

Dina Debian kuring mamatahan anjeun masang éta tanpa masang parangkat lunak anu disarankeun:

sudo apt-get --no-install-recommends install ocrfeeder tesseract-ocr-spa tesseract-ocr

Upami urang ngagaduhan gambar (dokumen anu dipindai) numana hurupna tiasa dibaca, bakal dimungkinkeun pikeun mikawanoh téks sakitar 90% kasus, tabel-tabel moal dikenal, upami gambarna ngagaduhan 2 kolom maka otomatis bakal ngakuan kolom heula teras anu sanésna pikeun ngajaga susunan téks.

Aya 2 cara pikeun mikawanoh téks, salah sahiji ngalangkungan garis paréntah dina terminal atanapi ngalangkungan ocrfeeder, anu terakhir peryogi langkung waktos pamrosésan:

Metode garis paréntah:

tesseract "/entrada/fichero.jpg" "/salida/fichero.txt" -l spa -psm 3

Pikeun konversi sababaraha gambar kami bakal nganggo paréntah ieu:

cd /carpeta/imagenes
find ./ -name "*.jpg" | sort | while read file; do tesseract "$file" "`basename "$file" | sed 's/\.[[:alnum:]]*$//'`.txt" -l spa -psm 3; done

Pikeun ngiluan file téks anu dihasilkeun dina folder éta kami bakal nganggo paréntah ieu anu mana paragrapna bakal ngagabung leres.

cd /carpeta/imagenes
find ./ -name "*.txt" | sort | while read file; do cat "$file" | sed 's|^$|##|g' | tr '\n' " " | tr '##' "\n" >> Texto-unido.txt; done

Metoda sareng ocrfeeder:
1- Urang muka program ocrfeeder.
2- Kami ngédit mesin ku ngaklik Parabot - Mesin OCR, kami milih mesin esseract teras pencét dina éditan, sareng dimana nyatakeun argumen mesin, kami ngarobih skrip pikeun anu ieu:

$IMAGE $FILE -l spa -psm 3 > /dev/null 2> /dev/null; cat $FILE.txt; rm $FILE $FILE.txt

3- Kami ngimpor gambar atanapi folder dimana aya sababaraha gambar.
4- Kami pencét dina ngaidentipikasi dokumén, sakali dokuménna diidéntifikasi anjeun sacara manual tiasa milih bagian mana anu bakal janten gambar atanapi téks.
5- Sateuacan ngekspor dokumén kami pencét dina Edit - Édit halaman, kami milih halaman anu dipikahoyong, anu paling umum nyaéta hurup (surat).
6- Pikeun ngekspor dokumén anu kami klik dina File - Export, kami milih format output anu dipikahoyong, upami dokuménna aya gambar kuring nyarankeun anjeun nganggo format odt atanapi html, upami éta ngan ukur téks anu langkung saé nganggo format Plain Text (txt) .

Ieu henteu réngsé di dieu kusabab aya seueur fotokopi anu kualitasna henteu nyukupan, pikeun ngalereskeun ieu kami bakal nganggo gimp sareng filter anu timbul (prosés ieu tiasa janten laun):
1- Urang muka gambar ku gimp.
2- Urang pencét Saringan - Distortions - Embossing, urang milih kotak peta nabrak, urang ngaluyukeun tingkat azimuth sakitar 162,25, élévasi janten 88,73 sareng jero dugi ka 6 atanapi 3. Kami nyimpen gambar kalayan kualitas 100% upami éta jpg, diekspor - name.jpg.

Opsional anjeun tiasa nyaluyukeun tingkat bodas ku ngaklik Warna - Tingkat - otomatis.


Eusi tulisan taat kana prinsip urang tina étika éditorial. Pikeun ngalaporkeun kasalahan klik di dieu.