Léiert wéi Dir Text korrekt an engem Bild mat Tesseract an Ocrfeeder erkennt.

Vill vun Iech musse schonn déi optesch Charaktererkennungsprogrammer kennen (OCR) Programmer, wann esou, sidd Dir op e puer gestouss déi keng Zeeche typesch fir déi spuenesch Sprooch erkennen wéi eñe, tílde ënner anerem (ñ, ó, ü).

Elo merci fir tesseract an op de Package tesseract-ocr-spa Mir kënnen dës Zeechen erkennen a mir wäerte kucken wéi verschidde Biller behandelen, wou d'Faarf- oder Pixelniveau net korrekt sinn.

Als éischt musse mir folgend Programmer installéieren:

tesseract-ocr
tesseract-ocr-spa
ocrfeeder

Zu Debian roden ech Iech se z'installéieren ouni déi recommandéiert Software ze installéieren:

sudo apt-get --no-install-recommends install ocrfeeder tesseract-ocr-spa tesseract-ocr

Wa mir e Bild (gescannt Dokument) hunn an deem de Buschtaf liesbar ass, ass et méiglech den Text an ongeféier 90% vun de Fäll ze erkennen, d'Tabelle ginn net unerkannt, wann d'Bild 2 Kolonnen huet, erkennt et automatesch eng Kolonn als éischt an dann deen aneren fir den Optrag vum Text z'erhalen.

Et ginn 2 Weeër fir den Text ze erkennen, een duerch d'Command Line an engem Terminal oder duerch ocrfeeder, dee brauch méi Veraarbechtungszäit:

Kommandozeilemethod:

tesseract "/entrada/fichero.jpg" "/salida/fichero.txt" -l spa -psm 3

Fir d'Konversioun vu méi Biller benotze mir de folgenden Kommando:

cd /carpeta/imagenes
find ./ -name "*.jpg" | sort | while read file; do tesseract "$file" "`basename "$file" | sed 's/\.[[:alnum:]]*$//'`.txt" -l spa -psm 3; done

Fir mat de resultéierenden Textdateien an deem Dossier matzemaachen, benotze mir de folgenden Kommando mat deem d'Paragrafe richteg ugeschloss ginn.

cd /carpeta/imagenes
find ./ -name "*.txt" | sort | while read file; do cat "$file" | sed 's|^$|##|g' | tr '\n' " " | tr '##' "\n" >> Texto-unido.txt; done

Method mat ocrfeeder:
1- Mir maachen den ocrfeeder Programm op.
2- Mir änneren de Motor andeems Dir op Tools - OCR Engines klickt, wielt den Esseract Motor a klickt op Edit, a wou et Motorgargumenter seet, änneren mir de Skript fir dës:

$IMAGE $FILE -l spa -psm 3 > /dev/null 2> /dev/null; cat $FILE.txt; rm $FILE $FILE.txt

3- Mir importéieren e Bild oder en Ordner wou et e puer Biller sinn.
4- Mir klickt op Identifikatiounsdokument, wann d'Dokument eemol identifizéiert gëtt, kënnt Dir manuell auswielen wéi eng Deeler dovun Biller oder Text sinn.
5- Ier Dir d'Dokument exportéiert klickt op Edit - Edit Säit, wielt déi gewënschte Säit, am heefegste ass de Buschtaf.
6- Fir d'Dokument ze exportéieren klickt mir op Datei - Export, mir wielt dat gewënschten Ausgangsformat, wann d'Dokument Biller huet Ech roden Iech den odt oder html Format ze benotzen, wann et nëmmen Text ass ass et am beschten de Plain Text (txt) Format ze benotzen .

Dëst hält net hei op well et gi vill Fotokopien déi hir Qualitéit net adäquat ass, fir dës ze reparéieren benotze mir de Gimp an de geprägte Filter (Dëse Prozess ka lues sinn):
1- Mir maachen d'Bild mam Gimp op.
2- Mir klickt op Filters - Verzerrungen - Embossing, Mir wielt de Bump Map Box, mir passen den Azimutniveau op ongeféier 162,25, Héicht op 88,73 an d'Tiefe op 6 oder 3. Mir späicheren d'Bild mat 100% Qualitéit wann et jpg ass, am Export - name.jpg.

Optional kënnt Dir déi wäiss Niveauen upassen andeems Dir op Faarwen - Levels - Auto klickt.


Den Inhalt vum Artikel hält sech un eis Prinzipie vun redaktionnell Ethik. Fir e Feeler ze mellen klickt hei.