למד כיצד לזהות נכון טקסט מתמונה באמצעות tesseract ו-ocrfeeder.

רבים מכם חייבים כבר להכיר את התוכניות לזיהוי תווים אופטיים (OCR), אם כן, נתקלתם בכמה שאינם מזהים תווים אופייניים לשפה הספרדית כמו למשל eñe, tílde (ñ, ó, ü).

עכשיו תודה ל טסראקט ולחבילה tesseract-ocr-eng נוכל לזהות את הדמויות הללו ונראה כיצד לטפל בתמונות מסוימות בהן רמות הצבע או הפיקסלים אינן נכונות.

ראשית עלינו להתקין את התוכניות הבאות:

tesseract-ocr
tesseract-ocr-eng
ocrfeeder

בדביאן אני ממליץ לך להתקין אותם מבלי להתקין את התוכנות המומלצות:

sudo apt-get --no-install-recommends install ocrfeeder tesseract-ocr-spa tesseract-ocr

אם יש לנו תמונה (מסמך סרוק) שהאות בה קריאה, ניתן יהיה לזהות את הטקסט בכ- 90% מהמקרים, הטבלאות לא יזוהו, אם בתמונה יש 2 עמודות היא תזהה אוטומטית עמודה תחילה ואז השנייה כדי לשמור על סדר הטקסט.

ישנן שתי דרכים לזהות את הטקסט, אחת דרך שורת הפקודה במסוף או דרך ocrfeeder, זו האחרונה תדרוש זמן עיבוד רב יותר:

שיטת שורת פקודה:

tesseract "/entrada/fichero.jpg" "/salida/fichero.txt" -l spa -psm 3

להמרה של מספר תמונות נשתמש בפקודה הבאה:

cd /carpeta/imagenes find ./ -name "*.jpg" | sort | while read file; do tesseract "$file" "`basename "$file" | sed 's/\.[[:alnum:]]*$//'`.txt" -l spa -psm 3; done

כדי להצטרף לקבצי הטקסט המתקבלים בתיקייה האמורה נשתמש בפקודה הבאה שאיתה יצטרפו הפסקאות כהלכה.

cd /carpeta/imagenes find ./ -name "*.txt" | sort | while read file; do cat "$file" | sed 's|^$|##|g' | tr '\n' " " | tr '##' "\n" >> Texto-unido.txt; done

שיטה עם ocrfeeder:
1- אנו פותחים את תוכנית ocrfeeder.
2- אנו עורכים את המנוע בלחיצה על כלים - מנועי OCR, בוחרים את מנוע esseract ולוחצים על עריכה, ובמקום בו כתוב ארגומנטים של מנוע, אנו משנים את התסריט עבור זה:

$IMAGE $FILE -l spa -psm 3 > /dev/null 2> /dev/null; cat $FILE.txt; rm $FILE $FILE.txt

3- אנו מייבאים תמונה או תיקיה שיש בה מספר תמונות.
4- אנו לוחצים על זיהוי מסמך, לאחר זיהוי המסמך תוכלו לבחור ידנית אילו חלקים ממנו יהיו תמונות או טקסט.
5- לפני ייצוא המסמך נלחץ על עורך - ערוך דף, אנו בוחרים את העמוד הרצוי, הנפוץ ביותר הוא אות (אות).
6- כדי לייצא את המסמך אנו לוחצים על קובץ - ייצוא, אנו בוחרים את תבנית הפלט הרצויה, אם למסמך יש תמונות אני ממליץ לכם להשתמש בפורמט odt או html, אם זה רק טקסט עדיף להשתמש בטקסט רגיל ( פורמט txt).

זה לא נגמר כאן מכיוון שיש הרבה צילומים שאיכותם אינה מספקת, כדי לתקן אותם נשתמש בגימפ ובמסנן המוטבע (תהליך זה יכול להיות איטי):
1- אנו פותחים את התמונה עם הגימפ.
2- אנו לוחצים על מסננים - עיוותים - הבלטה, אנו בוחרים את תיבת המפה הבולטת, אנו מכוונים את רמות האזימוט לכ- 162,25, גובה ל 88,73 ועומק ל 6 או 3. אנו שומרים את התמונה באיכות של 100% אם היא jpg, בייצוא - name.jpg.

לחלופין, ניתן לכוונן את רמות הלבן על ידי לחיצה על צבעים - רמות - אוטומטי.

DesdeLinux

למד כיצד לזהות נכון טקסט בתמונה עם טטרסקט ואוקריפדרר.