מוזילה מציגה מנוע זיהוי דיבור 0.9 DeepSpeech

DeepSpeech 1

ההשקה פורסמה מנוע זיהוי קולי DeepSpeech 0.9 שפותח על ידי מוזילה, המיישמת את הארכיטקטורה של זיהוי דיבור באותו שם שהוצעו על ידי חוקרי באידו.

היישום נכתב בפייתון באמצעות פלטפורמת הלמידה המכונה TensorFlow ומופץ ברישיון MPL 2.0 בחינם.

אודות DeepSpeech

DeepSpeech מורכב משתי תת מערכות: דגם אקוסטי ומפענח. המודל האקוסטי משתמש בטכניקות למידת מכונה עמוקה כדי לחשב את ההסתברות שתווים מסוימים נמצאים בקול הקלט.

המפענח משתמש באלגוריתם של חיפוש קרניים כדי להפוך את נתוני הסתברות התווים לייצוג טקסטואלי. DeepSpeech הוא פשוט בהרבה ממערכות מסורתיות ובו בזמן מספק זיהוי איכותי יותר בנוכחות רעש זר.

הפיתוח אינו משתמש במודלים אקוסטיים מסורתיים וברעיון פונמות; במקום זאת, משתמשים במערכת למידת מכונה עצבית המבוססת על רשת עצבית המותאמת היטב, אשר מבטלת את הצורך בפיתוח רכיבים נפרדים כדי לדגם חריגות שונות כגון מאפייני רעש, הד ודיבור.

הערכה מציע דגמים מאומנים, קבצי סאונד לדוגמא וכלי זיהוי שורת פקודה.

הדגם המוגמר מסופק לאנגלית ולסינית בלבד. עבור שפות אחרות, תוכלו ללמוד את המערכת בעצמכם על פי ההוראות המצורפות, תוך שימוש בנתונים הקוליים שנאספו על ידי פרויקט Common Voice.

כאשר נעשה שימוש במודל המוכן לשימוש של השפה האנגלית המוצעת להורדה, רמת שגיאות הזיהוי ב- DeepSpeech היא 7.06% בהערכה באמצעות חבילת הבדיקות LibriSpeech.

לשם השוואה, אחוז שגיאות ההכרה האנושית נאמד ב -5,83%.

במודל המוצע, תוצאת ההכרה הטובה ביותר מושגת עם הקלטה נקייה של קול גברי עם מבטא אמריקאי בסביבה ללא רעשים זרים.

לדברי מחבר הספרייה לזיהוי דיבור רציף Vosk, החסרונות של מערכת הקול המשותף הם החד-צדדיות של חומר הדיבור (השליטה בגברים בשנות ה -20 וה -30 לחייהם והיעדר חומר בקולן של נשים, ילדים ו קשישים), היעדר השתנות אוצר המילים (חזרה על אותם ביטויים) והפצת הקלטות MP3 המועדות לעיוות.

החסרונות של DeepSpeech כוללים ביצועים גרועים וצריכת הזיכרון הגבוהה במפענח, כמו גם משאבים חשובים להכשרת הדגם (מוזילה משתמשת במערכת עם 8 Quadro RTX 6000 GPU עם 24 GB VRAM בכל אחד מהם).

החיסרון בגישה זו הוא בכך להכרה והכשרה איכותית של רשת עצבית, מנוע DeepSpeech דורש כמות גדולה של נתונים הטרוגנית המוכתבת בתנאים אמיתיים על ידי קולות שונים ובנוכחות רעשים טבעיים.

נתונים אלה נערכו על ידי פרויקט Common Voice שנוצר במוזילה, המספק מערך נתונים מאומת עם 1469 שעות באנגלית, 692 בגרמנית, 554 בצרפתית, 105 שעות ברוסית ו 22 שעות באוקראינית.

בעת הכשרת המודל האנגלי הסופי עבור DeepSpeech, בנוסף ל- Common Voice, נעשה שימוש גם בנתונים מפרויקטי LibriSpeech, Fisher ו- Switchboard, וכן כ- 1700 שעות הקלטות של תוכניות רדיו מתומללות.

בין השינויים בסניף החדש, האפשרות לכפות את משקל המילים מודגשת נבחר במהלך תהליך הפענוח.

זה גם מדגיש את התמיכה בפלטפורמת Electron 9.2 ויישום אופציונלי של מנגנון הנורמליזציה של השכבה (Layer Norm) בעת אימון הרשת העצבית.

הורד וקבל

הביצועים מספיקים לשימוש במנוע בלוחות LePotato, Raspberry Pi 3 ו- Raspberry Pi 4, כמו גם בסמארטפונים של Google Pixel 2, Sony Xperia Z Premium ו- Nokia 1.3.

מוצעים מודולים מוכנים לשימוש עבור Python, NodeJS, C ++ ו- .NET לשילוב פונקציות זיהוי דיבור בתוכניות שלך (מפתחי צד שלישי הכינו מודולים בנפרד עבור Rust, Go ו- V).


היה הראשון להגיב

השאירו את התגובה שלכם

כתובת הדוא"ל שלך לא תפורסם. שדות חובה מסומנים *

*

*

  1. אחראי לנתונים: מיגל אנחל גטון
  2. מטרת הנתונים: בקרת ספאם, ניהול תגובות.
  3. לגיטימציה: הסכמתך
  4. מסירת הנתונים: הנתונים לא יועברו לצדדים שלישיים אלא בהתחייבות חוקית.
  5. אחסון נתונים: מסד נתונים המתארח על ידי Occentus Networks (EU)
  6. זכויות: בכל עת תוכל להגביל, לשחזר ולמחוק את המידע שלך.