הם פרסמו את קוד המקור של Whisper, מערכת זיהוי דיבור אוטומטית

Whisper

Whisper היא מערכת זיהוי דיבור אוטומטית

הפרויקט לאחרונה OpenAI, המפתחת פרויקטים ציבוריים בתחום הבינה המלאכותית, פרסם חדשות הקשורים למערכת הזיהוי הקולי לַחַשׁ, שהוא א מערכת זיהוי דיבור אוטומטית (ASR) מאומן על 680.000 שעות של נתונים בפיקוח רב לשוני, ריבוי משימות, שנאספו מהאינטרנט.

נטען כי לדיבור באנגלית, המערכת מספקת רמות של אמינות ודיוק זיהוי אוטומטי קרוב לזיהוי אנושי.

אנו מראים ששימוש במערך נתונים כה גדול ומגוון מוביל לחוסן רב יותר בהדגשים, רעשי רקע ושפה טכנית. בנוסף, הוא מאפשר תמלול בשפות שונות, כמו גם תרגום של שפות אלו לאנגלית. אנחנו מודלים של קוד פתוח וקוד מסקנות המשמשים כבסיס לבניית יישומים שימושיים ולמחקר עתידי על עיבוד דיבור חזק.

על הדגם (כפי שכבר צוין) מאומן תוך שימוש ב-680 שעות של נתוני קול שנאספו מאוספים שונים המכסים שפות ותחומי נושא שונים. כ-1/3 מנתוני הקול המעורבים באימון הם בשפות שאינן אנגלית.

המערכת המוצעת מטפל נכון במצבים כגון הגייה מודגשת, נוכחות רעשי רקע ושימוש בז'רגון טכני. בנוסף לתמלול דיבור לטקסט, המערכת יכולה גם לתרגם דיבור משפה שרירותית לאנגלית ולזהות את הופעת הדיבור בזרם האודיו.

המודלים מאומנים בשני ייצוגים: מודל לשפה האנגלית ומודל רב לשוני התומך בשפות ספרדית, רוסית, איטלקית, גרמנית, יפנית, אוקראינית, בלארוסית, סינית ועוד. בתורו, כל תצוגה מחולקת ל-5 אפשרויות, הנבדלות בגודל ובמספר הפרמטרים המכוסים במודל.

ארכיטקטורת Whisper היא גישה פשוטה מקצה לקצה, המיושמת כשנאי מקודד-מפענח. אודיו הקלט מחולק לנתחים של 30 שניות, מומר לספקטרוגרמה log-Mel, ולאחר מכן מועבר למקודד. מפענח מאומן לחזות את כתובית הטקסט המקבילה, משובצת באסימונים מיוחדים המכוונים את המודל הייחודי לבצע משימות כגון זיהוי שפה, חותמות זמן ברמת המשפט, תמלול דיבור רב לשוני ותרגום דיבור לאנגלית.

ככל שהגודל גדול יותר, כך דיוק ואיכות הזיהוי גבוהים יותר, אך גם הדרישות לגודל זיכרון הווידאו GPU גבוהות יותר והביצועים נמוכים יותר. לדוגמה, האופציה המינימלית כוללת 39 מיליון פרמטרים ודורשת 1 GB של זיכרון וידאו, בעוד שהאופציה המקסימלית כוללת 1550 מיליארד פרמטרים ודורשת 10 GB של זיכרון וידאו. הגרסה המינימלית מהירה פי 32 מהמקסימום.

המערכת משתמשת בארכיטקטורת הרשת הנוירונית "שנאי", הכולל מקודד ומפענח המקיימים אינטראקציה זה עם זה. האודיו מחולק לנתחים של 30 שניות, המומרים לספקטרוגרמה log-Mel ונשלחים למקודד.

התוצאה של עבודת המקודד נשלחת למפענח, אשר מנבא ייצוג טקסט מעורבב עם אסימונים מיוחדים המאפשרים לפתור משימות כמו זיהוי שפה, חשבונאות כרונולוגית של הגיית משפטים, תמלול דיבור בשפות שונות ותרגום לאנגלית במודל כללי.

ראוי להזכיר כי הביצועים של Whisper משתנים מאוד בהתאם לשפה, ולכן מי שמציגה הבנה טובה יותר היא האנגלית, שיש לה ארבע גרסאות באנגלית בלבד, שכמו שאר הדגמים של השפות האחרות מציעות יתרונות וחסרונות של מהירות ודיוק.

בסופו של דבר אם אתה מעוניין לדעת יותר על כך, תוכל לבדוק את הפרסום המקורי ב קישור זה, בעוד שאם אתה מעוניין בקוד המקור ובדגמים המאומנים תוכל להתייעץ איתם בכתובת הקישור הזה.

קוד יישום עזר המבוסס על מסגרת PyTorch ומערכת של מודלים שכבר עברו הכשרה פתוחים ומוכנים לשימוש. הקוד הוא קוד פתוח תחת רישיון MIT וכדאי להזכיר שנדרש שימוש בספריית ffmpeg.


השאירו את התגובה שלכם

כתובת הדוא"ל שלך לא תפורסם. שדות חובה מסומנים *

*

*

  1. אחראי לנתונים: מיגל אנחל גטון
  2. מטרת הנתונים: בקרת ספאם, ניהול תגובות.
  3. לגיטימציה: הסכמתך
  4. מסירת הנתונים: הנתונים לא יועברו לצדדים שלישיים אלא בהתחייבות חוקית.
  5. אחסון נתונים: מסד נתונים המתארח על ידי Occentus Networks (EU)
  6. זכויות: בכל עת תוכל להגביל, לשחזר ולמחוק את המידע שלך.