NLLB, AI של Facebook לתרגום טקסט ישיר

לאחרונה פייסבוק נחשף באמצעות פרסום ההתפתחויות של ה פרויקט NLLB (No Language Left Behind), שמטרתו ליצור מודל למידת מכונה אוניברסלי לתרגום ישיר טקסט משפה אחת לאחרת, תוך עקיפת תרגום הביניים לאנגלית.

המודל המוצע מכסה למעלה מ-200 שפות, כולל שפות אפריקאיות ואוסטרליות נדירות והמטרה הסופית של הפרויקט היא לספק אמצעי תקשורת לכל האנשים, ללא קשר לשפה שהם מדברים.

כדי לעזור לאנשים להתחבר טוב יותר היום ולהיות חלק מהמטא-ורס של מחר, חוקרי Meta AI יצרו את No Language Left Behind (NLLB), מאמץ לפתח יכולות תרגום מכונה באיכות גבוהה עבור רוב שפות העולם.

היום אנו מכריזים על התקדמות משמעותית ב-NLLB: יצרנו מודל AI יחיד בשם NLLB-200., שמתרגם 200 שפות שונות עם תוצאות חדשניות. רבות מהשפות הללו, כמו קמבה ​​ולאו, לא נתמכו אפילו על ידי כלי התרגום הטובים ביותר הקיימים כיום.

לגבי הפרויקט מוזכר שכן נועד לפשט את יצירת הפרויקטים תוך שימוש במודל המוצע, קוד היישום המשמש לבדיקה והערכת איכות המודלים (FLORES-200, NLLB-MD, Toxicity-200), קוד ההדרכה של המודל ומקודדים המבוססים על ספריית LASER3 (ייצוג תוכנה אגנוסטי של הביטוי). הדגם הסופי מוצע בשתי גרסאות: מלא ומופחת. הגרסה המוקטנת דורשת פחות משאבים ומתאימה לבדיקה ושימוש בפרויקטי מחקר.

פחות מ-25 שפות אפריקאיות נתמכות כיום על ידי כלי תרגום בשימוש נרחב, שרבים מהם באיכות ירודה. לעומת זאת, NLLB-200 תומך ב-55 שפות אפריקאיות עם פלט באיכות גבוהה. בסך הכל, המודל הייחודי הזה יכול לספק תרגומים באיכות גבוהה לשפות המדוברות על ידי מיליארדי אנשים ברחבי העולם. בסך הכל, ציוני NLLB-200 BLEU משתפרים בהשוואה למצב הקודם ב-44 אחוזים בממוצע בכל 10 הכיוונים של רף FLORES-101. עבור חלק מהשפות האפריקאיות וההודיות, הגידול הוא יותר מ-70 אחוז ביחס למערכות התרגום האחרונות.

בניגוד למערכות תרגום אחרות למידת מכונה, הפתרון של פייסבוק בולט בכך שהוא מציע מודל משותף לכל 200 השפות, המכסה את כל השפות ואינו דורש דגמים נפרדים לכל שפה.

התרגום מתבצע ישירות משפת המקור לשפת היעד, ללא תרגום ביניים לאנגלית. ליצירת מערכות תרגום אוניברסליות, מוצע מודל LID (זיהוי שפה) נוסף, המאפשר לקבוע את השפה שבה נעשה שימוש. הָהֵן. המערכת יכולה לזהות אוטומטית את השפה שבה המידע מסופק ולתרגם אותו לשפת המשתמש.

תרגום נתמך בכל כיוון, בין כל אחת מ-200 השפות הנתמכות. כדי לאשר את איכות התרגום בין כל שפה, הוכן ערכת בדיקות הבנצ'מרק FLORES-200, שהראה כי דגם NLLB-200, מבחינת איכות התרגום, עדיף בממוצע ב-44% על מערכות FLORES-70. הציע מחקר המבוסס על למידת מכונה בעת שימוש במדדי BLEU המשווים תרגום מכונה לתרגום אנושי סטנדרטי. עבור שפות אפריקאיות נדירות ודיאלקטים הודיים, העליונות באיכות מגיעה ל-XNUMX%. אתה יכול להעריך חזותית את איכות התרגום באתר הדגמה שהוכן במיוחד.

למי שמתעניין בפרויקט, כדאי לדעת כי הדגם זמין תחת רישיון Creative Commons BY-NC 4.0, המאפשר העתקה, הפצה, הכללה בפרויקטים שלך ויצירת יצירות נגזרות, אך בכפוף לייחוס, שמירת רישיון ושימוש למטרות לא מסחריות בלבד. כלי הדוגמנות מורשה תחת רישיון MIT. כדי לעורר פיתוח באמצעות מודל NLLB, הוחלט להקצות 200$ להענקת מלגות לחוקרים.

בסופו של דבר אם אתה מעוניין לדעת יותר על כך לגבי ההערה, אתה יכול לבדוק את ההודעה המקורית בקישור הבא.


השאירו את התגובה שלכם

כתובת הדוא"ל שלך לא תפורסם. שדות חובה מסומנים *

*

*

  1. אחראי לנתונים: מיגל אנחל גטון
  2. מטרת הנתונים: בקרת ספאם, ניהול תגובות.
  3. לגיטימציה: הסכמתך
  4. מסירת הנתונים: הנתונים לא יועברו לצדדים שלישיים אלא בהתחייבות חוקית.
  5. אחסון נתונים: מסד נתונים המתארח על ידי Occentus Networks (EU)
  6. זכויות: בכל עת תוכל להגביל, לשחזר ולמחוק את המידע שלך.