एनएलएलबी, प्रत्यक्ष पाठ अनुवाद के लिए एक फेसबुक एआई

हाल ही में फेसबुक का अनावरण किया के विकास के एक प्रकाशन के माध्यम से एनएलएलबी परियोजना (कोई भाषा नहीं बची है), जिसका उद्देश्य बनाना है अनुवाद के लिए एक सार्वभौमिक मशीन लर्निंग मॉडल अंग्रेजी में मध्यवर्ती अनुवाद को दरकिनार करते हुए एक भाषा से दूसरी भाषा में सीधे पाठ।

प्रस्तावित मॉडल दुर्लभ अफ्रीकी और ऑस्ट्रेलियाई भाषाओं सहित 200 से अधिक भाषाओं को शामिल करता है और परियोजना का अंतिम लक्ष्य सभी लोगों के लिए संचार का एक साधन प्रदान करना है, चाहे वे किसी भी भाषा में बात करें।

लोगों को आज बेहतर तरीके से कनेक्ट करने और कल के मेटावर्स का हिस्सा बनने में मदद करने के लिए, मेटा एआई शोधकर्ताओं ने नो लैंग्वेज लेफ्ट बिहाइंड (एनएलएलबी) बनाया, जो दुनिया की अधिकांश भाषाओं के लिए उच्च गुणवत्ता वाली मशीन अनुवाद क्षमताओं को विकसित करने का प्रयास है।

आज हम एनएलएलबी में एक बड़ी प्रगति की घोषणा कर रहे हैं: हमने एनएलएलबी-200 नामक एक एकल एआई मॉडल बनाया है, जो अत्याधुनिक परिणामों के साथ 200 विभिन्न भाषाओं का अनुवाद करता है। इनमें से कई भाषाएँ, जैसे कम्बा और लाओ, आज भी उपलब्ध सर्वोत्तम अनुवाद उपकरणों द्वारा समर्थित नहीं थीं।

परियोजना के बारे में यह उल्लेख किया गया है कि यह है प्रस्तावित मॉडल का उपयोग करके परियोजनाओं के निर्माण को सरल बनाने का इरादा है, मॉडल की गुणवत्ता का परीक्षण और मूल्यांकन करने के लिए उपयोग किया जाने वाला एप्लिकेशन कोड (FLORES-200, NLLB-MD, Toxicity-200), मॉडल प्रशिक्षण कोड और LASER3 लाइब्रेरी (मुहावरे का अज्ञेय सॉफ्टवेयर प्रतिनिधित्व) पर आधारित एन्कोडर। अंतिम मॉडल दो संस्करणों में पेश किया गया है: पूर्ण और कम। कम किए गए संस्करण के लिए कम संसाधनों की आवश्यकता होती है और यह अनुसंधान परियोजनाओं में परीक्षण और उपयोग के लिए उपयुक्त है।

25 से कम अफ्रीकी भाषाएं वर्तमान में व्यापक रूप से उपयोग किए जाने वाले अनुवाद टूल द्वारा समर्थित हैं, जिनमें से कई खराब गुणवत्ता के हैं। इसके विपरीत, NLLB-200 उच्च गुणवत्ता वाले आउटपुट के साथ 55 अफ्रीकी भाषाओं का समर्थन करता है। कुल मिलाकर, यह अनूठा मॉडल दुनिया भर के अरबों लोगों द्वारा बोली जाने वाली भाषाओं के लिए उच्च गुणवत्ता वाले अनुवाद प्रदान कर सकता है। कुल मिलाकर, NLLB-200 BLEU स्कोर फ्लोर्स-44 बेंचमार्क के सभी 10k दिशाओं में कला की पिछली स्थिति में औसतन 101 प्रतिशत का सुधार करता है। कुछ अफ्रीकी और भारतीय भाषाओं के लिए, हाल की अनुवाद प्रणालियों की तुलना में यह वृद्धि 70 प्रतिशत से अधिक है।

अन्य मशीन लर्निंग ट्रांसलेशन सिस्टम के विपरीत, Facebook का समाधान सभी 200 भाषाओं के लिए एक सामान्य मॉडल पेश करने के लिए विशिष्ट है, जिसमें सभी भाषाएं शामिल हैं और प्रत्येक भाषा के लिए अलग मॉडल की आवश्यकता नहीं है।

अंग्रेजी में मध्यवर्ती अनुवाद के बिना, अनुवाद सीधे स्रोत भाषा से लक्ष्य भाषा में किया जाता है। सार्वभौमिक अनुवाद प्रणाली बनाने के लिए, एक अतिरिक्त एलआईडी (भाषा पहचान) मॉडल प्रस्तावित है, जो इस्तेमाल की जाने वाली भाषा को निर्धारित करने की अनुमति देता है। वे। सिस्टम स्वचालित रूप से उस भाषा को पहचान सकता है जिसमें जानकारी प्रदान की जाती है और इसे उपयोगकर्ता की भाषा में अनुवादित किया जाता है।

अनुवाद किसी भी दिशा में समर्थित है, 200 समर्थित भाषाओं में से किसी के बीच। किसी भी भाषा के बीच अनुवाद की गुणवत्ता की पुष्टि करने के लिए, FLORES-200 बेंचमार्क टेस्ट सेट तैयार किया गया था, जिससे पता चला कि NLLB-200 मॉडल, अनुवाद गुणवत्ता के मामले में, औसतन 44% FLORES-70 सिस्टम से बेहतर है। मशीनी अनुवाद की तुलना मानक मानव अनुवाद से करने वाले BLEU मेट्रिक्स का उपयोग करते समय मशीन लर्निंग पर आधारित प्रस्तावित शोध। दुर्लभ अफ्रीकी भाषाओं और भारतीय बोलियों के लिए, गुणवत्ता में श्रेष्ठता XNUMX% तक पहुँच जाती है। आप विशेष रूप से तैयार डेमो साइट पर अनुवाद की गुणवत्ता का नेत्रहीन मूल्यांकन कर सकते हैं।

परियोजना में रुचि रखने वालों के लिए, उन्हें पता होना चाहिए कि मॉडल क्रिएटिव कॉमन्स BY-NC 4.0 लाइसेंस के तहत उपलब्ध है, जो आपकी परियोजनाओं में नकल, वितरण, समावेशन और व्युत्पन्न कार्यों के निर्माण की अनुमति देता है, लेकिन केवल गैर-व्यावसायिक उद्देश्यों के लिए एट्रिब्यूशन, लाइसेंस प्रतिधारण और उपयोग के अधीन है। मॉडलिंग टूल को MIT लाइसेंस के तहत लाइसेंस दिया गया है। एनएलएलबी मॉडल का उपयोग करके विकास को प्रोत्साहित करने के लिए, शोधकर्ताओं को छात्रवृत्ति प्रदान करने के लिए 200 डॉलर आवंटित करने का निर्णय लिया गया।

अंत में यदि आप इसके बारे में अधिक जानने में रुचि रखते हैं नोट के बारे में, आप मूल पोस्ट का उल्लेख कर सकते हैं निम्नलिखित लिंक में


पहली टिप्पणी करने के लिए

अपनी टिप्पणी दर्ज करें

आपका ईमेल पता प्रकाशित नहीं किया जाएगा। आवश्यक फ़ील्ड के साथ चिह्नित कर रहे हैं *

*

*

  1. डेटा के लिए जिम्मेदार: मिगुएल elngel Gatón
  2. डेटा का उद्देश्य: नियंत्रण स्पैम, टिप्पणी प्रबंधन।
  3. वैधता: आपकी सहमति
  4. डेटा का संचार: डेटा को कानूनी बाध्यता को छोड़कर तीसरे पक्ष को संचार नहीं किया जाएगा।
  5. डेटा संग्रहण: ऑकेंटस नेटवर्क्स (EU) द्वारा होस्ट किया गया डेटाबेस
  6. अधिकार: किसी भी समय आप अपनी जानकारी को सीमित, पुनर्प्राप्त और हटा सकते हैं।