NLLB, थेट मजकूर भाषांतरासाठी Facebook AI

अलीकडे फेसबुक अनावरण केले च्या घडामोडी एका प्रकाशनाद्वारे NLLB प्रकल्प (No Language Left Behind), ज्याचे उद्दिष्ट निर्माण करणे आहे भाषांतरासाठी युनिव्हर्सल मशीन लर्निंग मॉडेल एका भाषेतून दुसऱ्या भाषेत थेट मजकूर, इंग्रजीमध्ये इंटरमीडिएट भाषांतर बायपास करून.

प्रस्तावित मॉडेल दुर्मिळ आफ्रिकन आणि ऑस्ट्रेलियन भाषांसह 200 हून अधिक भाषांचा समावेश आहे आणि प्रकल्पाचे अंतिम उद्दिष्ट सर्व लोकांसाठी संवादाचे साधन प्रदान करणे आहे, ते कोणतीही भाषा बोलतात.

लोकांना आज चांगल्या प्रकारे जोडण्यात आणि उद्याच्या मेटाव्हर्सचा भाग होण्यासाठी, Meta AI संशोधकांनी नो लँग्वेज लेफ्ट बिहाइंड (NLLB) तयार केले, जगातील बहुतेक भाषांसाठी उच्च-गुणवत्तेची मशीन भाषांतर क्षमता विकसित करण्याचा प्रयत्न.

आज आम्ही NLLB मध्ये मोठ्या प्रगतीची घोषणा करत आहोत: आम्ही NLLB-200 नावाचे एकल AI मॉडेल तयार केले आहे, जे अत्याधुनिक परिणामांसह 200 भिन्न भाषांचे भाषांतर करते. यापैकी बर्‍याच भाषा, जसे की कांबा आणि लाओ, आज उपलब्ध असलेल्या सर्वोत्तम भाषांतर साधनांद्वारे देखील समर्थित नाहीत.

प्रकल्पाबाबत असे नमूद केले आहे की प्रस्तावित मॉडेलचा वापर करून प्रकल्पांची निर्मिती सुलभ करण्याचा हेतू आहे, मॉडेल्सच्या गुणवत्तेची चाचणी आणि मूल्यमापन करण्यासाठी वापरला जाणारा अॅप्लिकेशन कोड (FLORES-200, NLLB-MD, Toxicity-200), मॉडेल ट्रेनिंग कोड आणि LASER3 लायब्ररीवर आधारित एन्कोडर्स (वापराचे अज्ञेयवादी सॉफ्टवेअर प्रतिनिधित्व). अंतिम मॉडेल दोन आवृत्त्यांमध्ये ऑफर केले जाते: पूर्ण आणि कमी. कमी केलेल्या आवृत्तीसाठी कमी संसाधने आवश्यक आहेत आणि ती चाचणी आणि संशोधन प्रकल्पांमध्ये वापरण्यासाठी योग्य आहे.

25 पेक्षा कमी आफ्रिकन भाषा सध्या मोठ्या प्रमाणावर वापरल्या जाणार्‍या भाषांतर साधनांद्वारे समर्थित आहेत, त्यापैकी बर्‍याच दर्जेदार आहेत. याउलट, NLLB-200 उच्च-गुणवत्तेच्या आउटपुटसह 55 आफ्रिकन भाषांना समर्थन देते. एकूण, हे अद्वितीय मॉडेल जगभरातील अब्जावधी लोकांद्वारे बोलल्या जाणार्‍या भाषांसाठी उच्च-गुणवत्तेची भाषांतरे प्रदान करू शकतात. एकूण, FLORES-200 बेंचमार्कच्या सर्व 44k दिशानिर्देशांमध्ये NLLB-10 BLEU स्कोअर पूर्वीच्या कलेच्या स्थितीत सरासरी 101 टक्क्यांनी सुधारतात. काही आफ्रिकन आणि भारतीय भाषांसाठी, अलीकडील भाषांतर प्रणालींच्या तुलनेत ही वाढ 70 टक्क्यांहून अधिक आहे.

इतर मशीन लर्निंग ट्रान्सलेशन सिस्टमच्या विपरीत, Facebook चे समाधान सर्व 200 भाषांसाठी एक समान मॉडेल ऑफर करण्यासाठी वेगळे आहे, ज्यात सर्व भाषा समाविष्ट आहेत आणि प्रत्येक भाषेसाठी स्वतंत्र मॉडेलची आवश्यकता नाही.

इंग्रजीमध्ये मध्यवर्ती भाषांतर न करता, भाषांतर थेट स्त्रोत भाषेतून लक्ष्य भाषेत केले जाते. सार्वत्रिक भाषांतर प्रणाली तयार करण्यासाठी, अतिरिक्त LID (भाषा ओळख) मॉडेल प्रस्तावित केले आहे, जे वापरलेली भाषा निर्धारित करण्यास अनुमती देते. त्या. प्रणाली आपोआप माहिती प्रदान केलेली भाषा ओळखू शकते आणि वापरकर्त्याच्या भाषेत भाषांतर करू शकते.

भाषांतर कोणत्याही दिशेने समर्थित आहे, 200 समर्थित भाषांपैकी कोणत्याही दरम्यान. कोणत्याही भाषेतील अनुवादाच्या गुणवत्तेची पुष्टी करण्यासाठी, FLORES-200 बेंचमार्क चाचणी संच तयार करण्यात आला होता, ज्याने दर्शविले की NLLB-200 मॉडेल, अनुवादाच्या गुणवत्तेच्या बाबतीत, FLORES-44 प्रणालींपेक्षा सरासरी 70% वर आहे. पूर्वी BLEU मेट्रिक्स वापरताना मशीन लर्निंगवर आधारित प्रस्तावित संशोधन जे मशीन भाषांतराची मानक मानवी भाषांतराशी तुलना करते. दुर्मिळ आफ्रिकन भाषा आणि भारतीय बोलींसाठी, गुणवत्तेतील श्रेष्ठता XNUMX% पर्यंत पोहोचते. तुम्ही खास तयार केलेल्या डेमो साइटवर भाषांतर गुणवत्तेचे दृष्यदृष्ट्या मूल्यांकन करू शकता.

ज्यांना प्रकल्पात रस आहे, त्यांनी हे जाणून घ्यावे की द मॉडेल क्रिएटिव्ह कॉमन्स BY-NC 4.0 परवान्याअंतर्गत उपलब्ध आहे, जे तुमच्या प्रकल्पांमध्ये कॉपी करणे, वितरण करणे, समाविष्ट करणे आणि व्युत्पन्न कार्ये तयार करण्यास परवानगी देते, परंतु विशेषता, परवाना धारणा आणि केवळ गैर-व्यावसायिक हेतूंसाठी वापरण्याच्या अधीन आहे. मॉडेलिंग टूल एमआयटी परवान्याअंतर्गत परवानाकृत आहे. NLLB मॉडेलचा वापर करून विकासाला चालना देण्यासाठी, संशोधकांना शिष्यवृत्ती देण्यासाठी $200 वाटप करण्याचा निर्णय घेण्यात आला.

शेवटी आपल्याला त्याबद्दल अधिक जाणून घेण्यात स्वारस्य असल्यास नोट बद्दल, आपण मूळ पोस्ट तपासू शकता पुढील लिंकवर


आपली टिप्पणी द्या

आपला ई-मेल पत्ता प्रकाशित केला जाणार नाही. आवश्यक फील्ड चिन्हांकित केले आहेत *

*

*

  1. डेटा जबाबदार: मिगुएल Áन्गल गॅटन
  2. डेटाचा उद्देशः नियंत्रण स्पॅम, टिप्पणी व्यवस्थापन.
  3. कायदे: आपली संमती
  4. डेटा संप्रेषण: कायदेशीर बंधन वगळता डेटा तृतीय पक्षास कळविला जाणार नाही.
  5. डेटा संग्रहण: ओकेन्टस नेटवर्क (EU) द्वारा होस्ट केलेला डेटाबेस
  6. अधिकारः कोणत्याही वेळी आपण आपली माहिती मर्यादित, पुनर्प्राप्त आणि हटवू शकता.