наскоро Facebook разкри чрез публикация разработките на Проект NLLB (No Language Left Behind), чиято цел е да създава универсален модел за машинно обучение за превод директен текст от един език на друг, заобикаляйки междинния превод на английски.
Предложеният модел обхваща над 200 езика, включително редки африкански и австралийски езици и крайната цел на проекта е да осигури средство за комуникация за всички хора, независимо от езика, който говорят.
За да помогнат на хората да се свързват по-добре днес и да бъдат част от утрешната метавселена, изследователите на Meta AI създадоха No Language Left Behind (NLLB), опит за разработване на висококачествени възможности за машинен превод за повечето езици в света.
Днес обявяваме голям напредък в NLLB: създадохме един модел AI, наречен NLLB-200., който превежда 200 различни езика с най-съвременни резултати. Много от тези езици, като камба и лао, не се поддържаха дори от най-добрите налични инструменти за превод днес.
За проекта се споменава, че е предназначен да опрости създаването на проекти, използващи предложения модел, кодът на приложението, използван за тестване и оценка на качеството на моделите (FLORES-200, NLLB-MD, Toxicity-200), кодът за обучение на модела и енкодерите, базирани на библиотеката LASER3 (Agnostic Software Representation of the idiom). Крайният модел се предлага в два варианта: пълен и намален. Умалената версия изисква по-малко ресурси и е подходяща за тестване и използване в изследователски проекти.
По-малко от 25 африкански езика в момента се поддържат от широко използвани инструменти за превод, много от които са с лошо качество. За разлика от тях, NLLB-200 поддържа 55 африкански езика с висококачествен изход. Като цяло този уникален модел може да осигури висококачествени преводи за езици, говорени от милиарди хора по света. Като цяло резултатите на NLLB-200 BLEU се подобряват спрямо предишното ниво на техниката със средно 44 процента във всички 10k посоки на бенчмарка FLORES-101. За някои африкански и индийски езици увеличението е повече от 70 процента спрямо последните системи за превод.
За разлика от други системи за превод на машинно обучение, Решението на Facebook се отличава с това, че предлага общ модел за всички 200 езика, който покрива всички езици и не изисква отделни модели за всеки език.
Преводът се извършва директно от изходния език на целевия език, без междинен превод на английски. За създаване на универсални системи за превод се предлага допълнителен модел LID (Language IDentification), който позволява определяне на използвания език. Тези. системата може автоматично да разпознае езика, на който е предоставена информацията, и да го преведе на езика на потребителя.
Преводът се поддържа и в двете посоки, между всеки от 200-те поддържани езика. За да се потвърди качеството на превода между който и да е език, беше изготвен тестовият набор FLORES-200, който показа, че моделът NLLB-200 по отношение на качеството на превода е средно с 44% по-добър от системите FLORES-70. предложено изследване, базирано на машинно обучение при използване на показатели BLEU, които сравняват машинния превод със стандартния човешки превод. За редки африкански езици и индийски диалекти превъзходството в качеството достига XNUMX%. Можете да оцените визуално качеството на превода на специално подготвен демо сайт.
За тези, които се интересуват от проекта, трябва да знаят, че моделът се предлага под лиценз Creative Commons BY-NC 4.0, което позволява копиране, разпространение, включване във вашите проекти и създаване на производни произведения, но подлежи на приписване, запазване на лиценза и използване само за нетърговски цели. Инструментът за моделиране е лицензиран съгласно лиценза на MIT. За да се стимулира развитието с помощта на модела NLLB, беше решено да се отпуснат 200 XNUMX долара за стипендии на изследователи.
Накрая ако се интересувате да научите повече за това относно бележката, можете да се обърнете към оригиналния пост В следващия линк.