NLLB, egy Facebook AI közvetlen szövegfordításhoz

nemrég A Facebook bemutatta kiadványon keresztül a fejleményeket a NLLB projekt (No Language Left Behind), amelynek célja az alkotás univerzális gépi tanulási modell a fordításhoz közvetlen szöveg egyik nyelvről a másikra, megkerülve az angolra történő köztes fordítást.

A javasolt modell több mint 200 nyelvet fed le, köztük ritka afrikai és ausztrál nyelveket a projekt végső célja pedig az, hogy kommunikációs eszközt biztosítson minden ember számára, függetlenül attól, hogy milyen nyelven beszél.

Annak érdekében, hogy az emberek jobban kapcsolódjanak ma, és részesei lehessenek a holnap metaverzumának, a Meta AI kutatói létrehozták a No Language Left Behind (NLLB) nevű programot, amely arra törekszik, hogy kiváló minőségű gépi fordítási képességeket fejlesszen ki a világ legtöbb nyelvére.

A mai napon egy nagy előrelépést jelentünk be az NLLB-ben: létrehoztunk egy NLLB-200. nevű AI-modellt, amely 200 különböző nyelvet fordít le csúcsminőségű eredményekkel. E nyelvek közül sok, például a kamba és a lao, még a ma elérhető legjobb fordítóeszközök sem támogatottak.

A projektről említik, hogy igen célja a projektek létrehozásának egyszerűsítése a javasolt modell használatával, a modellek minőségének tesztelésére és értékelésére használt alkalmazáskód (FLORES-200, NLLB-MD, Toxicity-200), a modell betanító kód és a LASER3 könyvtáron alapuló kódolók (Agnostic Software Representation of the idiom). A végleges modellt két változatban kínálják: teljes és csökkentett változatban. A csökkentett változat kevesebb erőforrást igényel, és alkalmas tesztelésre és kutatási projektekben történő felhasználásra.

Jelenleg kevesebb mint 25 afrikai nyelvet támogatnak széles körben használt fordítóeszközök, amelyek közül sok rossz minőségű. Ezzel szemben az NLLB-200 55 afrikai nyelvet támogat kiváló minőségű kimenettel. Összességében ez az egyedülálló modell kiváló minőségű fordításokat tud biztosítani olyan nyelvekre, amelyeket emberek milliárdjai beszélnek szerte a világon. Összességében az NLLB-200 BLEU pontszámok átlagosan 44 százalékkal jobbak a technika korábbi szintjéhez képest a FLORES-10 benchmark mind a 101 ezer irányában. Egyes afrikai és indiai nyelvek esetében a növekedés több mint 70 százalékos a legutóbbi fordítási rendszerekhez képest.

Más gépi tanulási fordítórendszerekkel ellentétben, A Facebook megoldása kiemelkedik azzal, hogy mind a 200 nyelvhez közös modellt kínál, amely minden nyelvet lefed, és nem igényel külön modelleket minden nyelvhez.

A fordítás közvetlenül a forrásnyelvről a célnyelvre történik, közbenső fordítás nélkül angolra. Az univerzális fordítórendszerek létrehozásához egy további LID (Language Identification) modell javasolt, amely lehetővé teszi a használt nyelv meghatározását. Azok. a rendszer automatikusan felismeri, hogy az információt milyen nyelven szolgáltatja, és le tudja fordítani a felhasználó nyelvére.

A fordítás mindkét irányban támogatott, a 200 támogatott nyelv bármelyike ​​között. A bármely nyelv közötti fordítás minőségének igazolására elkészítettük a FLORES-200 benchmark tesztkészletet, amely azt mutatta, hogy az NLLB-200 modell a fordítás minőségét tekintve átlagosan 44%-kal jobb, mint a FLORES-70 rendszerek. gépi tanuláson alapuló kutatást javasoltak olyan BLEU-metrikák használatakor, amelyek a gépi fordítást hasonlítják össze a szabványos emberi fordítással. Ritka afrikai nyelvek és indiai dialektusok esetében a minőségi fölény eléri a XNUMX%-ot. A fordítás minőségét vizuálisan értékelheti egy speciálisan elkészített bemutató oldalon.

A projekt iránt érdeklődőknek tudniuk kell, hogy a modell Creative Commons BY-NC 4.0 licenc alatt érhető el, amely lehetővé teszi a másolást, terjesztést, a projektekbe való felvételét és származékos művek létrehozását, de csak a forrásmegjelölés, a licenc megőrzése és a nem kereskedelmi célú felhasználás feltétele. A modellező eszközt az MIT licence alapján engedélyezték. Az NLLB modellt használó fejlesztés ösztönzése érdekében úgy döntöttek, hogy 200 XNUMX dollárt különítenek el a kutatók ösztöndíjára.

Végül ha érdekel, hogy többet tudjon meg róla a megjegyzéssel kapcsolatban ellenőrizheti az eredeti bejegyzést A következő linken.


Hagyja megjegyzését

E-mail címed nem kerül nyilvánosságra. Kötelező mezők vannak jelölve *

*

*

  1. Az adatokért felelős: Miguel Ángel Gatón
  2. Az adatok célja: A SPAM ellenőrzése, a megjegyzések kezelése.
  3. Legitimáció: Az Ön beleegyezése
  4. Az adatok közlése: Az adatokat csak jogi kötelezettség alapján továbbítjuk harmadik felekkel.
  5. Adattárolás: Az Occentus Networks (EU) által üzemeltetett adatbázis
  6. Jogok: Bármikor korlátozhatja, helyreállíthatja és törölheti adatait.