NLLB, „Facebook“ AI, skirta tiesioginiam teksto vertimui

Neseniai „Facebook“ pristatė per leidinį apie pokyčius NLLB projektas (No Language Left Behind), kurio tikslas yra kurti universalus mašininio mokymosi modelis vertimui tiesioginis tekstas iš vienos kalbos į kitą, apeinant tarpinį vertimą į anglų kalbą.

Siūlomas modelis apima daugiau nei 200 kalbų, įskaitant retas Afrikos ir Australijos kalbas o galutinis projekto tikslas – suteikti bendravimo priemonę visiems žmonėms, nepriklausomai nuo kalbos, kuria jie kalba.

Siekdami padėti žmonėms geriau susisiekti šiandien ir tapti ateities metavisumos dalimi, Meta AI mokslininkai sukūrė No Language Left Behind (NLLB), siekdami sukurti aukštos kokybės mašininio vertimo galimybes daugeliui pasaulio kalbų.

Šiandien skelbiame apie didelę NLLB pažangą: sukūrėme vieną AI modelį, pavadintą NLLB-200., kuris verčia į 200 skirtingų kalbų su naujausiais rezultatais. Daugelio šių kalbų, pvz., kambos ir laoso kalbų, nepalaiko net geriausi šiandien prieinami vertimo įrankiai.

Apie projektą minima, kad yra skirtas supaprastinti projektų kūrimą naudojant siūlomą modelį, programos kodas, naudojamas modelių (FLORES-200, NLLB-MD, Toxicity-200) kokybei išbandyti ir įvertinti, modelio mokymo kodas ir kodavimo įrenginiai, pagrįsti LASER3 biblioteka (Agnostic Software Representation of the idiom). Galutinis modelis siūlomas dviem versijomis: pilna ir sumažinta. Sumažinta versija reikalauja mažiau išteklių ir yra tinkama testavimui bei naudojimui tyrimų projektuose.

Šiuo metu plačiai naudojamos vertimo priemonės palaiko mažiau nei 25 Afrikos kalbas, iš kurių daugelis yra prastos kokybės. Priešingai, NLLB-200 palaiko 55 Afrikos kalbas su aukštos kokybės išvestimi. Iš viso šis unikalus modelis gali pateikti aukštos kokybės vertimus į kalbas, kuriomis kalba milijardai žmonių visame pasaulyje. Iš viso NLLB-200 BLEU balai, palyginti su ankstesniu technikos lygiu, pagerėjo vidutiniškai 44 procentais visomis 10 101 FLORES-70 etalono krypčių. Kai kurių Afrikos ir Indijos kalbų skaičius padidėjo daugiau nei XNUMX procentų, palyginti su naujausiomis vertimo sistemomis.

Skirtingai nuo kitų mašininio mokymosi vertimo sistemų, „Facebook“ sprendimas išsiskiria tuo, kad siūlo bendrą modelį visoms 200 kalbų, kuri apima visas kalbas ir nereikalauja atskirų modelių kiekvienai kalbai.

Vertimas atliekamas tiesiogiai iš šaltinio kalbos į tikslinę kalbą, be tarpinio vertimo į anglų kalbą. Universalioms vertimo sistemoms sukurti siūlomas papildomas LID (Language IDentification) modelis, leidžiantis nustatyti vartojamą kalbą. Tie. sistema gali automatiškai atpažinti kalbą, kuria pateikiama informacija, ir išversti ją į vartotojo kalbą.

Vertimas palaikomas bet kuria kryptimi, tarp bet kurios iš 200 palaikomų kalbų. Vertimo iš bet kurios kalbos kokybei patvirtinti buvo parengtas FLORES-200 etaloninis testų rinkinys, kuris parodė, kad NLLB-200 modelis vertimo kokybe yra vidutiniškai 44% pranašesnis už FLORES-70 sistemas. pasiūlytas tyrimas, pagrįstas mašininiu mokymusi, kai naudojamas BLEU metrika, lyginant mašininį vertimą su standartiniu žmogaus vertimu. Retoms Afrikos kalboms ir indų tarmėms kokybės pranašumas siekia XNUMX%. Vertimo kokybę galite vizualiai įvertinti specialiai paruoštoje demonstracinėje svetainėje.

Tiems, kurie domisi projektu, jie turėtų žinoti, kad modelį galima įsigyti pagal Creative Commons BY-NC 4.0 licenciją, kuri leidžia kopijuoti, platinti, įtraukti į jūsų projektus ir kurti išvestinius kūrinius, tačiau tai priklauso nuo priskyrimo, licencijos saugojimo ir naudojimo tik nekomerciniais tikslais. Modeliavimo įrankis yra licencijuotas pagal MIT licenciją. Siekiant paskatinti plėtrą naudojant NLLB modelį, buvo nuspręsta skirti 200 XNUMX USD stipendijoms tyrėjams skirti.

Pagaliau jei norite sužinoti daugiau apie tai apie pastabą galite kreiptis į pradinį pranešimą Šioje nuorodoje.


Palikite komentarą

Jūsų elektroninio pašto adresas nebus skelbiamas. Privalomi laukai yra pažymėti *

*

*

  1. Atsakingas už duomenis: Miguel Ángel Gatón
  2. Duomenų paskirtis: kontroliuoti šlamštą, komentarų valdymą.
  3. Įteisinimas: jūsų sutikimas
  4. Duomenų perdavimas: Duomenys nebus perduoti trečiosioms šalims, išskyrus teisinius įsipareigojimus.
  5. Duomenų saugojimas: „Occentus Networks“ (ES) talpinama duomenų bazė
  6. Teisės: bet kuriuo metu galite apriboti, atkurti ir ištrinti savo informaciją.