NLLB, Facebook AI za neposredno prevajanje besedila

Pred kratkim Facebook predstavljen skozi publikacijo razvoj dogodkov Projekt NLLB (No Language Left Behind), katerega cilj je ustvarjanje univerzalni model strojnega učenja za prevajanje neposredno besedilo iz enega jezika v drugega, mimo vmesnega prevoda v angleščino.

Predlagani model pokriva več kot 200 jezikov, vključno z redkimi afriškimi in avstralskimi jeziki in končni cilj projekta je zagotoviti sredstvo komunikacije za vse ljudi, ne glede na jezik, ki ga govorijo.

Da bi ljudem pomagali bolje povezati se danes in biti del jutrišnjega metaverzuma, so raziskovalci Meta AI ustvarili No Language Left Behind (NLLB), prizadevanje za razvoj visokokakovostnih zmogljivosti strojnega prevajanja za večino svetovnih jezikov.

Danes objavljamo velik napredek v NLLB: ustvarili smo en sam model AI, imenovan NLLB-200., ki prevaja 200 različnih jezikov z vrhunskimi rezultati. Veliko teh jezikov, kot sta kamba in laoščina, niso podpirala niti najboljša prevajalska orodja, ki so danes na voljo.

O projektu se omenja, da je namenjen poenostavitvi ustvarjanja projektov z uporabo predlaganega modela, aplikacijsko kodo, ki se uporablja za testiranje in ocenjevanje kakovosti modelov (FLORES-200, NLLB-MD, Toxicity-200), kodo za usposabljanje modela in kodirnike, ki temeljijo na knjižnici LASER3 (Agnostic Software Representation of the idiom). Končni model je na voljo v dveh različicah: polni in zmanjšani. Pomanjšana različica zahteva manj sredstev in je primerna za testiranje in uporabo v raziskovalnih projektih.

Manj kot 25 afriških jezikov trenutno podpirajo pogosto uporabljena prevajalska orodja, od katerih so mnoga slabe kakovosti. V nasprotju s tem NLLB-200 podpira 55 afriških jezikov z visokokakovostnim izpisom. Skupno lahko ta edinstveni model zagotovi visokokakovostne prevode za jezike, ki jih govorijo milijarde ljudi po vsem svetu. Skupaj se rezultati NLLB-200 BLEU izboljšajo glede na prejšnje stanje tehnike za povprečno 44 odstotkov v vseh 10k smereh merila FLORES-101. Za nekatere afriške in indijske jezike je povečanje večje od 70 odstotkov v primerjavi z najnovejšimi prevajalskimi sistemi.

Za razliko od drugih sistemov za prevajanje strojnega učenja, Facebookova rešitev izstopa po tem, da ponuja skupni model za vseh 200 jezikov, ki pokriva vse jezike in ne zahteva ločenih modelov za vsak jezik.

Prevod poteka direktno iz izvornega v ciljni jezik, brez vmesnega prevoda v angleščino. Za ustvarjanje univerzalnih prevajalskih sistemov je predlagan dodatni model LID (Language IDentification), ki omogoča določanje uporabljenega jezika. Tisti. sistem lahko samodejno prepozna jezik, v katerem so podane informacije, in ga prevede v jezik uporabnika.

Prevajanje je podprto v obe smeri, med katerim koli od 200 podprtih jezikov. Za potrditev kakovosti prevoda med katerim koli jezikom je bil pripravljen primerjalni test FLORES-200, ki je pokazal, da je model NLLB-200 glede kakovosti prevoda v povprečju za 44 % boljši od sistemov FLORES-70. predlagano raziskavo, ki temelji na strojnem učenju pri uporabi metrik BLEU, ki primerjajo strojno prevajanje s standardnim človeškim prevajanjem. Za redke afriške jezike in indijska narečja superiornost kakovosti doseže XNUMX%. Kakovost prevoda lahko vizualno ocenite na posebej pripravljenem demo spletnem mestu.

Tisti, ki jih projekt zanima, morajo vedeti, da je model je na voljo pod licenco Creative Commons BY-NC 4.0, ki dovoljuje kopiranje, distribucijo, vključitev v vaše projekte in ustvarjanje izpeljanih del, vendar pod pogojem pripisa, hrambe licence in uporabe samo v nekomercialne namene. Orodje za modeliranje je licencirano pod licenco MIT. Za spodbujanje razvoja po modelu NLLB je bilo odločeno, da se 200 $ nameni za štipendiranje raziskovalcev.

Končno če vas zanima več o tem glede opombe se lahko sklicujete na izvirno objavo V naslednji povezavi.


Pustite svoj komentar

Vaš e-naslov ne bo objavljen. Obvezna polja so označena z *

*

*

  1. Za podatke odgovoren: Miguel Ángel Gatón
  2. Namen podatkov: Nadzor neželene pošte, upravljanje komentarjev.
  3. Legitimacija: Vaše soglasje
  4. Sporočanje podatkov: Podatki se ne bodo posredovali tretjim osebam, razen po zakonski obveznosti.
  5. Shranjevanje podatkov: Zbirka podatkov, ki jo gosti Occentus Networks (EU)
  6. Pravice: Kadar koli lahko omejite, obnovite in izbrišete svoje podatke.