NLLB, Facebook AI tiešai teksta tulkošanai

Nesen Facebook atklāja ar publikācijas palīdzību LNB projekts (No Language Left Behind), kuras mērķis ir radīt universāls mašīnmācīšanās modelis tulkošanai tiešs teksts no vienas valodas uz otru, apejot starpposma tulkojumu angļu valodā.

Piedāvātais modelis aptver vairāk nekā 200 valodas, tostarp retas Āfrikas un Austrālijas valodas un projekta galvenais mērķis ir nodrošināt saziņas līdzekli visiem cilvēkiem neatkarīgi no valodas, kurā viņi runā.

Lai palīdzētu cilvēkiem labāk sazināties šodien un būt daļai no rītdienas metaversuma, Meta AI pētnieki izveidoja No Language Left Behind (NLLB), lai izstrādātu augstas kvalitātes mašīntulkošanas iespējas lielākajai daļai pasaules valodu.

Šodien mēs paziņojam par nozīmīgu NLLB sasniegumu: esam izveidojuši vienu AI modeli ar nosaukumu NLLB-200., kas tulko 200 dažādas valodas ar visprogresīvākajiem rezultātiem. Daudzas no šīm valodām, piemēram, kamba un lao, neatbalstīja pat labākie šodien pieejamie tulkošanas rīki.

Par projektu minēts, ka tā ir paredzēts, lai vienkāršotu projektu izveidi, izmantojot piedāvāto modeli, lietojumprogrammas kods, ko izmanto, lai pārbaudītu un novērtētu modeļu kvalitāti (FLORES-200, NLLB-MD, Toxicity-200), modeļa apmācības kodu un kodētājus, kuru pamatā ir LASER3 bibliotēka (Agnostic Software Representation of the idiom). Galīgais modelis tiek piedāvāts divās versijās: pilna un samazināta. Samazinātā versija prasa mazāk resursu un ir piemērota testēšanai un izmantošanai pētniecības projektos.

Plaši izmantotie tulkošanas rīki pašlaik atbalsta mazāk nekā 25 afrikāņu valodas, no kurām daudzas ir sliktas kvalitātes. Turpretim NLLB-200 atbalsta 55 Āfrikas valodas ar augstas kvalitātes izvadi. Kopumā šis unikālais modelis var nodrošināt augstas kvalitātes tulkojumus valodās, kurās runā miljardiem cilvēku visā pasaulē. Kopumā NLLB-200 BLEU rādītāji uzlabo iepriekšējos jaunākos sasniegumus vidēji par 44 procentiem visos 10 101 FLORES-70 etalona virzienos. Dažām Āfrikas un Indijas valodām pieaugums ir lielāks par XNUMX procentiem salīdzinājumā ar jaunākajām tulkošanas sistēmām.

Atšķirībā no citām mašīnmācības tulkošanas sistēmām, Facebook risinājums izceļas ar to, ka piedāvā kopīgu modeli visām 200 valodām, kas aptver visas valodas un neprasa atsevišķus modeļus katrai valodai.

Tulkojums tiek veikts tieši no avota valodas uz mērķa valodu, bez starptulkojuma angļu valodā. Lai izveidotu universālas tulkošanas sistēmas, tiek piedāvāts papildus LID (Language IDentification) modelis, kas ļauj noteikt lietoto valodu. Tie. sistēma var automātiski atpazīt valodu, kurā informācija tiek sniegta, un pārtulkot to lietotāja valodā.

Tulkošana tiek atbalstīta abos virzienos, starp jebkuru no 200 atbalstītajām valodām. Lai apstiprinātu tulkojuma kvalitāti starp jebkuru valodu, tika sagatavots FLORES-200 etalontestu komplekts, kas parādīja, ka NLLB-200 modelis tulkojuma kvalitātes ziņā ir vidēji par 44% augstāks nekā FLORES-70 sistēmām. ierosinātais pētījums, kura pamatā ir mašīnmācīšanās, izmantojot BLEU metriku, salīdzinot mašīntulkošanu ar standarta cilvēka tulkojumu. Retām Āfrikas valodām un Indijas dialektiem kvalitātes pārākums sasniedz XNUMX%. Jūs varat vizuāli novērtēt tulkojuma kvalitāti speciāli sagatavotā demonstrācijas vietnē.

Tiem, kurus interesē projekts, jāzina, ka modelis ir pieejams ar Creative Commons BY-NC 4.0 licenci, kas atļauj kopēšanu, izplatīšanu, iekļaušanu jūsu projektos un atvasinātu darbu izveidi, taču uz to attiecas attiecināšana, licences saglabāšana un izmantošana tikai nekomerciāliem nolūkiem. Modelēšanas rīks ir licencēts saskaņā ar MIT licenci. Lai stimulētu attīstību, izmantojot NLLB modeli, tika nolemts piešķirt $ 200 XNUMX, lai piešķirtu stipendijas pētniekiem.

Beidzot ja jūs interesē uzzināt vairāk par to par piezīmi varat atsaukties uz sākotnējo ziņu Šajā saitē.


Esi pirmais, kas komentārus

Atstājiet savu komentāru

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti ar *

*

*

  1. Atbildīgais par datiem: Migels Ángels Gatóns
  2. Datu mērķis: SPAM kontrole, komentāru pārvaldība.
  3. Legitimācija: jūsu piekrišana
  4. Datu paziņošana: Dati netiks paziņoti trešām personām, izņemot juridiskus pienākumus.
  5. Datu glabāšana: datu bāze, ko mitina Occentus Networks (ES)
  6. Tiesības: jebkurā laikā varat ierobežot, atjaunot un dzēst savu informāciju.