NLLB, Facebooki AI teksti otsetõlkeks

Hiljuti Facebook avalikustas väljaande kaudu arenguid NLLB projekt (No Language Left Behind), mille eesmärk on luua universaalne masinõppemudel tõlkimiseks otse teksti ühest keelest teise, jättes kõrvale vahepealse tõlke inglise keelde.

Kavandatud mudel hõlmab üle 200 keele, sealhulgas haruldasi Aafrika ja Austraalia keeli ja projekti lõppeesmärk on pakkuda suhtlusvahendit kõigile inimestele, olenemata sellest, millist keelt nad räägivad.

Selleks, et aidata inimestel täna paremini suhelda ja olla osa homsest metaversumist, lõid Meta AI teadlased No Language Left Behind (NLLB), et arendada enamiku maailma keelte jaoks kvaliteetseid masintõlkevõimalusi.

Täna teatame NLLB suurest edasiminekust: oleme loonud ühe AI ​​mudeli nimega NLLB-200., mis tõlgib 200 erinevat keelt tipptasemel tulemustega. Paljusid neist keeltest, nagu kamba ja lao keel, ei toetanud isegi parimad tänapäeval saadaolevad tõlketööriistad.

Projekti kohta mainitakse, et on kavandatud mudelit kasutavate projektide loomise lihtsustamiseks, mudelite kvaliteedi testimiseks ja hindamiseks kasutatav rakenduse kood (FLORES-200, NLLB-MD, Toxicity-200), mudeli koolituskood ja LASER3 teegil põhinevad kodeerijad (Agnostic Software Representation of the idiom). Lõplikku mudelit pakutakse kahes versioonis: täis- ja vähendatud. Vähendatud versioon nõuab vähem ressursse ning sobib testimiseks ja uurimisprojektides kasutamiseks.

Laialdaselt kasutatavad tõlketööriistad toetavad praegu vähem kui 25 Aafrika keelt, millest paljud on halva kvaliteediga. Seevastu NLLB-200 toetab 55 Aafrika keelt kvaliteetse väljundiga. Kokku võib see ainulaadne mudel pakkuda kvaliteetseid tõlkeid keeltesse, mida räägivad miljardid inimesed üle kogu maailma. Kokkuvõttes paranevad NLLB-200 BLEU skoorid võrreldes varasema tehnika tasemega keskmiselt 44 protsenti kõigis FLORES-10 etaloni 101 70 suunas. Mõne Aafrika ja India keele puhul on kasv rohkem kui XNUMX protsenti võrreldes viimaste tõlkesüsteemidega.

Erinevalt teistest masinõppe tõlkesüsteemidest Facebooki lahendus paistab silma selle poolest, et pakub ühtset mudelit kõigi 200 keele jaoks, mis hõlmab kõiki keeli ja ei nõua iga keele jaoks eraldi mudeleid.

Tõlge tehakse otse lähtekeelest sihtkeelde, ilma vahepealse tõlketa inglise keelde. Universaalsete tõlkesüsteemide loomiseks on välja pakutud täiendav LID (Language IDentification) mudel, mis võimaldab määrata kasutatavat keelt. Need. süsteem suudab automaatselt ära tunda teabe edastamise keele ja tõlkida selle kasutaja keelde.

Tõlkimist toetatakse mõlemas suunas, mis tahes 200 toetatud keelest. Mis tahes keele tõlke kvaliteedi kinnitamiseks koostati FLORES-200 etalontestide komplekt, mis näitas, et NLLB-200 mudel on tõlkekvaliteedi poolest keskmiselt 44% parem kui FLORES-70 süsteemid. pakutud masinõppel põhinevat uurimistööd, kui kasutatakse BLEU mõõdikuid, mis võrdlevad masintõlget standardse inimtõlkega. Haruldaste Aafrika keelte ja India murrete puhul ulatub kvaliteedi paremus XNUMX% -ni. Tõlke kvaliteeti saate visuaalselt hinnata spetsiaalselt ettevalmistatud demo saidil.

Need, kes on projektist huvitatud, peaksid teadma, et mudel on saadaval Creative Commons BY-NC 4.0 litsentsi all, mis lubab kopeerimist, levitamist, teie projektidesse kaasamist ja tuletatud teoste loomist, kuid tingimusel on omistamine, litsentsi säilitamine ja kasutamine ainult mitteärilistel eesmärkidel. Modelleerimistööriist on litsentsitud MIT-i litsentsi alusel. Arengu stimuleerimiseks NLLB mudeli abil otsustati eraldada 200 XNUMX dollarit teadlastele stipendiumide andmiseks.

Lõpuks kui olete huvitatud sellest rohkem teada saama märkme kohta saate vaadata algset postitust Järgmisel lingil.


Jäta oma kommentaar

Sinu e-postiaadressi ei avaldata. Kohustuslikud väljad on tähistatud *

*

*

  1. Andmete eest vastutab: Miguel Ángel Gatón
  2. Andmete eesmärk: Rämpsposti kontrollimine, kommentaaride haldamine.
  3. Seadustamine: teie nõusolek
  4. Andmete edastamine: andmeid ei edastata kolmandatele isikutele, välja arvatud juriidilise kohustuse alusel.
  5. Andmete salvestamine: andmebaas, mida haldab Occentus Networks (EL)
  6. Õigused: igal ajal saate oma teavet piirata, taastada ja kustutada.