NLLB, AI Facebook kanggo terjemahan teks langsung

Bubar Facebook diluncurake liwat publikasi pangembangan saka Proyek NLLB (Ora Ana Basa Kiwa), sing tujuane nggawe model machine learning universal kanggo terjemahan teks langsung saka basa siji menyang basa liyane, ngliwati terjemahan intermediate menyang basa Inggris.

Model sing diusulake nyakup luwih saka 200 basa, kalebu basa Afrika lan Australia sing langka lan tujuan utama proyek kasebut yaiku nyedhiyakake sarana komunikasi kanggo kabeh wong, ora preduli saka basa sing diucapake.

Kanggo mbantu wong supaya bisa nyambung saiki lan dadi bagian saka metaverse sesuk, peneliti Meta AI nggawe No Language Left Behind (NLLB), upaya kanggo ngembangake kemampuan terjemahan mesin sing berkualitas tinggi kanggo umume basa ing donya. .

Dina iki kita ngumumake kemajuan utama ing NLLB: kita wis nggawe model AI tunggal sing diarani NLLB-200., sing nerjemahake 200 basa sing beda-beda kanthi asil sing canggih. Akeh basa kasebut, kayata Kamba lan Lao, ora didhukung dening alat terjemahan sing paling apik sing kasedhiya saiki.

Babagan proyek kasebut kasebut dimaksudake kanggo nyederhanakake nggawe proyek nggunakake model sing diusulake, kode aplikasi sing digunakake kanggo nguji lan ngevaluasi kualitas model (FLORES-200, NLLB-MD, Toxicity-200), kode latihan model lan encoder adhedhasar perpustakaan LASER3 (Agnostic Software Representation of the idiom). Model pungkasan ditawakake ing rong versi: lengkap lan suda. Versi suda mbutuhake sumber daya sing luwih sithik lan cocog kanggo nyoba lan digunakake ing proyek riset.

Kurang saka 25 basa Afrika saiki didhukung dening alat terjemahan sing akeh digunakake, akeh sing kualitase ora apik. Ing kontras, NLLB-200 ndhukung 55 basa Afrika kanthi output berkualitas tinggi. Secara total, model unik iki bisa nyedhiyakake terjemahan kualitas dhuwur kanggo basa sing diucapake dening milyaran wong ing saindenging jagad. Secara total, skor NLLB-200 BLEU nambah ing kahanan seni sadurunge kanthi rata-rata 44 persen ing kabeh arah 10k saka pathokan FLORES-101. Kanggo sawetara basa Afrika lan India, mundhak luwih saka 70 persen saka sistem terjemahan anyar.

Ora kaya sistem terjemahan machine learning liyane, Solusi Facebook misuwur amarga nawakake model umum kanggo kabeh 200 basa, sing nyakup kabeh basa lan ora mbutuhake model sing kapisah kanggo saben basa.

Terjemahan ditindakake langsung saka basa sumber menyang basa target, tanpa terjemahan intermediate menyang basa Inggris. Kanggo nggawe sistem terjemahan universal, model LID tambahan (Language IDentification) diusulake, sing ngidini nemtokake basa sing digunakake. Sing. sistem bisa kanthi otomatis ngenali basa kang informasi kasedhiya lan nerjemahake menyang basa pangguna.

Terjemahan didhukung ing salah siji arah, antarane salah siji saka 200 basa sing didhukung. Kanggo ngonfirmasi kualitas terjemahan ing antarane basa apa wae, set tes benchmark FLORES-200 disiapake, sing nuduhake yen model NLLB-200, ing babagan kualitas terjemahan, rata-rata 44% luwih unggul tinimbang sistem FLORES-70. riset ngajokaken adhedhasar learning machine nalika nggunakake metrik BLEU sing mbandhingaké terjemahan mesin kanggo terjemahan manungsa standar. Kanggo basa Afrika lan dialek India sing langka, keunggulan kualitas tekan XNUMX%. Sampeyan bisa ngevaluasi kualitas terjemahan kanthi visual ing situs demo sing disiapake khusus.

Kanggo sing kasengsem ing project, padha kudu ngerti sing model kasedhiya ing lisensi Creative Commons BY-NC 4.0, sing ngidini nyalin, distribusi, kalebu ing proyek sampeyan, lan nggawe karya turunan, nanging tundhuk atribusi, penylametan lisensi, lan panggunaan mung kanggo tujuan non-komersial. Alat modeling dilisensi ing lisensi MIT. Kanggo ngrangsang pangembangan nggunakake model NLLB, diputusake kanggo nyedhiyakake $ 200 kanggo menehi beasiswa kanggo peneliti.

Pungkasan yen sampeyan kepengin ngerti babagan iki babagan cathetan, sampeyan bisa ngrujuk kiriman asli Ing link ing ngisor iki.


Konten artikel kasebut sesuai karo prinsip kita yaiku etika editorial. Kanggo nglaporake klik kesalahan Kene.

Dadi pisanan komentar

Ninggalake komentar sampeyan

Panjenengan alamat email ora bisa diterbitake. Perangkat kothak ditandhani karo *

*

*

  1. Tanggung jawab data: Miguel Ángel Gatón
  2. Tujuan data: Kontrol SPAM, manajemen komentar.
  3. Legitimasi: idin sampeyan
  4. Komunikasi data: Data kasebut ora bakal dikomunikasikake karo pihak katelu kajaba kanthi kewajiban ukum.
  5. Panyimpenan data: Database sing dianakake dening Occentus Networks (EU)
  6. Hak: Kapan wae sampeyan bisa matesi, mulihake lan mbusak informasi sampeyan.