NLLB, AI Facebook untuk terjemahan teks langsung

Baru-baru ini Facebook dilancarkan melalui penerbitan perkembangan projek NLLB (Tiada Bahasa Tertinggal), yang objektifnya adalah untuk mencipta model pembelajaran mesin universal untuk terjemahan teks terus dari satu bahasa ke bahasa lain, memintas terjemahan perantaraan ke dalam bahasa Inggeris.

Model yang dicadangkan meliputi lebih 200 bahasa, termasuk bahasa Afrika dan Australia yang jarang ditemui dan matlamat utama projek ini adalah untuk menyediakan alat komunikasi untuk semua orang, tanpa mengira bahasa yang mereka pertuturkan.

Untuk membantu orang ramai berhubung dengan lebih baik hari ini dan menjadi sebahagian daripada metaverse esok, penyelidik Meta AI mencipta No Language Left Behind (NLLB), satu usaha untuk membangunkan keupayaan terjemahan mesin berkualiti tinggi untuk kebanyakan bahasa dunia. .

Hari ini kami mengumumkan satu kemajuan besar dalam NLLB: kami telah mencipta model AI tunggal yang dipanggil NLLB-200., yang menterjemah 200 bahasa berbeza dengan hasil yang canggih. Kebanyakan bahasa ini, seperti Kamba dan Lao, tidak disokong oleh walaupun alat terjemahan terbaik yang tersedia hari ini.

Mengenai projek itu disebutkan bahawa ia adalah bertujuan untuk memudahkan penciptaan projek menggunakan model yang dicadangkan, kod aplikasi yang digunakan untuk menguji dan menilai kualiti model (FLORES-200, NLLB-MD, Toxicity-200), kod latihan model dan pengekod berdasarkan perpustakaan LASER3 (Agnostic Software Representation of the idiom). Model akhir ditawarkan dalam dua versi: penuh dan dikurangkan. Versi yang dikurangkan memerlukan lebih sedikit sumber dan sesuai untuk ujian dan penggunaan dalam projek penyelidikan.

Kurang daripada 25 bahasa Afrika kini disokong oleh alat terjemahan yang digunakan secara meluas, kebanyakannya tidak berkualiti. Sebaliknya, NLLB-200 menyokong 55 bahasa Afrika dengan output berkualiti tinggi. Secara keseluruhan, model unik ini boleh menyediakan terjemahan berkualiti tinggi untuk bahasa yang dituturkan oleh berbilion orang di seluruh dunia. Secara keseluruhannya, skor NLLB-200 BLEU bertambah baik pada keadaan terkini dengan purata 44 peratus dalam semua 10k arah penanda aras FLORES-101. Bagi sesetengah bahasa Afrika dan India, peningkatan lebih besar daripada 70 peratus berbanding sistem terjemahan terkini.

Tidak seperti sistem terjemahan pembelajaran mesin lain, Penyelesaian Facebook menonjol kerana menawarkan model biasa untuk semua 200 bahasa, yang merangkumi semua bahasa dan tidak memerlukan model berasingan untuk setiap bahasa.

Terjemahan dilakukan terus dari bahasa sumber kepada bahasa sasaran, tanpa terjemahan perantaraan ke dalam bahasa Inggeris. Untuk mencipta sistem terjemahan universal, model LID (Language IDentification) tambahan dicadangkan, yang membolehkan penentuan bahasa yang digunakan. Itu. sistem secara automatik boleh mengenali bahasa di mana maklumat disediakan dan menterjemahkannya ke dalam bahasa pengguna.

Terjemahan disokong dalam mana-mana arah, antara mana-mana daripada 200 bahasa yang disokong. Untuk mengesahkan kualiti terjemahan antara mana-mana bahasa, set ujian penanda aras FLORES-200 telah disediakan, yang menunjukkan model NLLB-200, dari segi kualiti terjemahan, secara purata 44% lebih tinggi daripada sistem FLORES-70. Sebelum ini cadangan penyelidikan berdasarkan pembelajaran mesin apabila menggunakan metrik BLEU membandingkan terjemahan mesin dengan terjemahan manusia standard. Untuk bahasa Afrika dan dialek India yang jarang ditemui, keunggulan dalam kualiti mencapai XNUMX%. Anda boleh menilai secara visual kualiti terjemahan pada tapak demo yang disediakan khas.

Bagi mereka yang berminat dengan projek itu, mereka harus tahu bahawa model tersedia di bawah lesen Creative Commons BY-NC 4.0, yang membenarkan penyalinan, pengedaran, kemasukan dalam projek anda dan penciptaan karya terbitan, tetapi tertakluk kepada atribusi, pengekalan lesen dan penggunaan untuk tujuan bukan komersial sahaja. Alat pemodelan dilesenkan di bawah lesen MIT. Untuk merangsang pembangunan menggunakan model NLLB, ia telah memutuskan untuk memperuntukkan $200 untuk memberikan biasiswa kepada penyelidik.

Akhirnya sekiranya anda berminat untuk mengetahui lebih lanjut mengenainya mengenai nota itu, anda boleh menyemak catatan asal Dalam pautan berikut.


Tinggalkan komen anda

Alamat email anda tidak akan disiarkan. Ruangan yang diperlukan ditanda dengan *

*

*

  1. Bertanggungjawab atas data: Miguel Ángel Gatón
  2. Tujuan data: Mengendalikan SPAM, pengurusan komen.
  3. Perundangan: Persetujuan anda
  4. Komunikasi data: Data tidak akan disampaikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Pangkalan data yang dihoskan oleh Occentus Networks (EU)
  6. Hak: Pada bila-bila masa anda boleh menghadkan, memulihkan dan menghapus maklumat anda.