NLLB, Facebookin tekoäly suoraa tekstin kääntämistä varten

äskettäin Facebook paljasti julkaisun kautta kehitystä NLLB projekti (No Language Left Behind), jonka tavoitteena on luoda universaali koneoppimismalli kääntämiseen suora teksti kielestä toiselle ohittaen välikäännöksen englanniksi.

Ehdotettu malli kattaa yli 200 kieltä, mukaan lukien harvinaiset afrikkalaiset ja australialaiset kielet ja hankkeen perimmäisenä tavoitteena on tarjota viestintäväline kaikille ihmisille heidän puhumansa kielestä riippumatta.

Auttaakseen ihmisiä yhdistämään nykypäivän paremmin ja olemaan osa huomisen metaversumia Meta AI -tutkijat loivat No Language Left Behind (NLLB) -ohjelman, jolla pyritään kehittämään korkealaatuisia konekäännösominaisuuksia useimmille maailman kielille.

Tänään ilmoitamme suuresta edistyksestä NLLB:ssä: olemme luoneet yhden tekoälymallin nimeltä NLLB-200., joka kääntää 200 eri kieltä huipputuloksilla. Monia näistä kielistä, kuten kamba ja lao, eivät tuet edes parhaimmat saatavilla olevat käännöstyökalut.

Hankkeesta mainitaan, että on tarkoituksena on yksinkertaistaa hankkeiden luomista ehdotetun mallin mukaisesti, mallien (FLORES-200, NLLB-MD, Toxicity-200) laadun testaamiseen ja arvioimiseen käytetty sovelluskoodi, mallin koulutuskoodi ja LASER3-kirjastoon perustuvat kooderit (Agnostic Software Representation of the idiomin). Lopullinen malli on saatavilla kahdessa versiossa: täysi ja alennettu. Alennettu versio vaatii vähemmän resursseja ja soveltuu testattavaksi ja käytettäväksi tutkimusprojekteissa.

Alle 25 afrikkalaista kieltä tukevat tällä hetkellä laajalti käytetyt käännöstyökalut, joista monet ovat huonolaatuisia. Sitä vastoin NLLB-200 tukee 55 afrikkalaista kieltä korkealaatuisilla tulosteilla. Kaiken kaikkiaan tämä ainutlaatuinen malli voi tarjota korkealaatuisia käännöksiä kielille, joita puhuvat miljardit ihmiset ympäri maailmaa. Kaiken kaikkiaan NLLB-200 BLEU:n pisteet parantavat aiempaa huipputasoa keskimäärin 44 prosenttia kaikissa FLORES-10-vertailuarvon 101 70 suunnassa. Joidenkin afrikkalaisten ja intialaisten kielten kohdalla kasvu on yli XNUMX prosenttia viimeaikaisiin käännösjärjestelmiin verrattuna.

Toisin kuin muut koneoppimiskäännösjärjestelmät, Facebookin ratkaisu erottuu siitä, että se tarjoaa yhteisen mallin kaikille 200 kielelle, joka kattaa kaikki kielet eikä vaadi erillisiä malleja jokaiselle kielelle.

Käännös tehdään suoraan lähdekielestä kohdekielelle ilman välikäännöstä englanniksi. Yleisten käännösjärjestelmien luomiseksi ehdotetaan lisämallia LID (Language IDentification), jonka avulla voidaan määrittää käytettävä kieli. Nuo. järjestelmä voi automaattisesti tunnistaa kielen, jolla tiedot annetaan, ja kääntää ne käyttäjän kielelle.

Käännös on tuettu kumpaankin suuntaan, minkä tahansa 200 tuetun kielen välillä. Käännöksen laadun varmistamiseksi minkä tahansa kielen välillä valmistettiin FLORES-200-benchmark-testisarja, joka osoitti, että NLLB-200-malli on käännöslaadultaan keskimäärin 44 % parempi kuin FLORES-70-järjestelmät. ehdotti koneoppimiseen perustuvaa tutkimusta käytettäessä BLEU-mittareita, jotka vertaavat konekäännöstä tavalliseen ihmiskäännökseen. Harvinaisilla afrikkalaisilla kielillä ja intialaisilla murteilla laatu on XNUMX%. Voit arvioida käännösten laatua visuaalisesti erityisesti valmistetulla esittelysivustolla.

Hankkeesta kiinnostuneiden tulee tietää, että malli on saatavilla Creative Commons BY-NC 4.0 -lisenssillä, joka sallii kopioinnin, jakelun, sisällyttämisen projekteihisi ja johdannaisteosten luomisen, mutta se edellyttää nimeämistä, lisenssin säilyttämistä ja käyttöä vain ei-kaupallisiin tarkoituksiin. Mallintamistyökalu on lisensoitu MIT-lisenssillä. Kehityksen edistämiseksi NLLB-mallin avulla päätettiin osoittaa 200 XNUMX dollaria tutkijoiden apurahojen myöntämiseen.

Vihdoin jos olet kiinnostunut tietämään siitä lisää muistiinpanosta voit tarkistaa alkuperäisen viestin Seuraavassa linkissä.


Jätä kommentti

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

*

*

  1. Vastuussa tiedoista: Miguel Ángel Gatón
  2. Tietojen tarkoitus: Roskapostin hallinta, kommenttien hallinta.
  3. Laillistaminen: Suostumuksesi
  4. Tietojen välittäminen: Tietoja ei luovuteta kolmansille osapuolille muutoin kuin lain nojalla.
  5. Tietojen varastointi: Occentus Networks (EU) isännöi tietokantaa
  6. Oikeudet: Voit milloin tahansa rajoittaa, palauttaa ja poistaa tietojasi.