NLLB, Facebook AI za direktno prevođenje teksta

Nedavno Facebook predstavljen kroz publikaciju razvoj događaja NLLB projekat (No Language Left Behind), čiji je cilj stvaranje univerzalni model mašinskog učenja za prevođenje direktan tekst s jednog jezika na drugi, zaobilazeći srednji prijevod na engleski.

Predloženi model pokriva preko 200 jezika, uključujući rijetke afričke i australske jezike a krajnji cilj projekta je osigurati sredstvo komunikacije za sve ljude, bez obzira na jezik kojim govore.

Kako bi pomogli ljudima da se bolje povežu danas i budu dio sutrašnjeg metaverzuma, istraživači Meta AI kreirali su No Language Left Behind (NLLB), napor da razviju visokokvalitetne mogućnosti mašinskog prevođenja za većinu svjetskih jezika.

Danas najavljujemo veliki napredak u NLLB-u: kreirali smo jedan AI model pod nazivom NLLB-200., koji prevodi na 200 različitih jezika s vrhunskim rezultatima. Mnogi od ovih jezika, kao što su Kamba i Lao, nisu bili podržani čak ni najboljim alatima za prevođenje koji su danas dostupni.

O projektu se spominje da jeste namijenjena pojednostavljenju izrade projekata korištenjem predloženog modela, kod aplikacije koji se koristi za testiranje i procjenu kvaliteta modela (FLORES-200, NLLB-MD, Toxicity-200), kod za obuku modela i koderi bazirani na LASER3 biblioteci (Agnostičko softversko predstavljanje idioma). Konačni model se nudi u dvije verzije: punoj i smanjenoj. Smanjena verzija zahtijeva manje resursa i pogodna je za testiranje i korištenje u istraživačkim projektima.

Manje od 25 afričkih jezika trenutno je podržano široko korišćenim alatima za prevođenje, od kojih su mnogi lošeg kvaliteta. Nasuprot tome, NLLB-200 podržava 55 afričkih jezika sa visokokvalitetnim izlazom. Ukupno, ovaj jedinstveni model može pružiti visokokvalitetne prijevode za jezike koje govore milijarde ljudi širom svijeta. Ukupno, rezultati NLLB-200 BLEU poboljšavaju se u odnosu na prethodno stanje tehnike u prosjeku za 44 posto u svih 10 smjerova FLORES-101 mjerila. Za neke afričke i indijske jezike povećanje je veće od 70 posto u odnosu na nedavne sisteme prevođenja.

Za razliku od drugih prevodilačkih sistema za mašinsko učenje, Facebookovo rješenje ističe se po tome što nudi zajednički model za svih 200 jezika, koji pokriva sve jezike i ne zahtijeva posebne modele za svaki jezik.

Prevod se vrši direktno sa izvornog jezika na ciljni jezik, bez srednjeg prevoda na engleski. Za kreiranje univerzalnih sistema prevođenja, predložen je dodatni model LID (Language IDentification) koji omogućava određivanje jezika koji se koristi. One. sistem može automatski prepoznati jezik na kojem su informacije date i prevesti ih na jezik korisnika.

Prijevod je podržan u oba smjera, između bilo kojeg od 200 podržanih jezika. Da bi se potvrdio kvalitet prevoda između bilo kojeg jezika, pripremljen je testni set FLORES-200, koji je pokazao da je model NLLB-200, u smislu kvaliteta prijevoda, u prosjeku 44% bolji od sistema FLORES-70. predloženo istraživanje zasnovano na mašinskom učenju kada se koriste BLEU metrike koje upoređuju mašinsko prevođenje sa standardnim ljudskim prevođenjem. Za rijetke afričke jezike i indijske dijalekte, superiornost u kvaliteti doseže XNUMX%. Kvalitet prijevoda možete vizualno procijeniti na posebno pripremljenoj demo stranici.

Za one koji su zainteresovani za projekat, treba da znaju da model je dostupan pod licencom Creative Commons BY-NC 4.0, koji dozvoljava kopiranje, distribuciju, uključivanje u vaše projekte i stvaranje izvedenih djela, ali podliježe pripisivanju, zadržavanju licence i korištenju samo u nekomercijalne svrhe. Alat za modeliranje je licenciran pod MIT licencom. Kako bi se stimulirao razvoj korištenjem NLLB modela, odlučeno je da se izdvoji 200 dolara za dodjelu stipendija istraživačima.

Konačno ako ste zainteresirani da saznate više o tome u vezi bilješke možete se pozvati na izvorni post Na sledećem linku.


Budite prvi koji komentarišete

Ostavite komentar

Vaša e-mail adresa neće biti objavljena. Obavezna polja su označena sa *

*

*

  1. Za podatke odgovoran: Miguel Ángel Gatón
  2. Svrha podataka: Kontrola neželjene pošte, upravljanje komentarima.
  3. Legitimacija: Vaš pristanak
  4. Komunikacija podataka: Podaci se neće dostavljati trećim stranama, osim po zakonskoj obavezi.
  5. Pohrana podataka: Baza podataka koju hostuje Occentus Networks (EU)
  6. Prava: U bilo kojem trenutku možete ograničiti, oporaviti i izbrisati svoje podatke.