NLLB, en Facebook AI for direkte tekstoversettelse

nylig Facebook avduket gjennom en publikasjon utviklingen av NLLB-prosjekt (No Language Left Behind), hvis mål er å skape en universell maskinlæringsmodell for oversettelse direkte tekst fra ett språk til et annet, utenom den mellomliggende oversettelsen til engelsk.

Den foreslåtte modellen dekker over 200 språk, inkludert sjeldne afrikanske og australske språk og det endelige målet med prosjektet er å gi et kommunikasjonsmiddel for alle mennesker, uavhengig av språket de snakker.

For å hjelpe folk bedre å koble sammen i dag og være en del av morgendagens metavers, opprettet Meta AI-forskere No Language Left Behind (NLLB), et forsøk på å utvikle høykvalitets maskinoversettelsesfunksjoner for de fleste av verdens språk. .

I dag kunngjør vi et stort fremskritt innen NLLB: vi har laget en enkelt AI-modell kalt NLLB-200., som oversetter 200 forskjellige språk med banebrytende resultater. Mange av disse språkene, som Kamba og Lao, ble ikke støttet av selv de beste oversettelsesverktøyene som er tilgjengelige i dag.

Om prosjektet er det nevnt at det er det ment å forenkle opprettelsen av prosjekter ved hjelp av den foreslåtte modellen, applikasjonskoden som brukes til å teste og evaluere kvaliteten på modellene (FLORES-200, NLLB-MD, Toxicity-200), modelltreningskoden og kodere basert på LASER3-biblioteket (Agnostic Software Representation of the idiom). Den endelige modellen tilbys i to versjoner: full og redusert. Den reduserte versjonen krever færre ressurser og egner seg for testing og bruk i forskningsprosjekter.

Færre enn 25 afrikanske språk støttes for tiden av mye brukte oversettelsesverktøy, hvorav mange er av dårlig kvalitet. NLLB-200 støtter derimot 55 afrikanske språk med høykvalitets utdata. Totalt sett kan denne unike modellen gi oversettelser av høy kvalitet for språk som snakkes av milliarder av mennesker rundt om i verden. Totalt forbedrer NLLB-200 BLEU-poengsummen i forhold til tidligere toppmoderne med et gjennomsnitt på 44 prosent i alle 10k retninger av FLORES-101-referansen. For noen afrikanske og indiske språk er økningen større enn 70 prosent i forhold til nyere oversettelsessystemer.

I motsetning til andre oversettelsessystemer for maskinlæring, Facebooks løsning skiller seg ut ved å tilby en felles modell for alle 200 språk, som dekker alle språk og ikke krever separate modeller for hvert språk.

Oversettelsen gjøres direkte fra kildespråket til målspråket, uten mellomliggende oversettelse til engelsk. For å lage universelle oversettelsessystemer, foreslås en ekstra LID-modell (Language IDentification) som gjør det mulig å bestemme språket som brukes. De. systemet kan automatisk gjenkjenne språket som informasjonen er gitt på og oversette det til brukerens språk.

Oversettelse støttes i begge retninger, mellom et av de 200 støttede språkene. For å bekrefte kvaliteten på oversettelsen mellom et hvilket som helst språk, ble FLORES-200 benchmark-testsett utarbeidet, som viste at NLLB-200-modellen, når det gjelder oversettelseskvalitet, i gjennomsnitt er 44 % bedre enn FLORES-70-systemene. foreslått forskning basert på maskinlæring ved bruk av BLEU-beregninger som sammenligner maskinoversettelse med standard menneskelig oversettelse. For sjeldne afrikanske språk og indiske dialekter når overlegenheten i kvalitet XNUMX%. Du kan visuelt vurdere oversettelseskvaliteten på en spesiallaget demoside.

For de som er interessert i prosjektet, bør de vite at modellen er tilgjengelig under en Creative Commons BY-NC 4.0-lisens, som tillater kopiering, distribusjon, inkludering i prosjektene dine og oppretting av avledede verk, men underlagt attribusjon, lisensoppbevaring og bruk kun til ikke-kommersielle formål. Modelleringsverktøyet er lisensiert under MIT-lisensen. For å stimulere til utvikling ved hjelp av NLLB-modellen, ble det besluttet å bevilge 200 XNUMX dollar for å gi stipend til forskere.

Endelig hvis du er interessert i å vite mer om det om notatet, kan du sjekke det opprinnelige innlegget I den følgende lenken.


Legg igjen kommentaren

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

*

*

  1. Ansvarlig for dataene: Miguel Ángel Gatón
  2. Formålet med dataene: Kontroller SPAM, kommentaradministrasjon.
  3. Legitimering: Ditt samtykke
  4. Kommunikasjon av dataene: Dataene vil ikke bli kommunisert til tredjeparter bortsett fra ved juridisk forpliktelse.
  5. Datalagring: Database vert for Occentus Networks (EU)
  6. Rettigheter: Når som helst kan du begrense, gjenopprette og slette informasjonen din.