NLLB, een Facebook AI voor directe tekstvertaling

onlangs Facebook onthuld via een publicatie de ontwikkelingen van de NLLB-project (No Language Left Behind), wiens doel het is om te creëren een universeel machine learning-model voor vertaling directe tekst van de ene taal naar de andere, waarbij de tussentijdse vertaling naar het Engels wordt omzeild.

Het voorgestelde model omvat meer dan 200 talen, waaronder zeldzame Afrikaanse en Australische talen en het uiteindelijke doel van het project is om een ​​communicatiemiddel te bieden voor alle mensen, ongeacht de taal die ze spreken.

Om mensen te helpen vandaag beter contact te maken en deel uit te maken van de metaverse van morgen, hebben Meta AI-onderzoekers No Language Left Behind (NLLB) gecreëerd, een poging om hoogwaardige machinevertalingsmogelijkheden te ontwikkelen voor de meeste talen van de wereld.

Vandaag kondigen we een grote vooruitgang in NLLB aan: we hebben één enkel AI-model gemaakt genaamd NLLB-200., dat 200 verschillende talen vertaalt met geavanceerde resultaten. Veel van deze talen, zoals Kamba en Lao, werden zelfs niet ondersteund door de beste vertaaltools die tegenwoordig beschikbaar zijn.

Over het project wordt vermeld dat het is bedoeld om het creëren van projecten te vereenvoudigen met behulp van het voorgestelde model, de applicatiecode die wordt gebruikt om de kwaliteit van de modellen te testen en te evalueren (FLORES-200, NLLB-MD, Toxicity-200), de modeltrainingscode en encoders op basis van de LASER3-bibliotheek (Agnostic Software Representation of the idiom). Het uiteindelijke model wordt aangeboden in twee versies: vol en gereduceerd. De gereduceerde versie vereist minder middelen en is geschikt om te testen en te gebruiken in onderzoeksprojecten.

Minder dan 25 Afrikaanse talen worden momenteel ondersteund door veelgebruikte vertaaltools, waarvan vele van slechte kwaliteit. De NLLB-200 ondersteunt daarentegen 55 Afrikaanse talen met hoogwaardige uitvoer. In totaal kan dit unieke model hoogwaardige vertalingen leveren voor talen die door miljarden mensen over de hele wereld worden gesproken. In totaal verbeteren de NLLB-200 BLEU-scores ten opzichte van de vorige stand van de techniek met gemiddeld 44 procent in alle 10k-richtingen van de FLORES-101-benchmark. Voor sommige Afrikaanse en Indiase talen is de toename meer dan 70 procent ten opzichte van recente vertaalsystemen.

In tegenstelling tot andere vertaalsystemen voor machine learning, De oplossing van Facebook onderscheidt zich door het aanbieden van een gemeenschappelijk model voor alle 200 talen, die alle talen omvat en geen aparte modellen voor elke taal vereist.

De vertaling gebeurt rechtstreeks vanuit de brontaal naar de doeltaal, zonder tussentijdse vertaling naar het Engels. Om universele vertaalsystemen te creëren, wordt een extra LID-model (Language IDentification) voorgesteld, waarmee de gebruikte taal kan worden bepaald. Die. het systeem kan automatisch de taal herkennen waarin de informatie wordt verstrekt en deze vertalen naar de taal van de gebruiker.

Vertaling wordt in beide richtingen ondersteund, tussen een van de 200 ondersteunde talen. Om de kwaliteit van de vertaling tussen elke taal te bevestigen, werd de FLORES-200 benchmark-testset opgesteld, waaruit bleek dat het NLLB-200-model, in termen van vertaalkwaliteit, gemiddeld 44% superieur is aan de FLORES-70-systemen. voorgesteld onderzoek op basis van machine learning bij het gebruik van BLEU-statistieken die machinevertaling vergelijken met standaard menselijke vertaling. Voor zeldzame Afrikaanse talen en Indiase dialecten bereikt de superioriteit in kwaliteit XNUMX%. U kunt de vertaalkwaliteit visueel beoordelen op een speciaal voorbereide demosite.

Voor degenen die geïnteresseerd zijn in het project, moeten ze weten dat de model is beschikbaar onder een Creative Commons BY-NC 4.0-licentie, die kopiëren, distributie, opname in uw projecten en het maken van afgeleide werken toestaat, maar onderhevig aan toeschrijving, behoud van licenties en gebruik voor niet-commerciële doeleinden. De modelleringstool is gelicentieerd onder de MIT-licentie. Om ontwikkeling met het NLLB-model te stimuleren, is besloten om $ 200 uit te trekken voor het verstrekken van beurzen aan onderzoekers.

Eindelijk als u er meer over wilt weten over de notitie, kunt u verwijzen naar de originele post In de volgende link.


Laat je reactie achter

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *

*

*

  1. Verantwoordelijk voor de gegevens: Miguel Ángel Gatón
  2. Doel van de gegevens: Controle SPAM, commentaarbeheer.
  3. Legitimatie: uw toestemming
  4. Mededeling van de gegevens: De gegevens worden niet aan derden meegedeeld, behalve op grond van wettelijke verplichting.
  5. Gegevensopslag: database gehost door Occentus Networks (EU)
  6. Rechten: u kunt uw gegevens op elk moment beperken, herstellen en verwijderen.