NLLB, en Facebook AI för direkt textöversättning

nyligen Facebook presenteras genom en publikation utvecklingen av NLLB-projekt (No Language Left Behind), vars mål är att skapa en universell maskininlärningsmodell för översättning direkt text från ett språk till ett annat, förbi den mellanliggande översättningen till engelska.

Den föreslagna modellen täcker över 200 språk, inklusive sällsynta afrikanska och australiska språk och det yttersta målet med projektet är att tillhandahålla ett kommunikationsmedel för alla människor, oavsett vilket språk de talar.

För att hjälpa människor att bättre ansluta idag och vara en del av morgondagens metavers, skapade Meta AI-forskare No Language Left Behind (NLLB), ett försök att utveckla högkvalitativa maskinöversättningsmöjligheter för de flesta av världens språk. .

Idag tillkännager vi ett stort framsteg inom NLLB: vi har skapat en enda AI-modell som heter NLLB-200., som översätter 200 olika språk med banbrytande resultat. Många av dessa språk, som Kamba och Lao, stöddes inte ens av de bästa översättningsverktygen som finns tillgängliga idag.

Om projektet nämns att det är syftar till att förenkla skapandet av projekt som använder den föreslagna modellen, applikationskoden som används för att testa och utvärdera kvaliteten på modellerna (FLORES-200, NLLB-MD, Toxicity-200), modellträningskoden och kodare baserade på LASER3-biblioteket (Agnostic Software Representation of the idiom). Den slutliga modellen erbjuds i två versioner: full och reducerad. Den reducerade versionen kräver färre resurser och lämpar sig för testning och användning i forskningsprojekt.

Färre än 25 afrikanska språk stöds för närvarande av allmänt använda översättningsverktyg, varav många är av dålig kvalitet. Däremot stöder NLLB-200 55 afrikanska språk med högkvalitativa utdata. Sammantaget kan denna unika modell tillhandahålla högkvalitativa översättningar för språk som talas av miljarder människor runt om i världen. Totalt förbättras NLLB-200 BLEU-poängen jämfört med tidigare teknik med i genomsnitt 44 procent i alla 10 101 riktningar av FLORES-70-riktmärket. För vissa afrikanska och indiska språk är ökningen mer än XNUMX procent jämfört med de senaste översättningssystemen.

Till skillnad från andra översättningssystem för maskininlärning, Facebooks lösning utmärker sig genom att erbjuda en gemensam modell för alla 200 språk, som täcker alla språk och inte kräver separata modeller för varje språk.

Översättningen görs direkt från källspråket till målspråket, utan mellanliggande översättning till engelska. För att skapa universella översättningssystem föreslås ytterligare en LID-modell (Language IDentification) som gör det möjligt att bestämma vilket språk som används. De där. systemet kan automatiskt känna igen språket som informationen tillhandahålls på och översätta den till användarens språk.

Översättning stöds i båda riktningarna, mellan något av de 200 språken som stöds. För att bekräfta kvaliteten på översättningen mellan vilket språk som helst, utarbetades FLORES-200 benchmark-testset, som visade att NLLB-200-modellen, vad gäller översättningskvalitet, i genomsnitt är 44 % överlägsen FLORES-70-systemen. föreslagen forskning baserad på maskininlärning vid användning av BLEU-mått som jämför maskinöversättning med mänsklig standardöversättning. För sällsynta afrikanska språk och indiska dialekter når överlägsenheten i kvalitet XNUMX%. Du kan visuellt bedöma översättningskvaliteten på en speciellt förberedd demosida.

För dem som är intresserade av projektet bör de veta att modellen är tillgänglig under en Creative Commons BY-NC 4.0-licens, som tillåter kopiering, distribution, inkludering i dina projekt och skapande av härledda verk, men med förbehåll för tillskrivning, licensbehållning och användning endast för icke-kommersiella ändamål. Modelleringsverktyget är licensierat under MIT-licensen. För att stimulera utveckling med hjälp av NLLB-modellen beslutades att anslå 200 XNUMX $ för att bevilja stipendier till forskare.

Slutligen om du är intresserad av att veta mer om det om lappen kan du hänvisa till det ursprungliga inlägget I följande länk.


Lämna din kommentar

Din e-postadress kommer inte att publiceras. Obligatoriska fält är markerade med *

*

*

  1. Ansvarig för uppgifterna: Miguel Ángel Gatón
  2. Syftet med uppgifterna: Kontrollera skräppost, kommentarhantering.
  3. Legitimering: Ditt samtycke
  4. Kommunikation av uppgifterna: Uppgifterna kommer inte att kommuniceras till tredje part förutom enligt laglig skyldighet.
  5. Datalagring: databas värd för Occentus Networks (EU)
  6. Rättigheter: När som helst kan du begränsa, återställa och radera din information.