NLLB, Facebook AI na priamy preklad textu

Nedávno Facebook predstavený prostredníctvom publikácie o vývoji projekt NLLB (No Language Left Behind), ktorej cieľom je tvoriť univerzálny model strojového učenia pre preklad priamy text z jedného jazyka do druhého, obídenie prechodného prekladu do angličtiny.

Navrhovaný model pokrýva viac ako 200 jazykov vrátane zriedkavých afrických a austrálskych jazykov a konečným cieľom projektu je poskytnúť prostriedok komunikácie pre všetkých ľudí bez ohľadu na jazyk, ktorým hovoria.

S cieľom pomôcť ľuďom lepšie sa spojiť už dnes a byť súčasťou metaverza zajtrajška, výskumníci Meta AI vytvorili No Language Left Behind (NLLB), snahu vyvinúť vysokokvalitné schopnosti strojového prekladu pre väčšinu svetových jazykov.

Dnes oznamujeme významný pokrok v NLLB: vytvorili sme jediný model AI s názvom NLLB-200., ktorý prekladá 200 rôznych jazykov so špičkovými výsledkami. Mnohé z týchto jazykov, ako napríklad Kamba a Lao, neboli podporované ani tými najlepšími prekladateľskými nástrojmi, ktoré sú dnes k dispozícii.

O projekte sa spomína, že je určené na zjednodušenie tvorby projektov pomocou navrhovaného modelu, aplikačný kód používaný na testovanie a hodnotenie kvality modelov (FLORES-200, NLLB-MD, Toxicity-200), trénovací kód modelu a kódovače založené na knižnici LASER3 (Agnostic Software Representation of the idiom). Finálny model je ponúkaný v dvoch verziách: plná a zmenšená. Redukovaná verzia vyžaduje menej zdrojov a je vhodná na testovanie a použitie vo výskumných projektoch.

Menej ako 25 afrických jazykov je v súčasnosti podporovaných široko používanými prekladateľskými nástrojmi, z ktorých mnohé sú nekvalitné. Naproti tomu NLLB-200 podporuje 55 afrických jazykov s vysokokvalitným výstupom. Celkovo môže tento jedinečný model poskytnúť vysokokvalitné preklady do jazykov, ktorými hovoria miliardy ľudí na celom svete. Celkovo sa skóre NLLB-200 BLEU zlepšilo oproti predchádzajúcemu stavu v priemere o 44 percent vo všetkých 10 101 smeroch benchmarku FLORES-70. V prípade niektorých afrických a indických jazykov je nárast vyšší ako XNUMX percent v porovnaní s najnovšími prekladateľskými systémami.

Na rozdiel od iných prekladových systémov strojového učenia, Riešenie Facebooku vyniká tým, že ponúka spoločný model pre všetkých 200 jazykov, ktorá pokrýva všetky jazyky a nevyžaduje samostatné modely pre každý jazyk.

Preklad sa vykonáva priamo zo zdrojového jazyka do cieľového jazyka, bez prechodného prekladu do angličtiny. Na vytvorenie univerzálnych prekladových systémov sa navrhuje dodatočný model LID (Language IDentification), ktorý umožňuje určiť použitý jazyk. Tie. systém dokáže automaticky rozpoznať jazyk, v ktorom sú informácie poskytované, a preložiť ich do jazyka používateľa.

Preklad je podporovaný v oboch smeroch, medzi ktorýmkoľvek z 200 podporovaných jazykov. Na potvrdenie kvality prekladu medzi ľubovoľným jazykom bol pripravený benchmarkový test FLORES-200, ktorý ukázal, že model NLLB-200 je z hľadiska kvality prekladu v priemere o 44 % lepší ako systémy FLORES-70. navrhol výskum založený na strojovom učení pri použití metrík BLEU, ktoré porovnávajú strojový preklad so štandardným ľudským prekladom. V prípade vzácnych afrických jazykov a indických dialektov dosahuje prevaha kvality XNUMX%. Kvalitu prekladu môžete vizuálne posúdiť na špeciálne pripravenej demo stránke.

Pre tých, ktorí sa o projekt zaujímajú, by mali vedieť, že model je dostupný pod licenciou Creative Commons BY-NC 4.0, ktorý umožňuje kopírovanie, distribúciu, začlenenie do vašich projektov a vytváranie odvodených diel, avšak s výhradou pripísania zdroja, uchovávania licencie a používania len na nekomerčné účely. Modelovací nástroj je licencovaný pod licenciou MIT. Na stimuláciu rozvoja pomocou modelu NLLB sa rozhodlo vyčleniť 200 XNUMX USD na udelenie štipendií výskumníkom.

Konečne ak máte záujem dozvedieť sa o tom viac o poznámke si môžete skontrolovať pôvodný príspevok Na nasledujúcom odkaze.


Zanechajte svoj komentár

Vaša e-mailová adresa nebude zverejnená. Povinné položky sú označené *

*

*

  1. Zodpovedný za údaje: Miguel Ángel Gatón
  2. Účel údajov: Kontrolný SPAM, správa komentárov.
  3. Legitimácia: Váš súhlas
  4. Oznamovanie údajov: Údaje nebudú poskytnuté tretím stranám, iba ak to vyplýva zo zákona.
  5. Ukladanie dát: Databáza hostená spoločnosťou Occentus Networks (EU)
  6. Práva: Svoje údaje môžete kedykoľvek obmedziť, obnoviť a vymazať.