NLLB, Facebook AI pro přímý překlad textu

Nedávno Facebook odhalen prostřednictvím publikace vývoj projekt NLLB (No Language Left Behind), jehož cílem je tvořit univerzální model strojového učení pro překlad přímý text z jednoho jazyka do druhého, obcházení přechodného překladu do angličtiny.

Navrhovaný model pokrývá více než 200 jazyků, včetně vzácných afrických a australských jazyků a konečným cílem projektu je poskytnout prostředek komunikace pro všechny lidi bez ohledu na jazyk, kterým mluví.

Aby se lidé mohli lépe spojit už dnes a být součástí metaverze zítřka, vytvořili výzkumníci Meta AI No Language Left Behind (NLLB), snahu vyvinout vysoce kvalitní schopnosti strojového překladu pro většinu světových jazyků.

Dnes oznamujeme významný pokrok v NLLB: vytvořili jsme jediný model umělé inteligence s názvem NLLB-200., který překládá 200 různých jazyků se špičkovými výsledky. Mnohé z těchto jazyků, jako je kamba a laoština, nebyly podporovány ani těmi nejlepšími překladatelskými nástroji, které jsou dnes k dispozici.

O projektu je zmíněno, že ano má za cíl zjednodušit tvorbu projektů pomocí navrženého modelu, aplikační kód používaný k testování a hodnocení kvality modelů (FLORES-200, NLLB-MD, Toxicity-200), trénovací kód modelu a kodéry založené na knihovně LASER3 (Agnostic Software Representation of the idiom). Finální model je nabízen ve dvou verzích: plné a zmenšené. Redukovaná verze vyžaduje méně zdrojů a je vhodná pro testování a použití ve výzkumných projektech.

V současnosti je široce používanými překladatelskými nástroji podporováno méně než 25 afrických jazyků, z nichž mnohé jsou nekvalitní. Naproti tomu NLLB-200 podporuje 55 afrických jazyků s vysoce kvalitním výstupem. Celkově může tento unikátní model poskytnout vysoce kvalitní překlady do jazyků, kterými mluví miliardy lidí po celém světě. Celkově se skóre NLLB-200 BLEU zlepšilo oproti předchozímu stavu v průměru o 44 procent ve všech 10 101 směrech benchmarku FLORES-70. U některých afrických a indických jazyků je nárůst vyšší než XNUMX procent oproti současným překladatelským systémům.

Na rozdíl od jiných překladatelských systémů strojového učení Řešení Facebooku vyniká tím, že nabízí společný model pro všech 200 jazyků, která pokrývá všechny jazyky a nevyžaduje samostatné modely pro každý jazyk.

Překlad se provádí přímo ze zdrojového jazyka do cílového jazyka, bez přechodného překladu do angličtiny. Pro vytvoření univerzálních překladatelských systémů je navržen dodatečný model LID (Language IDentification), který umožňuje určit použitý jazyk. Tito. systém dokáže automaticky rozpoznat jazyk, ve kterém jsou informace poskytovány, a přeložit je do jazyka uživatele.

Překlad je podporován v obou směrech, mezi kterýmkoli z 200 podporovaných jazyků. Pro potvrzení kvality překladu mezi libovolnými jazyky byla připravena srovnávací testovací sada FLORES-200, která ukázala, že model NLLB-200 je z hlediska kvality překladu v průměru o 44 % lepší než systémy FLORES-70. navrhl výzkum založený na strojovém učení při použití metrik BLEU, které porovnávají strojový překlad se standardním lidským překladem. U vzácných afrických jazyků a indických dialektů dosahuje kvalita převahy XNUMX %. Kvalitu překladu můžete vizuálně posoudit na speciálně připravené ukázkové stránce.

Pro ty, kteří se o projekt zajímají, by měli vědět, že model je dostupný pod licencí Creative Commons BY-NC 4.0, která umožňuje kopírování, distribuci, zahrnutí do vašich projektů a vytváření odvozených děl, avšak s výhradou uvedení zdroje, zachování licence a použití pouze pro nekomerční účely. Modelovací nástroj je licencován pod licencí MIT. Aby se stimuloval rozvoj pomocí modelu NLLB, bylo rozhodnuto vyčlenit 200 XNUMX $ na udělování stipendií výzkumníkům.

Konečně pokud máte zájem o tom vědět více o poznámce můžete zkontrolovat původní příspěvek Na následujícím odkazu.


Zanechte svůj komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *

*

*

  1. Odpovědný za údaje: Miguel Ángel Gatón
  2. Účel údajů: Ovládací SPAM, správa komentářů.
  3. Legitimace: Váš souhlas
  4. Sdělování údajů: Údaje nebudou sděleny třetím osobám, s výjimkou zákonných povinností.
  5. Úložiště dat: Databáze hostovaná společností Occentus Networks (EU)
  6. Práva: Vaše údaje můžete kdykoli omezit, obnovit a odstranit.