NLLB, un AI de Facebook per a la traducció directa de text

fa poc Facebook va donar a conèixer mitjançant una publicació els desenvolupaments del projecte NLLB (No Language Left Behind), l'objectiu del qual és crear un model universal d'aprenentatge automàtic per a la traducció directe de text d'un idioma a un altre, sense passar per la traducció intermèdia a l'anglès.

El model proposat cobreix més de 200 idiomes, inclosos idiomes rars africans i australians i l'objectiu final del projecte és proporcionar un mitjà de comunicació per a tothom, independentment de l'idioma que parlin.

Per ajudar les persones a connectar-se millor avui i ser part del metavers del demà, els investigadors de Meta AI van crear No Language Left Behind (NLLB), un esforç per desenvolupar capacitats de traducció automàtica d'alta qualitat per a la majoria dels idiomes del món .

Avui anunciem un avenç important a NLLB: hem creat un únic model d'IA anomenat NLLB-200, que tradueix 200 idiomes diferents amb resultats d'avantguarda. Molts d'aquests idiomes, com el kamba i el lao, no eren compatibles ni tan sols amb les millors eines de traducció existents actualment.

Sobre el projecte s'esmenta que està destinat per simplificar la creació de projectes utilitzant el model proposat, el codi d'aplicacions utilitzat per provar i avaluar la qualitat dels models (FLORES-200, NLLB-MD, Toxicity-200), el codi d'entrenament de models i codificadors basats a la llibreria LASER3 (Representació de SOrència agnòstica del idioma). El model final s´ofereix en dues versions: completa i reduïda. La versió reduïda requereix menys recursos i és adequada per a proves i ús en projectes de recerca.

Actualment, menys de 25 idiomes africans són compatibles amb eines de traducció àmpliament utilitzades, moltes de les quals són de mala qualitat. Per contra, NLLB-200 admet 55 idiomes africans amb resultats d'alta qualitat. En total, aquest model únic pot proporcionar traduccions d'alta qualitat per a idiomes parlats per milers de milions de persones a tot el món. En total, les puntuacions BLEU de NLLB-200 milloren l'estat de l'art anterior en una mitjana del 44 per cent en totes les direccions de 10k del punt de referència FLORES-101. Per a alguns idiomes africans i indis, l'augment és superior al 70% respecte dels sistemes de traducció recents.

A diferència d'altres sistemes de traducció d'aprenentatge automàtic, la solució de Facebook es destaca per oferir un model comú per als 200 idiomes, que cobreix tots els idiomes i no requereix models separats per a cada idioma.

La traducció es fa directament de l'idioma d'origen a la destinació, sense traducció intermèdia a l'anglès. Per crear sistemes de traducció universals, es proposa un model LID (Language IDentification) addicional que permet determinar l'idioma utilitzat. Aquells. el sistema pot reconèixer automàticament l'idioma en què es proporciona la informació i traduir-la a l'idioma de l'usuari.

La traducció és compatible en qualsevol adreça, entre qualsevol dels 200 idiomes admesos. Per confirmar la qualitat de la traducció entre qualsevol idioma, es va preparar el conjunt de prova de referència FLORES-200, que va mostrar que el model NLLB-200, en termes de qualitat de traducció, és de mitjana un 44% superior als sistemes de investigació proposats anteriorment basats en aprenentatge automàtic quan sutilitzen mètriques BLEU que comparen la traducció automàtica amb la traducció humana estàndard. Per a llengües africanes rares i dialectes indis, la superioritat en qualitat arriba al 70%. Podeu avaluar visualment la qualitat de la traducció en un lloc de demostració especialment preparat.

Per als qui estiguin interessats en el projecte, han de saber que el model està disponible sota una llicència Creative Commons BY-NC 4.0, que permet la còpia, distribució, inclusió en els seus projectes i creació de treballs derivats, però subjecte a atribució, retenció de la llicència i ús únicament amb finalitats no comercials. L'eina de modelització té la llicència MIT. Per estimular el desenvolupament utilitzant el model NLLB, es va decidir destinar 200 dòlars per atorgar beques a investigadors.

Finalment si estàs interessat en poder conèixer més a l'respecte sobre la nota, pots consultar la publicació original en el següent enllaç.


Deixa el teu comentari

La seva adreça de correu electrònic no es publicarà. Els camps obligatoris estan marcats amb *

*

*

  1. Responsable de les dades: Miguel Ángel Gatón
  2. Finalitat de les dades: Controlar l'SPAM, gestió de comentaris.
  3. Legitimació: El teu consentiment
  4. Comunicació de les dades: No es comunicaran les dades a tercers excepte per obligació legal.
  5. Emmagatzematge de les dades: Base de dades allotjada en Occentus Networks (UE)
  6. Drets: En qualsevol moment pots limitar, recuperar i esborrar la teva informació.