NLLB, un'IA di Facebook per la traduzione diretta del testo

recentemente Facebook svelato attraverso una pubblicazione gli sviluppi del progetto NLLB (No Language Left Behind), il cui obiettivo è creare un modello universale di apprendimento automatico per la traduzione testo diretto da una lingua all'altra, bypassando la traduzione intermedia in inglese.

Il modello proposto copre oltre 200 lingue, comprese le rare lingue africane e australiane e l'obiettivo finale del progetto è fornire un mezzo di comunicazione per tutte le persone, indipendentemente dalla lingua che parlano.

Per aiutare le persone a connettersi meglio oggi ed essere parte del metaverso di domani, i ricercatori Meta AI hanno creato No Language Left Behind (NLLB), uno sforzo per sviluppare capacità di traduzione automatica di alta qualità per la maggior parte delle lingue del mondo.

Oggi annunciamo un importante progresso in NLLB: abbiamo creato un unico modello di IA chiamato NLLB-200., che traduce 200 lingue diverse con risultati all'avanguardia. Molte di queste lingue, come Kamba e Lao, non erano supportate nemmeno dai migliori strumenti di traduzione oggi disponibili.

Sul progetto si dice che lo è inteso a semplificare la creazione di progetti utilizzando il modello proposto, il codice applicativo utilizzato per testare e valutare la qualità dei modelli (FLORES-200, NLLB-MD, Toxicity-200), il codice di training del modello e gli encoder basati sulla libreria LASER3 (Agnostic Software Representation of the idiom). Il modello finale è proposto in due versioni: integrale e ridotta. La versione ridotta richiede meno risorse ed è adatta per essere testata e utilizzata in progetti di ricerca.

Meno di 25 lingue africane sono attualmente supportate da strumenti di traduzione ampiamente utilizzati, molti dei quali di scarsa qualità. Al contrario, NLLB-200 supporta 55 lingue africane con output di alta qualità. In totale, questo modello unico può fornire traduzioni di alta qualità per le lingue parlate da miliardi di persone in tutto il mondo. In totale, i punteggi NLLB-200 BLEU migliorano rispetto allo stato dell'arte precedente di una media del 44% in tutte le direzioni 10k del benchmark FLORES-101. Per alcune lingue africane e indiane, l'aumento è superiore al 70% rispetto ai recenti sistemi di traduzione.

A differenza di altri sistemi di traduzione di apprendimento automatico, La soluzione di Facebook si distingue per offrire un modello comune per tutte le 200 lingue, che copre tutte le lingue e non richiede modelli separati per ciascuna lingua.

La traduzione avviene direttamente dalla lingua di partenza alla lingua di arrivo, senza traduzioni intermedie in inglese. Per creare sistemi di traduzione universali, viene proposto un modello LID (Language IDentification) aggiuntivo, che consente di determinare la lingua utilizzata. Quelli. il sistema è in grado di riconoscere automaticamente la lingua in cui vengono fornite le informazioni e di tradurle nella lingua dell'utente.

La traduzione è supportata in entrambe le direzioni, tra una qualsiasi delle 200 lingue supportate. Per confermare la qualità della traduzione tra qualsiasi lingua, è stato preparato il set di test di benchmark FLORES-200, che ha mostrato che il modello NLLB-200, in termini di qualità della traduzione, è in media del 44% superiore ai sistemi FLORES-70. ricerca proposta basata sull'apprendimento automatico quando si utilizzano le metriche BLEU che confrontano la traduzione automatica con la traduzione umana standard. Per le lingue africane rare e i dialetti indiani, la superiorità qualitativa raggiunge il XNUMX%. Puoi valutare visivamente la qualità della traduzione su un sito dimostrativo appositamente preparato.

Per coloro che sono interessati al progetto, dovrebbero sapere che il modello è disponibile con licenza Creative Commons BY-NC 4.0, che consente la copia, la distribuzione, l'inclusione nei tuoi progetti e la creazione di opere derivate, ma soggetta ad attribuzione, conservazione della licenza e utilizzo solo per scopi non commerciali. Lo strumento di modellazione è concesso in licenza con la licenza MIT. Per stimolare lo sviluppo utilizzando il modello NLLB, è stato deciso di stanziare $ 200 per concedere borse di studio ai ricercatori.

Infine se sei interessato a saperne di più per la nota, puoi fare riferimento al post originale nel seguente link


Lascia un tuo commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *

*

*

  1. Responsabile dei dati: Miguel Ángel Gatón
  2. Scopo dei dati: controllo SPAM, gestione commenti.
  3. Legittimazione: il tuo consenso
  4. Comunicazione dei dati: I dati non saranno oggetto di comunicazione a terzi se non per obbligo di legge.
  5. Archiviazione dati: database ospitato da Occentus Networks (UE)
  6. Diritti: in qualsiasi momento puoi limitare, recuperare ed eliminare le tue informazioni.