NLLB, un Facebook AI pentru traducerea directă a textului

recent Facebook a fost dezvăluit printr-o publicație evoluțiile din Proiectul NLLB (No Language Left Behind), al cărui obiectiv este să creeze un model universal de învățare automată pentru traducere direct text dintr-o limbă în alta, fără a trece printr-o traducere intermediară în engleză.

Modelul propus acoperă peste 200 de limbi, inclusiv limbi rare africane și australiene iar scopul final al proiectului este de a oferi un mijloc de comunicare pentru toți oamenii, indiferent de limba pe care o vorbesc.

Pentru a ajuta oamenii să se conecteze mai bine astăzi și să facă parte din metaversul de mâine, cercetătorii Meta AI au creat No Language Left Behind (NLLB), un efort de a dezvolta capabilități de traducere automată de înaltă calitate pentru majoritatea limbilor lumii.

Astăzi anunțăm o descoperire majoră în NLLB: am creat un singur model AI numit NLLB-200, care traduce 200 de limbi diferite cu rezultate de ultimă oră. Multe dintre aceste limbi, cum ar fi Kamba și Lao, nu au fost acceptate nici măcar de cele mai bune instrumente de traducere disponibile astăzi.

Despre proiect se mentioneaza ca este menită să simplifice crearea de proiecte folosind modelul propus, codul aplicației folosit pentru testarea și evaluarea calității modelelor (FLORES-200, NLLB-MD, Toxicity-200), codul de antrenament al modelelor și codificatorilor bazat pe biblioteca LASER3 (Agnostic SOrence Representation of the language). Modelul final este oferit în două versiuni: complet și redus. Versiunea redusă necesită mai puține resurse și este potrivită pentru testare și utilizare în proiecte de cercetare.

În prezent, mai puțin de 25 de limbi africane sunt susținute de instrumente de traducere utilizate pe scară largă, dintre care multe sunt de proastă calitate. În schimb, NLLB-200 acceptă 55 de limbi africane cu rezultate de înaltă calitate. În total, acest model unic poate oferi traduceri de înaltă calitate pentru limbile vorbite de miliarde de oameni din întreaga lume. În total, scorurile NLLB-200 BLEU îmbunătățesc stadiul anterior al tehnicii cu o medie de 44% în toate cele 10k direcții ale benchmark-ului FLORES-101. Pentru unele limbi africane și indiene, creșterea este de peste 70% față de sistemele recente de traducere.

Spre deosebire de alte sisteme de traducere de învățare automată, Soluția Facebook se remarcă prin faptul că oferă un model comun pentru toate cele 200 de limbi, care acoperă toate limbile și nu necesită modele separate pentru fiecare limbă.

Traducerea se realizează direct din limba sursă în limba țintă, fără traducere intermediară în limba engleză. Pentru a crea sisteme universale de traducere, se propune un model suplimentar LID (Language IDentification), care permite determinarea limbajului folosit. Acestea. Sistemul poate recunoaște automat limba în care sunt furnizate informațiile și o poate traduce în limba utilizatorului.

Traducerea este acceptată în orice direcție, dintre oricare dintre cele 200 de limbi acceptate. Pentru a confirma calitatea traducerii între orice limbă, a fost pregătită suita de teste de referință FLORES-200, care a arătat că modelul NLLB-200, în ceea ce privește calitatea traducerii, este în medie cu 44% superior cercetărilor propuse anterior bazate pe învățarea automată atunci când folosind valorile BLEU care compară traducerea automată cu traducerea umană standard. Pentru limbile africane rare și dialectele indiene, superioritatea calității ajunge la 70%. Puteți evalua vizual calitatea traducerii pe un site demo special pregătit.

Pentru cei care sunt interesați de proiect, trebuie să știți că modelul este disponibil sub o licență Creative Commons BY-NC 4.0, care permite copierea, distribuirea, includerea în proiectele dvs. și crearea de lucrări derivate, dar supuse atribuirii, păstrării licenței și utilizării numai în scopuri necomerciale. Instrumentul de modelare este licențiat sub licența MIT. Pentru a stimula dezvoltarea folosind modelul NLLB, s-a decis să se aloce 200 USD pentru a oferi burse cercetătorilor.

În cele din urmă dacă sunteți interesat să aflați mai multe despre asta despre notă, puteți verifica postarea originală În următorul link.


Lasă comentariul tău

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

*

*

  1. Responsabil pentru date: Miguel Ángel Gatón
  2. Scopul datelor: Control SPAM, gestionarea comentariilor.
  3. Legitimare: consimțământul dvs.
  4. Comunicarea datelor: datele nu vor fi comunicate terților decât prin obligație legală.
  5. Stocarea datelor: bază de date găzduită de Occentus Networks (UE)
  6. Drepturi: în orice moment vă puteți limita, recupera și șterge informațiile.