NLLB, Facebook AI oo loogu talagalay turjumaadda qoraalka tooska ah

Dhawaan Facebook ayaa shaaca laga qaaday iyada oo loo marayo daabacaad horumarka ah ee Mashruuca NLLB (Luqad ka hadhin), ujeeddadeeduna tahay in la abuuro qaabka barashada mashiinka caalamiga ah ee tarjumaada qoraal toos ah oo luqad kale ka soo baxa, iyadoo laga gudbayo tarjumaada dhexe ee Ingiriisiga.

Qaabka la soo jeediyay waxay daboolaysaa in ka badan 200 oo luqadood, oo ay ku jiraan afafka Afrikaan iyo Australiya naadirka ah iyo hadafka ugu dambeeya ee mashruucu waa in la siiyo hab isgaarsiineed dhammaan dadka, iyadoon loo eegin luqadda ay ku hadlaan.

Si dadka looga caawiyo inay si wanaagsan maanta isugu xidhmaan oo ay qayb uga noqdaan kala-duwanaanshaha berrito, cilmi-baarayaasha Meta AI waxay abuureen Wax Luuqad ah oo ka dambeeya (NLLB), dadaal lagu horumarinayo tayada tarjumaada mashiinka tayada sare leh ee inta badan luqadaha adduunka.

Maanta waxaan ku dhawaaqaynaa horumar weyn oo NLLB ah: waxaan abuurnay hal nooc oo AI ah oo la yiraahdo NLLB-200., taas oo tarjumeysa 200 luqadood oo kala duwan oo leh natiijooyin heer sare ah. Qaar badan oo ka mid ah luqadahaas, sida Kamba iyo Lao, laguma taageerin xitaa qalabka turjumaada ugu wanaagsan ee maanta jira.

Ku saabsan mashruuca waxaa lagu xusay inuu yahay loogu talagalay in lagu fududeeyo abuurista mashaariicda iyadoo la adeegsanayo qaabka la soo jeediyay, code code loo isticmaalo in lagu tijaabiyo oo lagu qiimeeyo tayada moodooyinka (FLORES-200, NLLB-MD, Toxicity-200), code tababarka model iyo encoders ku salaysan maktabadda LASER3 (Agnostic Software Matalaadda sarbeeban). Qaabka kama dambaysta ah waxaa lagu bixiyaa laba nooc: buuxa oo la dhimay. Nooca la dhimay wuxuu u baahan yahay ilo yar wuxuuna ku habboon yahay tijaabinta iyo isticmaalka mashaariicda cilmi-baarista.

In ka yar 25 luqadood oo Afrikaan ah ayaa hadda lagu taageeray qalab tarjumaad oo si weyn loo isticmaalo, kuwaas oo intooda badan ay tayadoodu liidato. Taas bedelkeeda, NLLB-200 waxay taageertaa 55 luqadood oo Afrikaan ah oo leh wax soo saar tayo sare leh. Guud ahaan, qaabkan gaarka ah wuxuu ku siin karaa turjumado tayo sare leh oo loogu talagalay luqadaha ay ku hadlaan balaayiin qof oo adduunka ah. Wadar ahaan, buundooyinka NLLB-200 BLEU waxay ku wanaajinayaan xaaladdii hore ee fanka celcelis ahaan 44 boqolkiiba dhammaan jihooyinka 10k ee FLORES-101. Qaar ka mid ah luqadaha Afrikaanka iyo Hindida, kororka ayaa ka badan boqolkiiba 70 marka loo eego nidaamyada tarjumaada ee dhowaan.

Si ka duwan hababka tarjumaada barashada mashiinka, Xalka Facebook wuxuu u taagan yahay bixinta moodal guud dhammaan 200 oo luqadood, kaas oo daboolaya dhammaan luqadaha oo aan u baahnayn noocyo kala duwan oo luuqad kasta ah.

Turjumaada waxaa si toos ah looga sameeyaa luqadda asalka ah oo loo gudbiyo luqadda la beegsanayo, iyada oo aan loo turjumin Ingiriisi dhexdhexaad ah. Si loo abuuro habab tarjumaad caalami ah, qaab LID dheeraad ah ayaa la soo jeediyay (Aqoonsiga Luuqadda), kaas oo u oggolaanaya go'aaminta luqadda la isticmaalay. Kuwaas. Nidaamku wuxuu si toos ah u aqoonsan karaa luqadda lagu bixiyo macluumaadka oo u tarjumi kara luqadda isticmaalaha.

Turjumaada waxaa lagu taageeraa labada dhinac, inta u dhaxaysa mid ka mid ah 200 luqadood ee la taageeray. Si loo xaqiijiyo tayada tarjumaadda u dhaxaysa luqad kasta, FLORES-200 ayaa la diyaariyey imtixaanka bartilmaameedka, taas oo muujisay in qaabka NLLB-200, marka la eego tayada tarjumaada, uu celcelis ahaan 44% ka sarreeyo nidaamyada FLORES-70. Markii hore cilmi baaris la soo jeediyay oo ku saleysan barashada mashiinka marka la isticmaalayo cabbirada BLEU isbarbardhigga turjumaada mashiinka iyo turjumaada caadiga ah ee aadanaha. Afafka Afrikaan ah ee dhifka ah iyo lahjadaha Hindida, sareynta tayada waxay gaartaa XNUMX%. Waxaad si muuqaal ah u qiimeyn kartaa tayada tarjumaada goobta bandhigga si gaar ah loo diyaariyay.

Kuwa danaynaya mashruuca, waa inay ogaadaan in moodeelka waxa lagu heli karaa shatiga Creative Commons BY-NC 4.0, kaas oo fasaxaya koobiyaynta, qaybinta, ka mid noqoshada mashaariicdaada, iyo abuurista shaqooyinka kala duwan, laakiin ku xiran sifo, haysashada shatiga, iyo isticmaalka ujeedooyinka ganacsiga kaliya. Qalabka qaabaynta ayaa shati ku leh shatiga MIT. Si loo kiciyo horumarka iyadoo la adeegsanayo qaabka NLLB, waxaa la go'aamiyay in loo qoondeeyo $200 si loo siiyo deeqo waxbarasho cilmi-baarayaasha.

Finalmente hadaad xiisaynayso inaad waxbadan ka ogaato ku saabsan qoraalka, waxaad ka eegi kartaa boostada asalka ah Xiriirka soo socda.


Ka tag faalladaada

cinwaanka email aan la daabacin doonaa. Beeraha loo baahan yahay waxaa lagu calaamadeeyay la *

*

*

  1. Masuul ka ah xogta: Miguel Ángel Gatón
  2. Ujeedada xogta: Xakamaynta SPAM, maaraynta faallooyinka.
  3. Sharci: Oggolaanshahaaga
  4. Isgaarsiinta xogta: Xogta looma gudbin doono dhinacyada saddexaad marka laga reebo waajibaadka sharciga ah.
  5. Kaydinta xogta: Macluumaadka ay martigelisay Shabakadaha Occentus (EU)
  6. Xuquuqda: Waqti kasta oo aad xadidi karto, soo ceshan karto oo tirtiri karto macluumaadkaaga.