NLLB, Facebook AI don fassarar rubutu kai tsaye

Kwanan nan Facebook ya bayyana ta hanyar buga ci gaban da aikin NLLB (Babu Harshe Da Aka Bar A Baya), wanda manufarsa ita ce ƙirƙirar samfurin koyan injuna na duniya don fassara rubutu kai tsaye daga wannan harshe zuwa wani, ketare fassarar tsaka-tsaki zuwa Turanci.

Samfurin da aka tsara ya ƙunshi harsuna sama da 200, gami da ƙananan harsunan Afirka da Australiya kuma babban makasudin aikin shine samar da hanyar sadarwa ga dukkan mutane, ba tare da la’akari da yaren da suke magana ba.

Don taimaka wa mutane su fi haɗin kai a yau kuma su kasance wani ɓangare na tsaka-tsakin gobe, masu binciken Meta AI sun ƙirƙiri No Language Left Behind (NLLB), yunƙurin haɓaka ƙarfin fassarar inji mai inganci ga yawancin harsunan duniya.

A yau muna sanar da wani babban ci gaba a cikin NLLB: mun ƙirƙiri samfurin AI guda ɗaya da ake kira NLLB-200., wanda ke fassara harsuna 200 daban-daban tare da sakamako mai mahimmanci. Yawancin waɗannan harsuna, irin su Kamba da Lao, ba su sami tallafi da mafi kyawun kayan aikin fassara da ake da su a yau ba.

Game da aikin an ambaci cewa shi ne nufin sauƙaƙe ƙirƙirar ayyukan ta amfani da samfurin da aka tsara, Lambar aikace-aikacen da aka yi amfani da ita don gwadawa da kimanta ingancin samfurori (FLORES-200, NLLB-MD, Toxicity-200), lambar horarwa da ƙididdiga bisa laburare na LASER3 (Agnostic Software Representation of the idiom). Ana ba da samfurin ƙarshe a cikin nau'i biyu: cikakke da raguwa. Ragewar sigar tana buƙatar ƙarancin albarkatu kuma ya dace da gwaji da amfani da ayyukan bincike.

Kasa da harsuna 25 na Afirka a halin yanzu ana tallafawa ta hanyar kayan aikin fassarar da ake amfani da su sosai, yawancinsu ba su da inganci. Sabanin haka, NLLB-200 tana goyan bayan harsunan Afirka 55 tare da fitarwa mai inganci. Gabaɗaya, wannan ƙirar ta musamman na iya samar da fassarori masu inganci don harsunan da biliyoyin mutane ke magana a duk faɗin duniya. Gabaɗaya, ƙimar NLLB-200 BLEU tana haɓaka akan yanayin fasahar da ta gabata ta matsakaicin kashi 44 cikin ɗari a duk kwatance 10k na ma'aunin FLORES-101. Ga wasu harsunan Afirka da Indiya, haɓakar ya fi kashi 70 bisa ɗari bisa tsarin fassarar kwanan nan.

Ba kamar sauran tsarin fassarar na'ura ba, Maganin Facebook ya fito waje don ba da samfurin gama gari ga duk harsuna 200, wanda ya ƙunshi duk harsuna kuma baya buƙatar samfuri daban-daban don kowane harshe.

Ana yin fassarar kai tsaye daga harshen tushen zuwa harshen da ake nufi, ba tare da fassarar tsaka-tsaki zuwa Turanci ba. Don ƙirƙirar tsarin fassarar duniya, an ƙaddamar da ƙarin samfurin LID (Language IDentification), wanda ke ba da damar tantance harshen da ake amfani da shi. Wadancan. tsarin zai iya gane harshen da aka ba da bayanin ta atomatik kuma ya fassara shi zuwa harshen mai amfani.

Ana goyan bayan fassarar ta kowane bangare, tsakanin kowane daga cikin harsuna 200 masu tallafi. Don tabbatar da ingancin fassarar tsakanin kowane harshe, an shirya saitin gwaji na FLORES-200, wanda ya nuna cewa samfurin NLLB-200, dangane da ingancin fassarar, yana da matsakaicin 44% fiye da tsarin FLORES-70. A baya can. bincike da aka gabatar dangane da koyan na'ura lokacin amfani da ma'aunin BLEU yana kwatanta fassarar inji zuwa daidaitaccen fassarar ɗan adam. Don ƙananan harsunan Afirka da yarukan Indiya, fifikon inganci ya kai XNUMX%. Kuna iya tantance ingancin fassarar da gani akan wani rukunin demo na musamman da aka shirya.

Ga masu sha'awar aikin, ya kamata su san cewa samfurin yana samuwa ƙarƙashin lasisin Creative Commons BY-NC 4.0, wanda ke ba da izinin kwafi, rarrabawa, haɗawa cikin ayyukanku, da ƙirƙirar ayyukan ƙirƙira, amma ƙarƙashin ƙira, riƙe lasisi, da amfani don dalilai marasa kasuwanci kawai. Kayan aikin ƙirar yana da lasisi ƙarƙashin lasisin MIT. Don haɓaka haɓaka ta amfani da ƙirar NLLB, an yanke shawarar ware $200 don ba da tallafin karatu ga masu bincike.

Finalmente idan kuna sha'awar ƙarin sani game da shi game da bayanin kula, zaku iya komawa zuwa asalin post A cikin mahaɗin mai zuwa.


Bar tsokaci

Your email address ba za a buga. Bukata filayen suna alama da *

*

*

  1. Wanda ke da alhakin bayanan: Miguel Ángel Gatón
  2. Manufar bayanan: Sarrafa SPAM, sarrafa sharhi.
  3. Halacci: Yarda da yarda
  4. Sadarwar bayanan: Ba za a sanar da wasu bayanan ga wasu kamfanoni ba sai ta hanyar wajibcin doka.
  5. Ajiye bayanai: Bayanin yanar gizo wanda Occentus Networks (EU) suka dauki nauyi
  6. Hakkoki: A kowane lokaci zaka iyakance, dawo da share bayanan ka.