NLLB, සෘජු පෙළ පරිවර්තනය සඳහා Facebook AI

මෑතකදී ෆේස්බුක් එළිදැක්වීය හි වර්ධනයන් ප්‍රකාශනයක් හරහා NLLB ව්යාපෘතිය (භාෂාවක් ඉතිරි නොවේ), එහි පරමාර්ථය නිර්මාණය කිරීමයි පරිවර්තනය සඳහා විශ්වීය යන්ත්‍ර ඉගෙනුම් ආකෘතියක් ඉංග්‍රීසි භාෂාවට අතරමැදි පරිවර්තනය මඟ හරිමින් එක් භාෂාවකින් තවත් භාෂාවකට සෘජු පෙළ.

යෝජිත ආකෘතිය දුර්ලභ අප්‍රිකානු සහ ඕස්ට්‍රේලියානු භාෂා ඇතුළුව භාෂා 200කට අධික ප්‍රමාණයක් ආවරණය කරයි සහ ව්‍යාපෘතියේ අවසාන ඉලක්කය වන්නේ ඔවුන් කතා කරන භාෂාව කුමක් වුවත්, සියලු මිනිසුන් සඳහා සන්නිවේදන මාධ්‍යයක් සැපයීමයි.

මිනිසුන්ට අද වඩා හොඳින් සම්බන්ධ වීමට සහ හෙට දවසේ metaverse හි කොටස්කරුවෙකු වීමට උපකාර කිරීම සඳහා, Meta AI පර්යේෂකයන් විසින් No Language Left Behind (NLLB) නිර්මාණය කරන ලද අතර, එය ලෝකයේ බොහෝ භාෂා සඳහා උසස් තත්ත්වයේ යන්ත්‍ර පරිවර්තන හැකියාවන් වර්ධනය කිරීමේ උත්සාහයකි.

අද අපි NLLB හි විශාල ප්‍රගතියක් නිවේදනය කරන්නෙමු: අපි NLLB-200 නමින් තනි AI ආකෘතියක් නිර්මාණය කර ඇත. එය විවිධ භාෂා 200ක් අති නවීන ප්‍රතිඵල සමඟ පරිවර්තනය කරයි. කම්බා සහ ලාඕ වැනි මෙම භාෂා බොහොමයකට අද පවතින හොඳම පරිවර්තන මෙවලම් පවා සහාය නොදක්වයි.

ව්‍යාපෘතිය පිළිබඳව එහි සඳහන් වන්නේ එයයි යෝජිත ආකෘතිය භාවිතයෙන් ව්යාපෘති නිර්මාණය කිරීම සරල කිරීමට අදහස් කෙරේ, ආකෘතිවල ගුණාත්මක භාවය පරීක්ෂා කිරීමට සහ ඇගයීමට භාවිතා කරන යෙදුම් කේතය (FLORES-200, NLLB-MD, Toxicity-200), ආදර්ශ පුහුණු කේතය සහ LASER3 පුස්තකාලය මත පදනම් වූ කේතකයින් (උපරිමයේ අඥනික මෘදුකාංග නියෝජනය). අවසාන ආකෘතිය අනුවාද දෙකකින් ඉදිරිපත් කෙරේ: සම්පූර්ණ සහ අඩු. අඩු කළ අනුවාදයට අඩු සම්පත් අවශ්‍ය වන අතර පර්යේෂණ ව්‍යාපෘතිවල පරීක්ෂණ සහ භාවිතය සඳහා සුදුසු වේ.

අප්‍රිකානු භාෂා 25කට වඩා අඩු ප්‍රමාණයකට දැනට බහුලව භාවිතා වන පරිවර්තන මෙවලම් මගින් සහය දක්වයි, ඒවායින් බොහොමයක් දුර්වල ගුණාත්මක බවින් යුක්ත වේ. ඊට වෙනස්ව, NLLB-200 උසස් තත්ත්වයේ ප්‍රතිදානයක් සහිත අප්‍රිකානු භාෂා 55 කට සහය දක්වයි. සමස්තයක් වශයෙන්, මෙම අද්විතීය ආකෘතියට ලොව පුරා සිටින බිලියන සංඛ්‍යාත ජනතාවක් කතා කරන භාෂා සඳහා උසස් තත්ත්වයේ පරිවර්තන සැපයිය හැකිය. සමස්තයක් වශයෙන්, NLLB-200 BLEU ලකුණු FLORES-44 මිණුම් ලකුණෙහි සියලුම 10k දිශාවන්හිදී පෙර පැවති නවීන තත්ත්වයට සාපේක්ෂව සියයට 101 ක සාමාන්‍යයකින් වැඩි දියුණු වේ. සමහර අප්‍රිකානු සහ ඉන්දියානු භාෂා සඳහා, මෑත පරිවර්තන පද්ධතිවලට වඩා වැඩිවීම සියයට 70කට වඩා වැඩිය.

අනෙකුත් යන්ත්‍ර ඉගෙනුම් පරිවර්තන පද්ධති මෙන් නොව, Facebook හි විසඳුම භාෂා 200ටම පොදු ආකෘතියක් පිරිනැමීම සඳහා කැපී පෙනේ, සියලු භාෂා ආවරණය වන අතර එක් එක් භාෂාව සඳහා වෙනම ආකෘති අවශ්ය නොවේ.

පරිවර්තනය ඉංග්‍රීසියට අතරමැදි පරිවර්තනයකින් තොරව මූලාශ්‍ර භාෂාවේ සිට ඉලක්ක භාෂාවට සෘජුවම සිදු කෙරේ. විශ්ව පරිවර්තන පද්ධති නිර්මාණය කිරීම සඳහා, අමතර LID (භාෂා හැඳුනුම්පත) ආකෘතියක් යෝජනා කරනු ලැබේ, එය භාවිතා කරන භාෂාව තීරණය කිරීමට ඉඩ සලසයි. එම. පද්ධතියට තොරතුරු සපයන භාෂාව ස්වයංක්‍රීයව හඳුනාගෙන එය පරිශීලකයාගේ භාෂාවට පරිවර්තනය කළ හැකිය.

පරිවර්තනය ඕනෑම දිශාවකට සහය දක්වයි, සහය දක්වන භාෂා 200න් ඕනෑම එකක් අතර. ඕනෑම භාෂාවක් අතර පරිවර්තනයේ ගුණාත්මකභාවය තහවුරු කිරීම සඳහා, FLORES-200 මිණුම් සලකුණු පරීක්ෂණ කට්ටලය සකස් කරන ලද අතර, පරිවර්තන ගුණාත්මකභාවය අනුව NLLB-200 ආකෘතිය, FLORES-44 පද්ධතිවලට වඩා සාමාන්‍යයෙන් 70% වැඩි බව පෙන්නුම් කළේය. යන්ත්‍ර පරිවර්තන සම්මත මානව පරිවර්තනයට සංසන්දනය කරමින් BLEU ප්‍රමිතික භාවිතා කරන විට යන්ත්‍ර ඉගෙනීම මත පදනම් වූ පර්යේෂණ යෝජනා කරන ලදී. දුර්ලභ අප්‍රිකානු භාෂා සහ ඉන්දියානු උපභාෂා සඳහා, ගුණාත්මක භාවයේ උසස් බව XNUMX% දක්වා ළඟා වේ. ඔබට විෙශේෂෙයන් සකස් කරන ලද ආදර්ශන අඩවියක පරිවර්තන ගුණාත්මකභාවය දෘශ්‍යමානව තක්සේරු කළ හැකිය.

ව්යාපෘතිය ගැන උනන්දුවක් දක්වන අය සඳහා, ඔවුන් දැනගත යුතුය ආකෘතිය Creative Commons BY-NC 4.0 බලපත්‍රයක් යටතේ ලබා ගත හැක, එය පිටපත් කිරීමට, බෙදා හැරීමට, ඔබේ ව්‍යාපෘතිවලට ඇතුළත් කිරීමට සහ ව්‍යුත්පන්න කෘතීන් නිර්මාණය කිරීමට අවසර දෙන නමුත්, ආරෝපණයට, බලපත්‍ර රඳවා තබා ගැනීමට සහ වාණිජ නොවන අරමුණු සඳහා පමණක් භාවිතා කිරීමට යටත් වේ. ආකෘති නිර්මාණ මෙවලම MIT බලපත්‍රය යටතේ බලපත්‍ර ලබා ඇත. NLLB ආකෘතිය භාවිතයෙන් සංවර්ධනය උත්තේජනය කිරීම සඳහා, පර්යේෂකයන්ට ශිෂ්‍යත්ව ලබා දීම සඳහා ඩොලර් 200ක් වෙන් කිරීමට තීරණය විය.

අවසානයේ ඔබ ඒ ගැන වැඩි විස්තර දැන ගැනීමට කැමති නම් සටහන ගැන, ඔබට මුල් ප්‍රකාශය පරීක්‍ෂා කළ හැකිය පහත සබැඳියේ.


ලිපියේ අන්තර්ගතය අපගේ මූලධර්මවලට අනුකූල වේ කතුවැකි ආචාර ධර්ම. දෝෂයක් වාර්තා කිරීමට ක්ලික් කරන්න මෙන්න.

අදහස් පළ කිරීමට ප්රථම වන්න

ඔබේ අදහස තබන්න

ඔබේ ඊ-මේල් ලිපිනය පළ කරනු නොලැබේ. අවශ්ය ක්ෂේත්ර දක්වා ඇති ලකුණ *

*

*

  1. දත්ත සඳහා වගකිව යුතු: මිගෙල් ඇන්ජල් ගැටන්
  2. දත්තවල අරමුණ: SPAM පාලනය කිරීම, අදහස් කළමනාකරණය.
  3. නීත්‍යානුකූලභාවය: ඔබේ කැමැත්ත
  4. දත්ත සන්නිවේදනය: නෛතික බැඳීමකින් හැර දත්ත තෙවන පාර්ශවයකට සන්නිවේදනය නොකෙරේ.
  5. දත්ත ගබඩා කිරීම: ඔක්සෙන්ටස් නෙට්වර්ක්ස් (EU) විසින් සත්කාරකත්වය දක්වන දත්ත සමුදාය
  6. අයිතිවාසිකම්: ඕනෑම වේලාවක ඔබට ඔබේ තොරතුරු සීමා කිරීමට, නැවත ලබා ගැනීමට සහ මකා දැමීමට හැකිය.