ඔවුන් ස්වයංක්‍රීය කථන හඳුනාගැනීමේ පද්ධතියක් වන විස්පර් හි මූල කේතය නිකුත් කරන ලදී

කෝපයට

විස්පර් යනු ස්වයංක්‍රීය කථන හඳුනාගැනීමේ පද්ධතියකි

ව්යාපෘතිය මෑතකදී OpenAI, කෘතිම බුද්ධි ක්ෂේත්රයේ පොදු ව්යාපෘති සංවර්ධනය කරන, පුවත් පළ කර ඇත හඬ හඳුනාගැනීමේ පද්ධතියට සම්බන්ධයි රහසින්, වන a ස්වයංක්‍රීය කථන හඳුනාගැනීමේ පද්ධතිය (ASR) වෙබයෙන් එකතු කරන ලද බහුභාෂා, බහු කාර්ය අධීක්‍ෂණ දත්ත පැය 680.000ක් පිළිබඳව පුහුණු කර ඇත.

ඉංග්‍රීසි කථනය සඳහා, පද්ධතිය ස්වයංක්‍රීය හඳුනාගැනීමේ විශ්වසනීයත්වය සහ මානව හඳුනාගැනීම් වලට ආසන්න නිරවද්‍යතාවයේ මට්ටම් සපයන බව ප්‍රකාශ වේ.

එවැනි විශාල සහ විවිධ දත්ත කට්ටලයක් භාවිතා කිරීම උච්චාරණ, පසුබිම් ශබ්දය සහ තාක්ෂණික භාෂාවට වඩා ශක්තිමත් බවකට මඟ පෙන්වන බව අපි පෙන්වමු. ඊට අමතරව, එය විවිධ භාෂාවලින් පිටපත් කිරීමට මෙන්ම එම භාෂා ඉංග්රීසි භාෂාවට පරිවර්තනය කිරීමට ඉඩ සලසයි. අපි විවෘත මූලාශ්‍ර ආකෘති සහ උපකල්පන කේතය වන අතර එය ප්‍රයෝජනවත් යෙදුම් තැනීමට සහ ශක්තිමත් කථන සැකසුම් පිළිබඳ අනාගත පර්යේෂණ සඳහා පදනම ලෙස සේවය කරයි.

ආකෘතිය ගැන (දැනටමත් සඳහන් කර ඇති පරිදි) පැය 680 භාවිතා කරමින් පුහුණු කර ඇත විවිධ භාෂා සහ විෂය ක්ෂේත්‍ර ආවරණය වන පරිදි විවිධ එකතු කිරීම් වලින් එකතු කරන ලද හඬ දත්ත. පුහුණුවට සම්බන්ධ හඬ දත්තවලින් 1/3ක් පමණ ඉංග්‍රීසි හැර වෙනත් භාෂාවලින් ඇත.

යෝජිත ක්‍රමය උච්චාරණ උච්චාරණය වැනි අවස්ථා නිවැරදිව හසුරුවයි, පසුබිම් ඝෝෂාව පැවතීම සහ තාක්ෂණික වචන භාවිතය. කථනය පෙළට පිටපත් කිරීමට අමතරව, පද්ධතියට අත්තනෝමතික භාෂාවකින් ඉංග්‍රීසි භාෂාවට කථනය පරිවර්තනය කිරීමට සහ ශ්‍රව්‍ය ප්‍රවාහයේ කථනයේ පෙනුම හඳුනාගත හැකිය.

නිරූපණ දෙකකින් ආකෘති පුහුණු කරනු ලැබේ: ඉංග්‍රීසි භාෂාව සඳහා ආකෘතියක් සහ ස්පාඤ්ඤ, රුසියානු, ඉතාලි, ජර්මානු, ජපන්, යුක්රේනියානු, බෙලරුසියානු, චීන සහ වෙනත් භාෂා සඳහා සහය දක්වන බහුභාෂා ආකෘතියක්. අනෙක් අතට, එක් එක් දර්ශනය විකල්ප 5 කට බෙදා ඇත, එය ආකෘතියේ ආවරණය කර ඇති ප්‍රමාණයෙන් සහ පරාමිති ගණනින් වෙනස් වේ.

විස්පර් ගෘහනිර්මාණ ශිල්පය යනු එන්කෝඩර-විකේතක ට්‍රාන්ස්ෆෝමරයක් ලෙස ක්‍රියාවට නංවන සරල අන්තයේ සිට අගට ප්‍රවේශයකි. ආදාන ශ්‍රව්‍යය තත්පර 30 කුට්ටි වලට බෙදී, log-Mel වර්ණාවලීක්ෂයක් බවට පරිවර්තනය කර, පසුව සංකේතනයකට යවනු ලැබේ. භාෂා හඳුනාගැනීම, වාක්‍ය මට්ටමේ වේලා මුද්‍රා, බහුභාෂා කථන පිටපත් කිරීම සහ ඉංග්‍රීසි භාෂාවට කථන පරිවර්තනය වැනි කාර්යයන් ඉටු කිරීමට අනන්‍ය මාදිලිය යොමු කරන විශේෂ ටෝකන සමඟ අන්තර් සම්බන්ධිත අනුරූප පෙළ උපසිරැසි පුරෝකථනය කිරීමට විකේතකයක් පුහුණු කර ඇත.

ප්‍රමාණය විශාල වන තරමට හඳුනාගැනීමේ නිරවද්‍යතාවය සහ ගුණාත්මක භාවය ඉහළ යයි, නමුත් GPU වීඩියෝ මතක ප්‍රමාණය සඳහා අවශ්‍යතා වැඩි වන අතර කාර්ය සාධනය අඩු වේ. උදාහරණයක් ලෙස, අවම විකල්පයට පරාමිති මිලියන 39 ක් ඇතුළත් වන අතර වීඩියෝ මතකය 1 GB අවශ්‍ය වන අතර උපරිම විකල්පයට පරාමිති බිලියන 1550 ක් ඇතුළත් වන අතර වීඩියෝ මතකය 10 GB අවශ්‍ය වේ. අවම ප්රභේදය උපරිමයට වඩා 32 ගුණයකින් වේගවත් වේ.

පද්ධතිය "ට්‍රාන්ස්ෆෝමර්" ස්නායු ජාල ගෘහ නිර්මාණ ශිල්පය භාවිතා කරයි, එකිනෙකින් අන්තර්ක්‍රියා කරන සංකේතකයක් සහ විකේතකයක් ඇතුළත් වේ. ශ්‍රව්‍ය තත්පර 30 කුට්ටි වලට බෙදී ඇති අතර, ඒවා log-Mel වර්ණාවලීක්ෂයක් බවට පරිවර්තනය කර කේතකය වෙත යවනු ලැබේ.

කේතකයාගේ කාර්යයේ ප්රතිඵලය විකේතනය වෙත යවනු ලැබේ, භාෂා හඳුනාගැනීම, වාක්‍ය උච්චාරණය කාලානුක්‍රමික ගිණුම්කරණය, විවිධ භාෂාවලින් කථන පිටපත් කිරීම සහ සාමාන්‍ය ආකෘතියකින් ඉංග්‍රීසි පරිවර්තනය වැනි කාර්යයන් විසඳීමට ඉඩ සලසන විශේෂ ටෝකන සමඟ මිශ්‍ර වූ පෙළ නිරූපණයක් පුරෝකථනය කරයි.

විස්පර් හි ක්‍රියාකාරිත්වය භාෂාව අනුව බොහෝ සෙයින් වෙනස් වන බව සඳහන් කිරීම වටී, එබැවින් වඩා හොඳ අවබෝධයක් ඉදිරිපත් කරන්නේ ඉංග්‍රීසි වන අතර එය ඉංග්‍රීසි භාෂාවෙන් පමණක් අනුවාද හතරක් ඇති අතර අනෙකුත් භාෂාවල අනෙකුත් මාදිලි මෙන් වාසි සහ අවාසි ලබා දෙයි. වේගය සහ නිරවද්යතාව.

අවසානයේ ඔබ ඒ ගැන වැඩි විස්තර දැන ගැනීමට කැමති නම්, තුළ ඔබට මුල් ප්‍රකාශනය පරීක්ෂා කළ හැකිය මෙම සබැඳිය, ඔබ මූලාශ්‍ර කේතය සහ පුහුණු ආකෘති ගැන උනන්දුවක් දක්වන්නේ නම්, ඔබට ඔවුන්ගෙන් උපදෙස් ලබා ගත හැක මෙම සබැඳිය

PyTorch රාමුව මත පදනම් වූ විමර්ශන ක්‍රියාත්මක කිරීමේ කේතය සහ දැනටමත් පුහුණු කර ඇති මාදිලි කට්ටලයක් විවෘතව, භාවිතයට සූදානම්. කේතය MIT බලපත්‍රය යටතේ විවෘත මූලාශ්‍රයක් වන අතර ffmpeg පුස්තකාලය භාවිතා කිරීම අවශ්‍ය බව සඳහන් කිරීම වටී.


ලිපියේ අන්තර්ගතය අපගේ මූලධර්මවලට අනුකූල වේ කතුවැකි ආචාර ධර්ම. දෝෂයක් වාර්තා කිරීමට ක්ලික් කරන්න මෙන්න.

අදහස් පළ කිරීමට ප්රථම වන්න

ඔබේ අදහස තබන්න

ඔබේ ඊ-මේල් ලිපිනය පළ කරනු නොලැබේ.

*

*

  1. දත්ත සඳහා වගකිව යුතු: මිගෙල් ඇන්ජල් ගැටන්
  2. දත්තවල අරමුණ: SPAM පාලනය කිරීම, අදහස් කළමනාකරණය.
  3. නීත්‍යානුකූලභාවය: ඔබේ කැමැත්ත
  4. දත්ත සන්නිවේදනය: නෛතික බැඳීමකින් හැර දත්ත තෙවන පාර්ශවයකට සන්නිවේදනය නොකෙරේ.
  5. දත්ත ගබඩා කිරීම: ඔක්සෙන්ටස් නෙට්වර්ක්ස් (EU) විසින් සත්කාරකත්වය දක්වන දත්ත සමුදාය
  6. අයිතිවාසිකම්: ඕනෑම වේලාවක ඔබට ඔබේ තොරතුරු සීමා කිරීමට, නැවත ලබා ගැනීමට සහ මකා දැමීමට හැකිය.