മോസില്ല ഡീപ്സ്പീച്ച് 0.9 സ്പീച്ച് റെക്കഗ്നിഷൻ എഞ്ചിൻ അവതരിപ്പിച്ചു

ഡീപ്സ്പീച്ച് 1

സമാരംഭം പ്രസിദ്ധീകരിച്ചു ശബ്ദ തിരിച്ചറിയൽ എഞ്ചിൻ മോസില്ല വികസിപ്പിച്ച ഡീപ്സ്പീച്ച് 0.9, ഇത് ആർക്കിടെക്ചർ നടപ്പിലാക്കുന്നു സംഭാഷണ തിരിച്ചറിയൽ Baidu ഗവേഷകർ നിർദ്ദേശിച്ച അതേ പേരിൽ.

നടപ്പിലാക്കൽ ഉപയോഗിച്ച് പൈത്തണിൽ എഴുതിയിരിക്കുന്നു മെഷീൻ ലേണിംഗ് പ്ലാറ്റ്ഫോം ടെൻസോർഫ്ലോ സ MP ജന്യ എം‌പി‌എൽ 2.0 ലൈസൻസിന് കീഴിൽ വിതരണം ചെയ്യുന്നു.

ഡീപ്സ്പീക്കിനെക്കുറിച്ച്

ഡീപ്സ്പീക്കിൽ രണ്ട് ഉപസിസ്റ്റങ്ങൾ അടങ്ങിയിരിക്കുന്നു: ഒരു അക്ക ou സ്റ്റിക് മോഡലും ഡീകോഡറും. ഇൻപുട്ട് ശബ്ദത്തിൽ ചില പ്രതീകങ്ങൾ ഉണ്ടെന്നുള്ള സാധ്യത കണക്കാക്കാൻ അക്കോസ്റ്റിക് മോഡൽ ആഴത്തിലുള്ള മെഷീൻ ലേണിംഗ് ടെക്നിക്കുകൾ ഉപയോഗിക്കുന്നു.

പ്രതീക പ്രോബബിലിറ്റി ഡാറ്റയെ വാചക പ്രാതിനിധ്യമാക്കി മാറ്റാൻ ഡീകോഡർ ഒരു റേ തിരയൽ അൽഗോരിതം ഉപയോഗിക്കുന്നു. പരമ്പരാഗത സംവിധാനങ്ങളേക്കാൾ വളരെ ലളിതമാണ് ഡീപ്സ്പീച്ച്, അതേസമയം തന്നെ ഉയർന്ന ശബ്ദത്തിന്റെ സാന്നിധ്യത്തിൽ ഉയർന്ന നിലവാരമുള്ള അംഗീകാരം നൽകുന്നു.

വികസനം പരമ്പരാഗത അക്ക ou സ്റ്റിക് മോഡലുകളും ഫോൺമെമുകളുടെ ആശയവും ഉപയോഗിക്കുന്നില്ല; പകരം, നന്നായി ഒപ്റ്റിമൈസ് ചെയ്ത ന്യൂറൽ നെറ്റ്‌വർക്ക് അധിഷ്ഠിത മെഷീൻ ലേണിംഗ് സിസ്റ്റം ഉപയോഗിക്കുന്നു, ഇത് ശബ്‌ദം, പ്രതിധ്വനി, സംഭാഷണ സവിശേഷതകൾ എന്നിവ പോലുള്ള വിവിധ അപാകതകൾ രൂപപ്പെടുത്തുന്നതിന് പ്രത്യേക ഘടകങ്ങൾ വികസിപ്പിക്കേണ്ടതിന്റെ ആവശ്യകതയെ ഇല്ലാതാക്കുന്നു.

കിറ്റ് പരിശീലനം ലഭിച്ച മോഡലുകൾ, സാമ്പിൾ സൗണ്ട് ഫയലുകൾ എന്നിവ വാഗ്ദാനം ചെയ്യുന്നു കമാൻഡ് ലൈൻ തിരിച്ചറിയൽ ഉപകരണങ്ങൾ.

പൂർത്തിയായ മോഡൽ ഇംഗ്ലീഷിനും ചൈനീസിനും മാത്രം വിതരണം ചെയ്യുന്നു. മറ്റ് ഭാഷകൾക്കായി, കോമൺ വോയ്‌സ് പ്രോജക്റ്റ് ശേഖരിച്ച വോയ്‌സ് ഡാറ്റ ഉപയോഗിച്ച് അറ്റാച്ചുചെയ്‌ത നിർദ്ദേശങ്ങൾക്കനുസരിച്ച് നിങ്ങൾക്ക് സിസ്റ്റം സ്വയം പഠിക്കാൻ കഴിയും.

എപ്പോൾ ഡ download ൺ‌ലോഡിനായി വാഗ്ദാനം ചെയ്യുന്ന ഇംഗ്ലീഷ് ഭാഷയുടെ ഉപയോഗത്തിന് തയ്യാറായ മോഡൽ ഉപയോഗിക്കുന്നു, ലിബ്രിസ്പീച്ച് ടെസ്റ്റ് സ്യൂട്ട് ഉപയോഗിച്ച് വിലയിരുത്തുമ്പോൾ ഡീപ്സ്പീച്ചിലെ തിരിച്ചറിയൽ പിശകുകളുടെ തോത് 7.06% ആണ്.

താരതമ്യത്തിന്, മനുഷ്യ തിരിച്ചറിയൽ പിശക് നിരക്ക് 5,83% ആയി കണക്കാക്കുന്നു.

നിർദ്ദിഷ്ട മാതൃകയിൽ, ബാഹ്യ ശബ്ദങ്ങളില്ലാത്ത അന്തരീക്ഷത്തിൽ അമേരിക്കൻ ഉച്ചാരണമുള്ള പുരുഷ ശബ്ദത്തിന്റെ ശുദ്ധമായ റെക്കോർഡിംഗിലൂടെ മികച്ച തിരിച്ചറിയൽ ഫലം കൈവരിക്കാനാകും.

വോസ്‌ക് തുടർച്ചയായ സംഭാഷണ തിരിച്ചറിയൽ ലൈബ്രറിയുടെ രചയിതാവ് പറയുന്നതനുസരിച്ച്, കോമൺ വോയ്‌സ് സെറ്റിന്റെ പോരായ്മകൾ സംഭാഷണ സാമഗ്രിയുടെ ഏകപക്ഷീയതയാണ് (അവരുടെ ഇരുപതുകളിലും മുപ്പതുകളിലും പുരുഷന്മാരുടെ ആധിപത്യവും സ്ത്രീകൾ, കുട്ടികൾ, പ്രായമായവർ), പദാവലി വേരിയബിളിന്റെ അഭാവം (ഒരേ ശൈലികളുടെ ആവർത്തനം), വികലമാകാൻ സാധ്യതയുള്ള എം‌പി 20 റെക്കോർഡിംഗുകളുടെ വിതരണം.

മോശം പ്രകടനം ഡീപ്സ്പീക്കിന്റെ പോരായ്മകളിൽ ഉൾപ്പെടുന്നു ഡീകോഡറിലെ ഉയർന്ന മെമ്മറി ഉപഭോഗവും മോഡലിനെ പരിശീലിപ്പിക്കുന്നതിനുള്ള പ്രധാന വിഭവങ്ങളും (മോസില്ല 8 ക്വാഡ്രോ ആർടിഎക്സ് 6000 ജിപിയുകളുള്ള ഒരു സിസ്റ്റം ഉപയോഗിക്കുന്നു, ഓരോന്നിനും 24 ജിബി വിആർ‌എം ഉണ്ട്).

ഈ സമീപനത്തിന്റെ ദോഷം അതാണ് ഒരു ന്യൂറൽ നെറ്റ്‌വർക്കിന്റെ ഉയർന്ന നിലവാരമുള്ള അംഗീകാരത്തിനും പരിശീലനത്തിനും, ഡീപ്സ്പീച്ച് എഞ്ചിൻ ഒരു വലിയ തുക ഡാറ്റ ആവശ്യമാണ് വ്യത്യസ്ത ശബ്ദങ്ങളിലൂടെയും സ്വാഭാവിക ശബ്ദങ്ങളുടെ സാന്നിധ്യത്തിലും യഥാർത്ഥ സാഹചര്യങ്ങളിൽ നിർദ്ദേശിച്ച വൈവിധ്യമാർന്നത്.

മൊസില്ലയിൽ സൃഷ്ടിച്ച കോമൺ വോയ്‌സ് പ്രോജക്റ്റ് ഈ ഡാറ്റ സമാഹരിച്ചിരിക്കുന്നു, ഇത് ഇംഗ്ലീഷിൽ 1469 മണിക്കൂർ, ജർമ്മൻ ഭാഷയിൽ 692, ഫ്രഞ്ച് ഭാഷയിൽ 554, റഷ്യൻ ഭാഷയിൽ 105 മണിക്കൂർ, ഉക്രേനിയൻ ഭാഷയിൽ 22 മണിക്കൂർ എന്നിവ ഉപയോഗിച്ച് പരിശോധിച്ച ഡാറ്റ നൽകുന്നു.

കോമൺ വോയ്‌സിനുപുറമെ ഡീപ്സ്പീക്കിനായുള്ള അവസാന ഇംഗ്ലീഷ് മോഡലിനെ പരിശീലിപ്പിക്കുന്നതിന്, ലിബ്രിസ്പീക്ക്, ഫിഷർ, സ്വിച്ച്ബോർഡ് പ്രോജക്റ്റുകളിൽ നിന്നുള്ള ഡാറ്റയും അധികമായി ഉപയോഗിക്കുന്നു, കൂടാതെ ഏകദേശം 1700 മണിക്കൂർ ട്രാൻസ്ക്രിപ്റ്റ് ചെയ്ത റേഡിയോ പ്രോഗ്രാം റെക്കോർഡിംഗുകളും.

പുതിയ ബ്രാഞ്ചിലെ മാറ്റങ്ങൾക്കിടയിൽ, വാക്കുകളുടെ ഭാരം നിർബന്ധിതമാക്കാനുള്ള സാധ്യത എടുത്തുകാണിക്കുന്നു ഡീകോഡിംഗ് പ്രക്രിയയിൽ തിരഞ്ഞെടുത്തു.

ന്യൂറൽ നെറ്റ്‌വർക്കിനെ പരിശീലിപ്പിക്കുമ്പോൾ ഇലക്ട്രോൺ 9.2 പ്ലാറ്റ്‌ഫോമിനുള്ള പിന്തുണയും ലെയർ നോർമലൈസേഷൻ മെക്കാനിസത്തിന്റെ (ലെയർ നോർം) ഓപ്‌ഷണൽ നടപ്പാക്കലും ഇത് എടുത്തുകാണിക്കുന്നു.

ഡൗൺലോഡുചെയ്‌ത് നേടുക

ലെപൊട്ടാറ്റോ, റാസ്ബെറി പൈ 3, റാസ്ബെറി പൈ 4 ബോർഡുകളിലും ഗൂഗിൾ പിക്സൽ 2, സോണി എക്സ്പീരിയ ഇസഡ് പ്രീമിയം, നോക്കിയ 1.3 സ്മാർട്ട്‌ഫോണുകളിലും മോട്ടോർ ഉപയോഗിക്കാൻ പ്രകടനം മതിയാകും.

റെഡി മൊഡ്യൂളുകൾ വാഗ്ദാനം ചെയ്യുന്നു നിങ്ങളുടെ പ്രോഗ്രാമുകളിലേക്ക് സംഭാഷണ തിരിച്ചറിയൽ പ്രവർത്തനങ്ങൾ സംയോജിപ്പിക്കുന്നതിന് പൈത്തൺ, നോഡ്ജെഎസ്, സി ++, .നെറ്റ് എന്നിവയ്ക്കായി ഉപയോഗിക്കുന്നതിന് (മൂന്നാം കക്ഷി ഡവലപ്പർമാർ റസ്റ്റ്, ഗോ, വി എന്നിവയ്ക്കായി പ്രത്യേകമായി മൊഡ്യൂളുകൾ തയ്യാറാക്കിയിട്ടുണ്ട്).


ലേഖനത്തിന്റെ ഉള്ളടക്കം ഞങ്ങളുടെ തത്ത്വങ്ങൾ പാലിക്കുന്നു എഡിറ്റോറിയൽ എത്തിക്സ്. ഒരു പിശക് റിപ്പോർട്ടുചെയ്യാൻ ക്ലിക്കുചെയ്യുക ഇവിടെ.

അഭിപ്രായമിടുന്ന ആദ്യയാളാകൂ

നിങ്ങളുടെ അഭിപ്രായം ഇടുക

നിങ്ങളുടെ ഇമെയിൽ വിലാസം പ്രസിദ്ധീകരിച്ചു ചെയ്യില്ല.

*

*

  1. ഡാറ്റയുടെ ഉത്തരവാദിത്തം: മിഗുവൽ ഏഞ്ചൽ ഗാറ്റൻ
  2. ഡാറ്റയുടെ ഉദ്ദേശ്യം: സ്പാം നിയന്ത്രിക്കുക, അഭിപ്രായ മാനേജുമെന്റ്.
  3. നിയമസാധുത: നിങ്ങളുടെ സമ്മതം
  4. ഡാറ്റയുടെ ആശയവിനിമയം: നിയമപരമായ ബാധ്യതയല്ലാതെ ഡാറ്റ മൂന്നാം കക്ഷികളുമായി ആശയവിനിമയം നടത്തുകയില്ല.
  5. ഡാറ്റ സംഭരണം: ഒസെന്റസ് നെറ്റ്‌വർക്കുകൾ (ഇയു) ഹോസ്റ്റുചെയ്യുന്ന ഡാറ്റാബേസ്
  6. അവകാശങ്ങൾ: ഏത് സമയത്തും നിങ്ങളുടെ വിവരങ്ങൾ പരിമിതപ്പെടുത്താനും വീണ്ടെടുക്കാനും ഇല്ലാതാക്കാനും കഴിയും.