મોઝિલે ડીપસ્પીક 0.9 સ્પીચ રેકગ્નિશન એન્જિન રજૂ કરે છે

ડીપસ્પીચ 1

લોંચ પ્રકાશિત કરવામાં આવ્યો છે અવાજ ઓળખ એન્જિન ડીપસ્પીચ 0.9 મોઝિલા દ્વારા વિકસિત, જે આર્કિટેક્ચર લાગુ કરે છે ભાષણ ઓળખ બાયડુ સંશોધકો દ્વારા સૂચવવામાં આવેલા સમાન નામની.

અમલીકરણ ઉપયોગ કરીને પાયથોનમાં લખાયેલું છે મશીન લર્નિંગ પ્લેટફોર્મ ટેન્સરફ્લો અને મફત એમપીએલ 2.0 લાઇસેંસ હેઠળ વિતરિત કરવામાં આવે છે.

ડીપસ્પીક વિશે

ડીપસ્પીચ બે ઉપસિસ્ટમનો સમાવેશ કરે છે: એકોસ્ટિક મોડેલ અને ડીકોડર. ધ્વનિ મ modelડલ ઇનપુટ અવાજમાં ચોક્કસ અક્ષરો હાજર હોવાની સંભાવનાની ગણતરી કરવા માટે deepંડા મશીન શિક્ષણ તકનીકોનો ઉપયોગ કરે છે.

ડીકોડર પાત્ર સંભાવના ડેટાને ટેક્સ્ચ્યુઅલ રજૂઆતમાં પરિવર્તિત કરવા માટે રે શોધ અલ્ગોરિધમનો ઉપયોગ કરે છે. ડીપસ્પીચ પરંપરાગત સિસ્ટમો કરતા ખૂબ સરળ છે અને તે જ સમયે બાહ્ય અવાજની હાજરીમાં ઉચ્ચ ગુણવત્તાની માન્યતા પ્રદાન કરે છે.

વિકાસ પરંપરાગત એકોસ્ટિક મ modelsડલો અને ફોનમ્સની વિભાવનાનો ઉપયોગ કરતું નથી; તેના બદલે, સારી રીતે optimપ્ટિમાઇઝ્ડ ન્યુરલ નેટવર્ક-આધારિત મશીન લર્નિંગ સિસ્ટમનો ઉપયોગ કરવામાં આવે છે, જે અવાજ, પડઘો અને વાણી લાક્ષણિકતાઓ જેવા વિવિધ અસંગતતાઓના નમૂના માટે અલગ ઘટકો વિકસિત કરવાની જરૂરિયાતને દૂર કરે છે.

કીટ પ્રશિક્ષિત મોડેલો, નમૂનાની ધ્વનિ ફાઇલો પ્રદાન કરે છે અને આદેશ વાક્ય ઓળખ સાધનો.

ફિનિશ્ડ મોડેલ ફક્ત અંગ્રેજી અને ચાઇનીઝ માટે પૂરું પાડવામાં આવે છે. અન્ય ભાષાઓ માટે, તમે સામાન્ય વ Voiceઇસ પ્રોજેક્ટ દ્વારા એકત્રિત કરેલા વ voiceઇસ ડેટાનો ઉપયોગ કરીને, જોડાયેલ સૂચનો અનુસાર સિસ્ટમ જાતે શીખી શકો છો.

જ્યારે ડાઉનલોડ માટે offeredફર કરવામાં આવતી અંગ્રેજી ભાષાના તૈયાર-થી-ઉપયોગ મોડેલનો ઉપયોગ થાય છે, જ્યારે લિબ્રીસ્પીક પરીક્ષણ સ્યુટનો ઉપયોગ કરીને મૂલ્યાંકન કરવામાં આવે ત્યારે ડીપસ્પીચમાં માન્યતા ભૂલોનું સ્તર 7.06% છે.

સરખામણી માટે, માનવ માન્યતા ભૂલ દરનો અંદાજ 5,83% છે.

સૂચિત મોડેલમાં, ઉત્કૃષ્ટ અવાજો વિના પર્યાવરણમાં અમેરિકન ઉચ્ચારો સાથે પુરુષ અવાજની સ્વચ્છ રેકોર્ડિંગ સાથે શ્રેષ્ઠ માન્યતા પરિણામ પ્રાપ્ત થાય છે.

વોસ્ક કન્ટીન્યુસ સ્પીચ રેકગ્નિશન લાઇબ્રેરીના લેખકના જણાવ્યા મુજબ, કોમન વોઇસ સેટના ગેરલાભ એ ભાષણ સામગ્રીની એકતરફી (20 થી 30 વર્ષની પુરૂષોનું વર્ચસ્વ અને સ્ત્રીઓ, બાળકો અને તેમના અવાજ સાથે સામગ્રીનો અભાવ છે) વૃદ્ધ), શબ્દભંડોળની વિવિધતાનો અભાવ (સમાન શબ્દસમૂહોનું પુનરાવર્તન) અને એમપી 3 રેકોર્ડિંગ્સનું વિતરણ વિકૃતિ તરફ દોરી જાય છે.

ડીપસ્પીકના ગેરફાયદામાં નબળા પ્રદર્શન શામેલ છે અને ડીકોડરમાં ઉચ્ચ મેમરી વપરાશ, તેમજ મોડેલને તાલીમ આપવા માટેના મહત્વપૂર્ણ સંસાધનો (મોઝિલા દરેકમાં 8 જીબી વીઆરએમ સાથે 6000 ક્વાડ્રો આરટીએક્સ 24 જીપીયુવાળી સિસ્ટમનો ઉપયોગ કરે છે).

આ અભિગમ માટે નુકસાન એ છે ન્યુરલ નેટવર્કની ઉચ્ચ ગુણવત્તાની ઓળખ અને તાલીમ માટે, ડીપસ્પીક એન્જિન માટે મોટી માત્રામાં ડેટાની જરૂર છે વિશિષ્ટ અવાજો દ્વારા અને કુદરતી અવાજોની હાજરીમાં વાસ્તવિક પરિસ્થિતિઓમાં વિજાતીય વિષયવસ્તુ નક્કી કરવામાં આવે છે.

આ ડેટા મોઝિલામાં બનાવવામાં આવેલા કોમન વોઇસ પ્રોજેક્ટ દ્વારા સંકલિત કરવામાં આવ્યો છે, જે અંગ્રેજીમાં 1469 કલાક, જર્મનમાં 692, ફ્રેન્ચમાં 554, રશિયનમાં 105 કલાક અને યુક્રેનિયનમાં 22 કલાક સાથે ચકાસેલો ડેટા સેટ કરે છે.

જ્યારે ડીપસ્પીચ માટેના અંતિમ અંગ્રેજી મોડેલની તાલીમ આપતી વખતે, કોમન વ Voiceઇસ ઉપરાંત, લિબ્રીસ્પીક, ફિશર અને સ્વીચબોર્ડ પ્રોજેક્ટ્સમાંથી ડેટાનો ઉપયોગ થાય છે, તેમજ ટ્રાંસ્ક્રિપ્ટ કરેલા રેડિયો પ્રોગ્રામ્સના રેકોર્ડિંગના લગભગ 1700 કલાક.

નવી શાખામાં ફેરફારની વચ્ચે, શબ્દોનું વજન દબાણ કરવાની સંભાવના પ્રકાશિત કરવામાં આવી છે ડીકોડિંગ પ્રક્રિયા દરમિયાન પસંદ કરેલ.

તે ઇલેક્ટ્રોન 9.2 પ્લેટફોર્મ માટેના ટેકો અને ન્યુરલ નેટવર્કને તાલીમ આપતી વખતે લેયર નોર્મલાઇઝેશન મિકેનિઝમ (લેયર નોર્મ) ની વૈકલ્પિક અમલીકરણને પણ પ્રકાશિત કરે છે.

ડાઉનલોડ કરો અને મેળવો

પ્રદર્શન લેપોટાટો, રાસ્પબેરી પી 3 અને રાસ્પબેરી પી 4 બોર્ડ, તેમજ ગૂગલ પિક્સેલ 2, સોની એક્સપિરીયા ઝેડ પ્રીમિયમ અને નોકિયા 1.3 સ્માર્ટફોનમાં મોટરનો ઉપયોગ કરવા માટે પૂરતું છે.

તૈયાર મોડ્યુલો આપવામાં આવે છે પાયથોન, નોડેજેએસ, સી ++ અને .NET નો ઉપયોગ તમારા પ્રોગ્રામ્સમાં ભાષણ માન્યતા કાર્યોને એકીકૃત કરવા માટે (તૃતીય-પક્ષ વિકાસકર્તાઓએ રસ્ટ, ગો અને વી માટે અલગથી તૈયાર મોડ્યુલો બનાવ્યા છે).


તમારી ટિપ્પણી મૂકો

તમારું ઇમેઇલ સરનામું પ્રકાશિત કરવામાં આવશે નહીં. આવશ્યક ક્ષેત્રો સાથે ચિહ્નિત થયેલ છે *

*

*

  1. ડેટા માટે જવાબદાર: મિગ્યુએલ gelંજેલ ગેટóન
  2. ડેટાનો હેતુ: નિયંત્રણ સ્પામ, ટિપ્પણી સંચાલન.
  3. કાયદો: તમારી સંમતિ
  4. ડેટાની વાતચીત: કાયદાકીય જવાબદારી સિવાય ડેટા તૃતીય પક્ષને આપવામાં આવશે નહીં.
  5. ડેટા સ્ટોરેજ: cસેન્ટસ નેટવર્ક્સ (ઇયુ) દ્વારા હોસ્ટ કરેલો ડેટાબેઝ
  6. અધિકાર: કોઈપણ સમયે તમે તમારી માહિતીને મર્યાદિત, પુન recoverપ્રાપ્ત અને કા deleteી શકો છો.