मोझिलाने डीपस्पीच 0.9 स्पीच रिकग्निशन इंजिनची ओळख करुन दिली

डीपस्पीच 1

लाँच प्रकाशित केले गेले आहे आवाज ओळख इंजिन मोपिलाने विकसित केलेल्या डीपस्पीच 0.9ची आर्किटेक्चर कार्यान्वित करते उच्चार ओळख बाडू संशोधकांनी प्रस्तावित केलेल्या त्याच नावाचे.

अंमलबजावणी अजगरात लिहिलेले आहे मशीन शिक्षण मंच टेन्सर फ्लो आणि विनामूल्य एमपीएल 2.0 परवान्या अंतर्गत वितरित केले आहे.

दीपस्पेच बद्दल

डीपस्पीचमध्ये दोन उपप्रणाली असतात: ध्वनिक मॉडेल आणि डीकोडर ध्वनिक मॉडेल इनपुट ध्वनीमध्ये विशिष्ट वर्ण उपस्थित असल्याची संभाव्यता मोजण्यासाठी खोल मशीन शिक्षण तंत्रांचा वापर करते.

वर्ण संभाव्यता डेटाचे मजकूर प्रतिनिधित्वात रूपांतर करण्यासाठी डीकोडर किरण शोध अल्गोरिदम वापरतो. पारंपारिक प्रणालींपेक्षा डीपस्पीच बरेच सोपी आहे आणि त्याच वेळी बाह्य आवाजाच्या उपस्थितीत उच्च गुणवत्तेची ओळख प्रदान करते.

विकास पारंपारिक ध्वनिक मॉडेल्स आणि फोनम संकल्पना वापरत नाही; त्याऐवजी, एक ऑप्टिमाइझ्ड न्यूरल नेटवर्क-आधारित मशीन शिक्षण प्रणाली वापरली जाते, ज्यामुळे आवाज, प्रतिध्वनी आणि भाषण वैशिष्ट्यांसारख्या विविध विसंगतींचे मॉडेल तयार करण्यासाठी स्वतंत्र घटक तयार करण्याची आवश्यकता दूर होते.

किट प्रशिक्षित मॉडेल, नमुना साउंड फायली ऑफर करते आणि कमांड लाइन ओळख साधने.

तयार केलेले मॉडेल केवळ इंग्रजी आणि चीनीसाठी पुरविले जाते. अन्य भाषांसाठी, कॉमन व्हॉईस प्रोजेक्टद्वारे संकलित केलेला व्हॉईस डेटा वापरुन आपण जोडलेल्या सूचनांनुसार सिस्टम स्वतः शिकू शकता.

जेव्हा डाउनलोडसाठी ऑफर केलेले इंग्रजी भाषेचे तयार-वापर मॉडेल वापरले जाते, जेव्हा लिब्रीस्पेच चाचणी संच वापरुन मूल्यांकन केले जाते तेव्हा डीपस्पेचमधील मान्यता त्रुटींचे स्तर 7.06% आहे.

तुलना करता, मानवी मान्यता त्रुटी दर अंदाजे 5,83% आहे.

प्रस्तावित मॉडेलमध्ये, बाह्य आवाजाशिवाय वातावरणात अमेरिकन उच्चारण असलेल्या पुरुष आवाजाच्या स्वच्छ रेकॉर्डिंगसह उत्कृष्ट ओळख परिणाम मिळविला जातो.

व्हॉस्क अखंड भाषण मान्यता ग्रंथालयाच्या लेखकाच्या मते, कॉमन व्हॉईस सेटचे तोटे भाषण सामग्रीचे एकतर्फी (त्यांच्या 20 आणि 30 च्या दशकात पुरुषांचे वर्चस्व आणि स्त्रिया, मुले आणि मुलांच्या आवाजासह सामग्रीची कमतरता) आहेत. वयोवृद्ध), शब्दसंग्रह परिवर्तनशीलतेचा अभाव (समान वाक्यांशांची पुनरावृत्ती) आणि एमपी 3 रेकॉर्डिंगचे वितरण विकृत होण्यास प्रवृत्त करते.

डीपस्पीकच्या तोट्यात खराब कामगिरीचा समावेश आहे आणि डीकोडरमध्ये उच्च मेमरीचा वापर तसेच मॉडेलला प्रशिक्षण देण्यासाठी महत्वाची संसाधने (प्रत्येकात 8 जीबी व्हीआरएएमसह 6000 क्वाड्रो आरटीएक्स 24 जीपीयू असलेली मोझीला सिस्टम वापरते).

या पध्दतीची नकारात्मक बाजू अशी आहे उच्च-गुणवत्तेची मान्यता आणि तंत्रिका नेटवर्कच्या प्रशिक्षणासाठी, डीपस्पीच इंजिन यासाठी मोठ्या प्रमाणात डेटा आवश्यक आहे विषम भिन्न भिन्न आवाजांनी आणि नैसर्गिक आवाजाच्या उपस्थितीत वास्तविक परिस्थितीत निराकरण केले.

हा डेटा मोझीलामध्ये तयार केलेल्या कॉमन व्हॉईस प्रोजेक्टद्वारे संकलित केला आहे, जो इंग्रजीमध्ये 1469 तास, जर्मनमध्ये 692, फ्रेंचमध्ये 554, रशियनमध्ये 105 तास आणि युक्रेनियनमध्ये 22 तासांचा एक सत्यापित डेटा सेट करतो.

डीपस्पेचसाठी अंतिम इंग्रजी मॉडेलचे प्रशिक्षण देताना, कॉमन व्हॉईस व्यतिरिक्त, लिब्रीस्पेच, फिशर आणि स्विचबोर्ड प्रकल्पांमधील डेटा अतिरिक्तपणे वापरला जातो, तसेच रेडिओ प्रोग्रामच्या अंदाजे 1700 तासांच्या रेकॉर्डिंगचा वापर केला जातो.

नवीन शाखेत बदल करण्याच्या दरम्यान, शब्दाचे वजन जबरदस्ती करण्याची शक्यता अधोरेखित केली जाते डीकोडिंग प्रक्रियेदरम्यान निवडलेले.

हे न्यूरोल नेटवर्कचे प्रशिक्षण देताना इलेक्ट्रॉन 9.2 प्लॅटफॉर्म व लेयर नॉर्मलायझेशन मॅकेनिझम (लेयर नॉर्म) च्या वैकल्पिक अंमलबजावणीसाठी समर्थन देखील दर्शविते.

डाउनलोड करा आणि मिळवा

लेपोटाटो, रास्पबेरी पाई 3 आणि रास्पबेरी पाई 4 बोर्ड, तसेच गूगल पिक्सेल 2, सोनी एक्सपीरिया झेड प्रीमियम आणि नोकिया 1.3 स्मार्टफोनमध्ये मोटर वापरण्यासाठी परफॉरमन्स पुरेसे आहे.

तयार मॉड्यूल पायथन, नोडजेएस, सी ++, आणि .नेटसाठी आपल्या प्रोग्राममध्ये भाषण ओळख कार्ये समाकलित करण्यासाठी वापरण्यासाठी (तृतीय-पक्ष विकसकांनी रस्ट, गो आणि व्हीसाठी स्वतंत्रपणे तयार केलेले मॉड्यूल तयार केले आहेत).


आपली टिप्पणी द्या

आपला ई-मेल पत्ता प्रकाशित केला जाणार नाही. आवश्यक फील्ड चिन्हांकित केले आहेत *

*

*

  1. डेटा जबाबदार: मिगुएल Áन्गल गॅटन
  2. डेटाचा उद्देशः नियंत्रण स्पॅम, टिप्पणी व्यवस्थापन.
  3. कायदे: आपली संमती
  4. डेटा संप्रेषण: कायदेशीर बंधन वगळता डेटा तृतीय पक्षास कळविला जाणार नाही.
  5. डेटा संग्रहण: ओकेन्टस नेटवर्क (EU) द्वारा होस्ट केलेला डेटाबेस
  6. अधिकारः कोणत्याही वेळी आपण आपली माहिती मर्यादित, पुनर्प्राप्त आणि हटवू शकता.