मोज़िला डीप स्पीच 0.9 स्पीच रिकॉग्निशन इंजन का परिचय देता है

गहरा भाषण १

लॉन्च प्रकाशित किया गया है आवाज पहचान इंजन दीपस्पार्क 0.9 मोज़िला द्वारा विकसित, जो की वास्तुकला को लागू करता है भाषण मान्यता Baidu शोधकर्ताओं द्वारा प्रस्तावित एक ही नाम।

कार्यान्वयन का उपयोग करते हुए पायथन में लिखा गया है मशीन सीखने मंच TensorFlow और मुफ्त एमपीएल 2.0 लाइसेंस के तहत वितरित किया जाता है।

डीप स्पीच के बारे में

डीप स्पीच में दो सबसिस्टम होते हैं: एक ध्वनिक मॉडल और एक डिकोडर। ध्वनिक मॉडल इस संभावना की गणना करने के लिए गहरी मशीन लर्निंग तकनीकों का उपयोग करता है कि कुछ वर्ण इनपुट ध्वनि में मौजूद हैं।

डिकोडर चरित्र संभावना डेटा को एक पाठीय प्रतिनिधित्व में बदलने के लिए एक किरण खोज एल्गोरिथ्म का उपयोग करता है। डीपस्पीच पारंपरिक प्रणालियों की तुलना में बहुत सरल है और एक ही समय में विदेशी शोर की उपस्थिति में उच्च गुणवत्ता की मान्यता प्रदान करता है।

विकास पारंपरिक ध्वनिक मॉडल और ध्वनि की अवधारणा का उपयोग नहीं करता है; इसके बजाय, एक अच्छी तरह से अनुकूलित तंत्रिका नेटवर्क-आधारित मशीन लर्निंग सिस्टम का उपयोग किया जाता है, जो विभिन्न विसंगतियों जैसे शोर, गूंज और भाषण विशेषताओं को मॉडल करने के लिए अलग-अलग घटकों को विकसित करने की आवश्यकता को समाप्त करता है।

किट प्रशिक्षित मॉडल, नमूना ध्वनि फ़ाइलें प्रदान करता है और कमांड लाइन मान्यता उपकरण।

तैयार मॉडल केवल अंग्रेजी और चीनी के लिए आपूर्ति की जाती है। अन्य भाषाओं के लिए, आप कॉमन वॉयस प्रोजेक्ट द्वारा एकत्र किए गए वॉयस डेटा का उपयोग करके, संलग्न निर्देशों के अनुसार सिस्टम को स्वयं सीख सकते हैं।

जब डाउनलोड के लिए पेश की जाने वाली अंग्रेजी भाषा के रेडी-टू-यूज़ मॉडल का उपयोग किया जाता है, दीपश्री में मान्यता त्रुटियों का स्तर लिब्रीस्पीच परीक्षण सूट का उपयोग करते समय मूल्यांकन 7.06% है।

तुलना के लिए, मानव मान्यता त्रुटि दर 5,83% अनुमानित है।

प्रस्तावित मॉडल में, बिना किसी शोर के बिना वातावरण में एक अमेरिकी उच्चारण के साथ एक पुरुष आवाज की साफ रिकॉर्डिंग के साथ सबसे अच्छा मान्यता परिणाम प्राप्त किया जाता है।

वॉस्क कंटिन्यू स्पीच रिकग्निशन लाइब्रेरी के लेखक के अनुसार, कॉमन वॉयस सेट का नुकसान भाषण सामग्री की एकतरफाता है (20 और 30 के दशक में पुरुषों की प्रबलता और महिलाओं, बच्चों और बच्चों की आवाज के साथ सामग्री की कमी) बुजुर्ग), शब्दावली परिवर्तनशीलता (समान वाक्यांशों की पुनरावृत्ति) की कमी और एमपी 3 रिकॉर्डिंग के वितरण में विकृति होने का खतरा है।

डीपस्पेस के नुकसान में खराब प्रदर्शन शामिल है और डिकोडर में उच्च मेमोरी खपत, साथ ही साथ मॉडल को प्रशिक्षित करने के लिए महत्वपूर्ण संसाधन (मोज़िला हर एक में 8 जीबी वीआरएएम के साथ 6000 क्वाड्रो आरटीएक्स 24 जीपीयू के साथ एक प्रणाली का उपयोग करता है)।

इस दृष्टिकोण के लिए नकारात्मक पक्ष यह है तंत्रिका नेटवर्क की उच्च-गुणवत्ता की मान्यता और प्रशिक्षण के लिए, डीपस्पीच इंजन इसके लिए बड़ी मात्रा में डेटा की आवश्यकता होती है विभिन्न स्वरों द्वारा और प्राकृतिक शोर की उपस्थिति में वास्तविक स्थितियों में विषम तानाशाही।

यह डेटा मोज़िला में बनाई गई कॉमन वॉयस परियोजना द्वारा संकलित किया गया है, जो अंग्रेजी में 1469 घंटे, जर्मन में 692, फ्रेंच में 554, रूसी में 105 घंटे और यूक्रेनी में 22 घंटे के साथ एक सत्यापित डेटा सेट प्रदान करता है।

डीपस्पी के लिए अंतिम अंग्रेजी मॉडल का प्रशिक्षण देते समय, कॉमन वॉयस के अलावा, लिब्रिस्पीच, फिशर और स्विचबोर्ड परियोजनाओं के डेटा को अतिरिक्त रूप से उपयोग किया जाता है, साथ ही साथ लगभग 1700 घंटे की प्रसारित रेडियो कार्यक्रमों की रिकॉर्डिंग भी होती है।

नई शाखा में परिवर्तनों के बीच, शब्दों के वजन के लिए मजबूर करने की संभावना पर प्रकाश डाला गया है डिकोडिंग प्रक्रिया के दौरान चयनित।

यह तंत्रिका नेटवर्क को प्रशिक्षित करते समय इलेक्ट्रॉन 9.2 प्लेटफॉर्म के लिए समर्थन और परत सामान्यीकरण तंत्र (लेयर नॉर्म) के एक वैकल्पिक कार्यान्वयन पर भी प्रकाश डालता है।

डाउनलोड करें और प्राप्त करें

प्रदर्शन LePotato, रास्पबेरी पाई 3 और रास्पबेरी पाई 4 बोर्डों, साथ ही Google पिक्सेल 2, सोनी एक्सपीरिया जेड प्रीमियम और नोकिया 1.3 स्मार्टफोन में मोटर का उपयोग करने के लिए पर्याप्त है।

तैयार मॉड्यूल पेश किए जाते हैं पायथन, NodeJS, C ++, और .NET के लिए अपने कार्यक्रमों में वाक् पहचान कार्यों को एकीकृत करने के लिए उपयोग करें (तृतीय-पक्ष डेवलपर्स ने रस्ट, गो और वी के लिए अलग से तैयार किए गए मॉड्यूल हैं)।


अपनी टिप्पणी दर्ज करें

आपका ईमेल पता प्रकाशित नहीं किया जाएगा। आवश्यक फ़ील्ड के साथ चिह्नित कर रहे हैं *

*

*

  1. डेटा के लिए जिम्मेदार: मिगुएल elngel Gatón
  2. डेटा का उद्देश्य: नियंत्रण स्पैम, टिप्पणी प्रबंधन।
  3. वैधता: आपकी सहमति
  4. डेटा का संचार: डेटा को कानूनी बाध्यता को छोड़कर तीसरे पक्ष को संचार नहीं किया जाएगा।
  5. डेटा संग्रहण: ऑकेंटस नेटवर्क्स (EU) द्वारा होस्ट किया गया डेटाबेस
  6. अधिकार: किसी भी समय आप अपनी जानकारी को सीमित, पुनर्प्राप्त और हटा सकते हैं।