डीपस्पीच: मोझिलाचे भाषण ओळख इंजिन

डीपस्पीच 1

सध्या Mozilla केवळ त्याच्या लोकप्रिय वेब ब्राउझरमध्येच काम करत नाही, तर त्याच्या छत्राखाली विविध प्रकल्प देखील आहेत, ज्यापैकी आज आपण DeepSpeech बद्दल बोलणार आहोत. हे आहे एक उच्चार ओळख इंजिन जे Baidu संशोधकांनी प्रस्तावित केलेल्या नामांकित उच्चार ओळख आर्किटेक्चरची अंमलबजावणी करते.

डीपस्पीच विविध प्रशिक्षित मॉडेल्स ऑफर करण्यासाठी वेगळे आहे, स्पीच रेकग्निशन फंक्शन तुमच्या प्रोग्राम्समध्ये समाकलित करण्यासाठी ऑडिओ फाइल्सचा नमुना आणि कमांड लाइन रेकग्निशन टूल्स. त्यासाठी Python, NodeJS, C++ आणि .NET साठी वापरण्यास तयार मॉड्यूल प्रदान केले आहेत., जरी बाह्य विकासकांनी रस्ट आणि गो साठी स्वतंत्र मॉड्यूल देखील तयार केले आहेत.

तयार केलेले मॉडेल केवळ इंग्रजी भाषेसाठी वितरित केले जाते, परंतु संलग्न सूचनांनुसार इतर भाषांसाठी, कॉमन व्हॉइस प्रकल्पाद्वारे गोळा केलेला व्हॉइस डेटा वापरून सिस्टमला प्रशिक्षण दिले जाऊ शकते.

दीपस्पेच बद्दल

डीपस्पीच पारंपारिक प्रणालींपेक्षा खूपच सोपी आहे आणि त्याच वेळी ते बाह्य आवाजाच्या उपस्थितीत उच्च दर्जाची ओळख प्रदान करते.

विकास पारंपारिक ध्वनिक मॉडेल्स आणि फोनेम्सची संकल्पना वापरत नाही; त्याऐवजी मशीन लर्निंग सिस्टम वापरा उत्तम प्रकारे ऑप्टिमाइझ केलेले न्यूरल नेटवर्क आधारित, जे आवाज, प्रतिध्वनी आणि भाषण वैशिष्ट्ये यासारख्या विविध विचलनांचे मॉडेल करण्यासाठी स्वतंत्र घटक विकसित करण्याची गरज दूर करते.

या दृष्टिकोनाची दुसरी बाजू म्हणजे न्यूरल नेटवर्कची उच्च-गुणवत्तेची ओळख आणि प्रशिक्षण मिळविण्यासाठी, मोटर डीपस्पीचसाठी मोठ्या प्रमाणात डेटा आवश्यक आहे वेगवेगळ्या आवाजांद्वारे आणि नैसर्गिक आवाजाच्या उपस्थितीत वास्तविक परिस्थितीमध्ये विषम.

Mozilla मध्ये तयार केलेला Common Voice प्रकल्प असा डेटा संकलित करण्यासाठी जबाबदार आहे, 780 तास इंग्रजीमध्ये, 325 जर्मनमध्ये, 173 फ्रेंचमध्ये आणि रशियनमध्ये 27 तासांचा सिद्ध डेटा सेट प्रदान करतो.

शेवटचे ध्येय कॉमन व्हॉइस प्रकल्पातून विविध उच्चारांच्या रेकॉर्डिंगसह 10 हजार तासांचा संचय आहे मानवी भाषणाचे वैशिष्ट्यपूर्ण वाक्ये, जे ओळखण्याच्या त्रुटींची स्वीकार्य पातळी प्राप्त करतील. सध्याच्या फॉर्ममध्ये, प्रकल्प सहभागींनी आधीच एकूण 4.3 हजार तास शिकवले आहेत, त्यापैकी 3.5 हजारांनी चाचणी उत्तीर्ण केली आहे.

डीपस्पीचसाठी अंतिम इंग्रजी मॉडेल शिकवताना, कॉमन व्हॉईस वगळता 3816 तासांचे भाषण वापरले गेले ज्यामध्ये लिब्रीस्पीच, फिशर आणि स्विचबोर्ड प्रकल्पांचा डेटा समाविष्ट आहे, तसेच सुमारे 1700 तासांचे लिप्यंतरण केलेल्या रेडिओ प्रोग्राम रेकॉर्डिंगचा समावेश आहे.

इंग्रजी रेडी-टू-डाउनलोड मॉडेल वापरताना, DeepSpeech मध्ये ओळख त्रुटी पातळी 7,5% आहे LibriSpeech चाचणी संच सह मूल्यमापन केल्यावर. तुलनेसाठी, मानवी ओळखीतील त्रुटींची पातळी 5.83% आहे.

DeepSpeech मध्ये दोन उपप्रणाली असतात: एक ध्वनिक मॉडेल आणि एक डीकोडर. इनपुट ध्वनीमध्ये विशिष्ट वर्णांच्या उपस्थितीची संभाव्यता मोजण्यासाठी ध्वनिक मॉडेल सखोल मशीन शिक्षण पद्धती वापरते. वर्ण संभाव्यता डेटा मजकूर प्रतिनिधित्वामध्ये रूपांतरित करण्यासाठी डीकोडर किरण शोध अल्गोरिदम वापरतो.

DeepSpeech च्या नवीन आवृत्तीबद्दल

डीपस्पीच सध्या त्याच्या 0.6 आवृत्तीमध्ये आहे ज्यामध्ये खालील बदल हायलाइट केले आहेत:

  • एक नवीन ट्रान्समिशन डीकोडर प्रस्तावित आहे जो अधिक प्रतिसाद प्रदान करतो आणि प्रक्रिया केलेल्या ऑडिओ डेटाच्या आकारावर अवलंबून नाही.
  • API मध्ये बदल करण्यात आले आहेत आणि फंक्शनची नावे एकत्रित करण्याचे काम केले आहे. वेळेबद्दल अतिरिक्त मेटाडेटा मिळविण्यासाठी वैशिष्ट्ये जोडली गेली आहेत, ज्यामुळे केवळ आउटपुटमध्ये मजकूराचे प्रतिनिधित्व मिळू शकत नाही, तर ऑडिओ प्रवाहातील स्थानावर वैयक्तिक वर्ण आणि वाक्यांचे बंधन देखील शोधता येते.
  • Recurrent Neural Networks (RNN) सह काम ऑप्टिमाइझ करण्यासाठी CuDNN लायब्ररी वापरण्यासाठी समर्थन प्रशिक्षण मॉड्यूल्ससाठी टूलकिटमध्ये जोडले गेले आहे.
  • TensorFlow आवृत्तीसाठी किमान आवश्यकता 1.13.1 वरून 1.14.0 पर्यंत वाढवण्यात आली आहे.
  • TensorFlow Lite Light Edition साठी समर्थन जोडले, जे DeepSpeech पॅकेजचा आकार 98MB वरून 3.7MB पर्यंत कमी करते.
  • भाषा मॉडेल दुसर्‍या डेटा स्ट्रक्चर फॉरमॅटमध्ये हस्तांतरित केले गेले आहे, फायली बूट वेळी मेमरीमध्ये वाटप करण्यास परवानगी देते.
  • जुन्या फॉरमॅटसाठी समर्थन बंद केले आहे.

अंमलबजावणी TensorFlow मशीन लर्निंग प्लॅटफॉर्म वापरून Python मध्ये लिहिलेली आहे आणि मोफत MPL 2.0 परवान्याअंतर्गत वितरित केली आहे. काम हे Linux, Android, macOS आणि Windows वर समर्थित आहे. LePotato, Raspberry Pi 3 आणि Raspberry Pi 4 बोर्डांवर मोटर वापरण्यासाठी पुरेशी कार्यक्षमता आहे.


आपली टिप्पणी द्या

आपला ई-मेल पत्ता प्रकाशित केला जाणार नाही. आवश्यक फील्ड चिन्हांकित केले आहेत *

*

*

  1. डेटा जबाबदार: मिगुएल Áन्गल गॅटन
  2. डेटाचा उद्देशः नियंत्रण स्पॅम, टिप्पणी व्यवस्थापन.
  3. कायदे: आपली संमती
  4. डेटा संप्रेषण: कायदेशीर बंधन वगळता डेटा तृतीय पक्षास कळविला जाणार नाही.
  5. डेटा संग्रहण: ओकेन्टस नेटवर्क (EU) द्वारा होस्ट केलेला डेटाबेस
  6. अधिकारः कोणत्याही वेळी आपण आपली माहिती मर्यादित, पुनर्प्राप्त आणि हटवू शकता.