उन्होंने व्हिस्पर का स्रोत कोड जारी किया, जो एक स्वचालित वाक् पहचान प्रणाली है

फुसफुसाना

व्हिस्पर एक स्वचालित वाक् पहचान प्रणाली है

परियोजना हाल ही में OpenAI, जो कृत्रिम बुद्धि के क्षेत्र में सार्वजनिक परियोजनाओं को विकसित करता है, समाचार प्रकाशित किया है आवाज पहचान प्रणाली से संबंधित कानाफूसी, जो कि है स्वचालित वाक् पहचान प्रणाली (एएसआर) वेब से एकत्र किए गए 680.000 घंटों के बहुभाषी, मल्टीटास्किंग पर्यवेक्षित डेटा पर प्रशिक्षित।

यह दावा किया जाता है कि अंग्रेजी भाषण के लिए, सिस्टम मानव पहचान के करीब स्वत: मान्यता विश्वसनीयता और सटीकता के स्तर प्रदान करता है।

हम दिखाते हैं कि इतने बड़े और विविध डेटासेट का उपयोग करने से उच्चारण, पृष्ठभूमि शोर और तकनीकी भाषा में अधिक मजबूती आती है। इसके अलावा, यह विभिन्न भाषाओं में ट्रांसक्रिप्शन की अनुमति देता है, साथ ही उन भाषाओं का अंग्रेजी में अनुवाद भी करता है। हम ओपन सोर्स मॉडल और अनुमान कोड हैं जो उपयोगी अनुप्रयोगों के निर्माण और मजबूत भाषण प्रसंस्करण पर भविष्य के शोध के लिए नींव के रूप में कार्य करते हैं।

मॉडल के बारे में (जैसा कि पहले ही उल्लेख किया गया है) 680 घंटों का उपयोग करके प्रशिक्षित किया गया विभिन्न भाषाओं और विषय क्षेत्रों को कवर करने वाले विभिन्न संग्रहों से एकत्र किए गए ध्वनि डेटा का। प्रशिक्षण में शामिल वॉयस डेटा का लगभग 1/3 अंग्रेजी के अलावा अन्य भाषाओं में है।

प्रस्तावित प्रणाली उच्चारण उच्चारण जैसी स्थितियों को सही ढंग से संभालता है, पृष्ठभूमि शोर की उपस्थिति और तकनीकी शब्दजाल का उपयोग। भाषण को पाठ में बदलने के अलावा, सिस्टम एक मनमानी भाषा से अंग्रेजी में भाषण का अनुवाद भी कर सकता है और ऑडियो स्ट्रीम में भाषण की उपस्थिति का पता लगा सकता है।

मॉडल को दो अभ्यावेदन में प्रशिक्षित किया जाता है: अंग्रेजी भाषा के लिए एक मॉडल और एक बहुभाषी मॉडल जो स्पेनिश, रूसी, इतालवी, जर्मन, जापानी, यूक्रेनी, बेलारूसी, चीनी और अन्य भाषाओं का समर्थन करता है। बदले में, प्रत्येक दृश्य को 5 विकल्पों में विभाजित किया जाता है, जो आकार और मॉडल में शामिल किए गए मापदंडों की संख्या में भिन्न होते हैं।

व्हिस्पर आर्किटेक्चर एक सरल एंड-टू-एंड दृष्टिकोण है, जिसे एन्कोडर-डिकोडर ट्रांसफॉर्मर के रूप में कार्यान्वित किया जाता है। इनपुट ऑडियो को 30-सेकंड के विखंडू में विभाजित किया जाता है, एक लॉग-मेल स्पेक्ट्रोग्राम में परिवर्तित किया जाता है, और फिर एक एनकोडर को पास किया जाता है। एक डिकोडर को संबंधित पाठ उपशीर्षक की भविष्यवाणी करने के लिए प्रशिक्षित किया जाता है, जो विशेष टोकन के साथ इंटरसेप्टर होता है जो अद्वितीय मॉडल को भाषा की पहचान, वाक्य-स्तरीय टाइमस्टैम्प, बहुभाषी भाषण प्रतिलेखन और अंग्रेजी में भाषण अनुवाद जैसे कार्यों को करने के लिए निर्देशित करता है।

आकार जितना बड़ा होगा, मान्यता सटीकता और गुणवत्ता उतनी ही अधिक होगी, लेकिन GPU वीडियो मेमोरी आकार के लिए आवश्यकताएं भी अधिक होंगी और प्रदर्शन कम होगा। उदाहरण के लिए, न्यूनतम विकल्प में 39 मिलियन पैरामीटर शामिल हैं और इसके लिए 1 जीबी वीडियो मेमोरी की आवश्यकता होती है, जबकि अधिकतम विकल्प में 1550 बिलियन पैरामीटर शामिल हैं और इसके लिए 10 जीबी वीडियो मेमोरी की आवश्यकता होती है। न्यूनतम संस्करण अधिकतम से 32 गुना तेज है।

सिस्टम "ट्रांसफार्मर" तंत्रिका नेटवर्क वास्तुकला का उपयोग करता है, जिसमें एक एन्कोडर और एक डिकोडर शामिल होता है जो एक दूसरे के साथ इंटरैक्ट करता है। ऑडियो को 30-सेकंड के विखंडू में विभाजित किया जाता है, जिसे लॉग-मेल स्पेक्ट्रोग्राम में परिवर्तित किया जाता है और एन्कोडर को भेजा जाता है।

एनकोडर के कार्य का परिणाम डिकोडर को भेजा जाता है, जो विशेष टोकन के साथ मिश्रित एक पाठ प्रतिनिधित्व की भविष्यवाणी करता है जो भाषा का पता लगाने, वाक्य उच्चारण कालक्रम लेखांकन, विभिन्न भाषाओं में भाषण प्रतिलेखन और एक सामान्य मॉडल में अंग्रेजी अनुवाद जैसे कार्यों को हल करने की अनुमति देता है।

यह उल्लेखनीय है कि व्हिस्पर का प्रदर्शन भाषा के आधार पर बहुत भिन्न होता है, इसलिए जो बेहतर समझ प्रस्तुत करता है वह अंग्रेजी है, जिसके चार संस्करण केवल अंग्रेजी में हैं, जो अन्य भाषाओं के अन्य मॉडलों की तरह, फायदे और नुकसान प्रदान करते हैं। गति और सटीकता से।

अंत में यदि आप इसके बारे में अधिक जानने में रुचि रखते हैं, आप मूल प्रकाशन की जांच कर सकते हैं इस लिंक, जबकि यदि आप स्रोत कोड और प्रशिक्षित मॉडल में रुचि रखते हैं तो आप उनसे परामर्श कर सकते हैं इस लिंक।

PyTorch ढांचे पर आधारित संदर्भ कार्यान्वयन कोड और पहले से प्रशिक्षित मॉडल का एक सेट खुला है, उपयोग के लिए तैयार है। कोड एमआईटी लाइसेंस के तहत खुला स्रोत है और यह उल्लेखनीय है कि ffmpeg पुस्तकालय के उपयोग की आवश्यकता है।


लेख की सामग्री हमारे सिद्धांतों का पालन करती है संपादकीय नैतिकता। त्रुटि की रिपोर्ट करने के लिए क्लिक करें यहां.

पहली टिप्पणी करने के लिए

अपनी टिप्पणी दर्ज करें

आपका ईमेल पता प्रकाशित नहीं किया जाएगा।

*

*

  1. डेटा के लिए जिम्मेदार: मिगुएल elngel Gatón
  2. डेटा का उद्देश्य: नियंत्रण स्पैम, टिप्पणी प्रबंधन।
  3. वैधता: आपकी सहमति
  4. डेटा का संचार: डेटा को कानूनी बाध्यता को छोड़कर तीसरे पक्ष को संचार नहीं किया जाएगा।
  5. डेटा संग्रहण: ऑकेंटस नेटवर्क्स (EU) द्वारा होस्ट किया गया डेटाबेस
  6. अधिकार: किसी भी समय आप अपनी जानकारी को सीमित, पुनर्प्राप्त और हटा सकते हैं।