उन्होंने स्वचालित आवाज पहचान प्रणाली व्हिस्पर का स्रोत कोड जारी किया

व्हिस्पर एक स्वचालित वाक् पहचान प्रणाली है

परियोजना हाल ही में OpenAI, जो कृत्रिम बुद्धि के क्षेत्र में सार्वजनिक परियोजनाओं को विकसित करता है, समाचार प्रकाशित किया है आवाज पहचान प्रणाली से संबंधित कानाफूसी, जो कि है स्वचालित वाक् पहचान प्रणाली (एएसआर) वेब से एकत्र किए गए 680.000 घंटों के बहुभाषी, मल्टीटास्किंग पर्यवेक्षित डेटा पर प्रशिक्षित।

यह दावा किया जाता है कि अंग्रेजी भाषण के लिए, सिस्टम मानव पहचान के करीब स्वत: मान्यता विश्वसनीयता और सटीकता के स्तर प्रदान करता है।

हम दिखाते हैं कि इतने बड़े और विविध डेटासेट का उपयोग करने से उच्चारण, पृष्ठभूमि शोर और तकनीकी भाषा में अधिक मजबूती आती है। इसके अलावा, यह विभिन्न भाषाओं में ट्रांसक्रिप्शन की अनुमति देता है, साथ ही उन भाषाओं का अंग्रेजी में अनुवाद भी करता है। हम ओपन सोर्स मॉडल और अनुमान कोड हैं जो उपयोगी अनुप्रयोगों के निर्माण और मजबूत भाषण प्रसंस्करण पर भविष्य के शोध के लिए नींव के रूप में कार्य करते हैं।

मॉडल के बारे में (जैसा कि पहले ही उल्लेख किया गया है) 680 घंटों का उपयोग करके प्रशिक्षित किया गया विभिन्न भाषाओं और विषय क्षेत्रों को कवर करने वाले विभिन्न संग्रहों से एकत्र किए गए ध्वनि डेटा का। प्रशिक्षण में शामिल वॉयस डेटा का लगभग 1/3 अंग्रेजी के अलावा अन्य भाषाओं में है।

प्रस्तावित प्रणाली उच्चारण उच्चारण जैसी स्थितियों को सही ढंग से संभालता है, पृष्ठभूमि शोर की उपस्थिति और तकनीकी शब्दजाल का उपयोग। भाषण को पाठ में बदलने के अलावा, सिस्टम एक मनमानी भाषा से अंग्रेजी में भाषण का अनुवाद भी कर सकता है और ऑडियो स्ट्रीम में भाषण की उपस्थिति का पता लगा सकता है।

मॉडल को दो अभ्यावेदन में प्रशिक्षित किया जाता है: अंग्रेजी भाषा के लिए एक मॉडल और एक बहुभाषी मॉडल जो स्पेनिश, रूसी, इतालवी, जर्मन, जापानी, यूक्रेनी, बेलारूसी, चीनी और अन्य भाषाओं का समर्थन करता है। बदले में, प्रत्येक दृश्य को 5 विकल्पों में विभाजित किया जाता है, जो आकार और मॉडल में शामिल किए गए मापदंडों की संख्या में भिन्न होते हैं।

व्हिस्पर आर्किटेक्चर एक सरल एंड-टू-एंड दृष्टिकोण है, जिसे एन्कोडर-डिकोडर ट्रांसफॉर्मर के रूप में कार्यान्वित किया जाता है। इनपुट ऑडियो को 30-सेकंड के विखंडू में विभाजित किया जाता है, एक लॉग-मेल स्पेक्ट्रोग्राम में परिवर्तित किया जाता है, और फिर एक एनकोडर को पास किया जाता है। एक डिकोडर को संबंधित पाठ उपशीर्षक की भविष्यवाणी करने के लिए प्रशिक्षित किया जाता है, जो विशेष टोकन के साथ इंटरसेप्टर होता है जो अद्वितीय मॉडल को भाषा की पहचान, वाक्य-स्तरीय टाइमस्टैम्प, बहुभाषी भाषण प्रतिलेखन और अंग्रेजी में भाषण अनुवाद जैसे कार्यों को करने के लिए निर्देशित करता है।

आकार जितना बड़ा होगा, मान्यता सटीकता और गुणवत्ता उतनी ही अधिक होगी, लेकिन GPU वीडियो मेमोरी आकार के लिए आवश्यकताएं भी अधिक होंगी और प्रदर्शन कम होगा। उदाहरण के लिए, न्यूनतम विकल्प में 39 मिलियन पैरामीटर शामिल हैं और इसके लिए 1 जीबी वीडियो मेमोरी की आवश्यकता होती है, जबकि अधिकतम विकल्प में 1550 बिलियन पैरामीटर शामिल हैं और इसके लिए 10 जीबी वीडियो मेमोरी की आवश्यकता होती है। न्यूनतम संस्करण अधिकतम से 32 गुना तेज है।

सिस्टम "ट्रांसफार्मर" तंत्रिका नेटवर्क वास्तुकला का उपयोग करता है, जिसमें एक एन्कोडर और एक डिकोडर शामिल होता है जो एक दूसरे के साथ इंटरैक्ट करता है। ऑडियो को 30-सेकंड के विखंडू में विभाजित किया जाता है, जिसे लॉग-मेल स्पेक्ट्रोग्राम में परिवर्तित किया जाता है और एन्कोडर को भेजा जाता है।

एनकोडर के कार्य का परिणाम डिकोडर को भेजा जाता है, जो विशेष टोकन के साथ मिश्रित एक पाठ प्रतिनिधित्व की भविष्यवाणी करता है जो भाषा का पता लगाने, वाक्य उच्चारण कालक्रम लेखांकन, विभिन्न भाषाओं में भाषण प्रतिलेखन और एक सामान्य मॉडल में अंग्रेजी अनुवाद जैसे कार्यों को हल करने की अनुमति देता है।

यह उल्लेखनीय है कि व्हिस्पर का प्रदर्शन भाषा के आधार पर बहुत भिन्न होता है, इसलिए जो बेहतर समझ प्रस्तुत करता है वह अंग्रेजी है, जिसके चार संस्करण केवल अंग्रेजी में हैं, जो अन्य भाषाओं के अन्य मॉडलों की तरह, फायदे और नुकसान प्रदान करते हैं। गति और सटीकता से।

अंत में यदि आप इसके बारे में अधिक जानने में रुचि रखते हैं, आप मूल पोस्ट यहां देख सकते हैं इस लिंक, जबकि यदि आप स्रोत कोड और प्रशिक्षित मॉडल में रुचि रखते हैं तो आप उनसे परामर्श कर सकते हैं इस लिंक।

PyTorch ढांचे पर आधारित संदर्भ कार्यान्वयन कोड और पहले से प्रशिक्षित मॉडल का एक सेट खुला है, उपयोग के लिए तैयार है। कोड एमआईटी लाइसेंस के तहत खुला स्रोत है और यह उल्लेखनीय है कि ffmpeg पुस्तकालय के उपयोग की आवश्यकता है।

अपनी टिप्पणी दर्ज करें

आपका ईमेल पता प्रकाशित नहीं किया जाएगा। आवश्यक फ़ील्ड के साथ चिह्नित कर रहे हैं *

टिप्पणी *

नाम*

इलेक्ट्रॉनिक मेल*

मैं स्वीकारता हूँ गोपनीयता की शर्तें*

डेटा के लिए जिम्मेदार: मिगुएल elngel Gatón
डेटा का उद्देश्य: नियंत्रण स्पैम, टिप्पणी प्रबंधन।
वैधता: आपकी सहमति
डेटा का संचार: डेटा को कानूनी बाध्यता को छोड़कर तीसरे पक्ष को संचार नहीं किया जाएगा।
डेटा संग्रहण: ऑकेंटस नेटवर्क्स (EU) द्वारा होस्ट किया गया डेटाबेस
अधिकार: किसी भी समय आप अपनी जानकारी को सीमित, पुनर्प्राप्त और हटा सकते हैं।

मैं समाचार पत्र प्राप्त करना चाहता हूं

DesdeLinux

उन्होंने व्हिस्पर का स्रोत कोड जारी किया, जो एक स्वचालित वाक् पहचान प्रणाली है

अपनी टिप्पणी दर्ज करें

अपनी टिप्पणी दर्ज करें उत्तर को रद्द करें

अपनी टिप्पणी दर्ज करें