Liberaron el código fuente de Whisper, un sistema de reconocimiento automático de voz

व्हिस्पर ही स्वयंचलित उच्चार ओळखण्याची प्रणाली आहे

प्रकल्प नुकताच AI उघडा, जे कृत्रिम बुद्धिमत्तेच्या क्षेत्रात सार्वजनिक प्रकल्प विकसित करते, वृत्त प्रकाशित केले आहे आवाज ओळख प्रणालीशी संबंधित कुजबुजणे जे ए स्वयंचलित भाषण ओळख प्रणाली (ASR) वेबवरून संकलित केलेल्या 680.000 तासांच्या बहुभाषिक, मल्टीटास्किंग पर्यवेक्षी डेटावर प्रशिक्षित.

असा दावा केला जातो की इंग्रजी भाषणासाठी, प्रणाली मानवी ओळखीच्या जवळ स्वयंचलित ओळख विश्वासार्हता आणि अचूकतेचे स्तर प्रदान करते.

आम्ही दाखवतो की एवढा मोठा आणि वैविध्यपूर्ण डेटासेट वापरल्याने उच्चार, पार्श्वभूमी आवाज आणि तांत्रिक भाषा अधिक मजबूत होते. याव्यतिरिक्त, ते विविध भाषांमध्ये लिप्यंतरण तसेच त्या भाषांचे इंग्रजीमध्ये भाषांतर करण्यास अनुमती देते. आम्ही ओपन सोर्स मॉडेल्स आणि अनुमान कोड आहोत जे उपयुक्त अॅप्लिकेशन्स तयार करण्यासाठी आणि मजबूत स्पीच प्रोसेसिंगवर भविष्यातील संशोधनासाठी पाया म्हणून काम करतात.

मॉडेलबद्दल (आधीच नमूद केल्याप्रमाणे) 680 तास वापरून प्रशिक्षित विविध भाषा आणि विषय क्षेत्रांचा समावेश असलेल्या विविध संग्रहांमधून गोळा केलेला व्हॉइस डेटा. प्रशिक्षणात सहभागी व्हॉइस डेटापैकी सुमारे 1/3 इंग्रजी व्यतिरिक्त इतर भाषांमध्ये आहे.

प्रस्तावित प्रणाली उच्चारित उच्चार यासारख्या परिस्थिती योग्यरित्या हाताळते, पार्श्वभूमीच्या आवाजाची उपस्थिती आणि तांत्रिक शब्दाचा वापर. मजकूरात भाषणाचे प्रतिलेखन करण्याव्यतिरिक्त, सिस्टम स्वैर भाषेतून इंग्रजीमध्ये भाषणाचे भाषांतर देखील करू शकते आणि ऑडिओ प्रवाहात भाषणाचे स्वरूप शोधू शकते.

मॉडेल्सना दोन प्रतिनिधित्वांमध्ये प्रशिक्षण दिले जाते: इंग्रजी भाषेसाठी एक मॉडेल आणि स्पॅनिश, रशियन, इटालियन, जर्मन, जपानी, युक्रेनियन, बेलारूसी, चीनी आणि इतर भाषांना समर्थन देणारे बहुभाषिक मॉडेल. या बदल्यात, प्रत्येक दृश्य 5 पर्यायांमध्ये विभागले गेले आहे, जे मॉडेलमध्ये समाविष्ट केलेल्या पॅरामीटर्सच्या आकारात आणि संख्येमध्ये भिन्न आहेत.

व्हिस्पर आर्किटेक्चर हा एन्कोडर-डीकोडर ट्रान्सफॉर्मर म्हणून अंमलात आणलेला एंड-टू-एंड पध्दत आहे. इनपुट ऑडिओ 30-सेकंद भागांमध्ये विभाजित केला जातो, लॉग-मेल स्पेक्ट्रोग्राममध्ये रूपांतरित केला जातो आणि नंतर एन्कोडरमध्ये पास केला जातो. डीकोडरला संबंधित मजकूर उपशीर्षकाचा अंदाज लावण्यासाठी प्रशिक्षित केले जाते, विशेष टोकन्ससह अंतर्भूत असतात जे अद्वितीय मॉडेलला भाषा ओळख, वाक्य-स्तरीय टाइमस्टॅम्प, बहुभाषी भाषण प्रतिलेखन आणि इंग्रजी भाषण भाषांतर यासारखी कार्ये करण्यासाठी निर्देशित करतात.

आकार जितका मोठा असेल तितकी ओळख अचूकता आणि गुणवत्ता जास्त असेल, परंतु GPU व्हिडिओ मेमरी आकारासाठी आवश्यक असलेल्या उच्च आवश्यकता आणि कार्यप्रदर्शन कमी असेल. उदाहरणार्थ, किमान पर्यायामध्ये 39 दशलक्ष पॅरामीटर्स समाविष्ट आहेत आणि 1 GB व्हिडिओ मेमरी आवश्यक आहे, तर कमाल पर्यायामध्ये 1550 अब्ज पॅरामीटर्स समाविष्ट आहेत आणि 10 GB व्हिडिओ मेमरी आवश्यक आहे. किमान प्रकार कमाल पेक्षा 32 पट वेगवान आहे.

सिस्टम "ट्रान्सफॉर्मर" न्यूरल नेटवर्क आर्किटेक्चर वापरते, ज्यामध्ये एन्कोडर आणि डीकोडरचा समावेश आहे जे एकमेकांशी संवाद साधतात. ऑडिओ 30-सेकंद भागांमध्ये विभाजित केला जातो, जो लॉग-मेल स्पेक्ट्रोग्राममध्ये रूपांतरित केला जातो आणि एन्कोडरला पाठविला जातो.

एन्कोडरच्या कार्याचा परिणाम डीकोडरला पाठविला जातो, जे विशेष टोकन्ससह मिश्रित मजकूर प्रतिनिधित्वाचा अंदाज लावते जे भाषा ओळखणे, वाक्य उच्चारण कालगणना लेखांकन, विविध भाषांमधील भाषण प्रतिलेखन आणि सामान्य मॉडेलमध्ये इंग्रजी भाषांतर यासारखी कार्ये सोडविण्यास अनुमती देते.

हे लक्षात घेण्यासारखे आहे की व्हिस्परचे कार्यप्रदर्शन भाषेच्या आधारावर मोठ्या प्रमाणात बदलते, म्हणून एक चांगली समज सादर करणारी एक इंग्रजी आहे, ज्याच्या फक्त इंग्रजीमध्ये चार आवृत्त्या आहेत, जे इतर भाषांच्या इतर मॉडेल्सप्रमाणेच त्याचे फायदे आणि तोटे देतात. वेग आणि अचूकता.

शेवटी आपल्याला त्याबद्दल अधिक जाणून घेण्यात स्वारस्य असल्यास, मध्ये तुम्ही मूळ प्रकाशन तपासू शकता हा दुवा, जर तुम्हाला स्त्रोत कोड आणि प्रशिक्षित मॉडेलमध्ये स्वारस्य असेल तर तुम्ही त्यांचा येथे सल्ला घेऊ शकता हा दुवा.

PyTorch फ्रेमवर्कवर आधारित संदर्भ अंमलबजावणी कोड आणि आधीच प्रशिक्षित मॉडेल्सचा संच खुला आहे, वापरण्यासाठी तयार आहे. कोड MIT परवान्याअंतर्गत मुक्त स्रोत आहे आणि ffmpeg लायब्ररीचा वापर आवश्यक आहे हे नमूद करण्यासारखे आहे.

आपली टिप्पणी द्या उत्तर रद्द करा

आपला ई-मेल पत्ता प्रकाशित केला जाणार नाही. आवश्यक फील्ड चिन्हांकित केले आहेत *

टिप्पणी *

नाव*

Correo electrónico*

मी स्वीकारतो गोपनीयता अटी*

डेटा जबाबदार: मिगुएल Áन्गल गॅटन
डेटाचा उद्देशः नियंत्रण स्पॅम, टिप्पणी व्यवस्थापन.
कायदे: आपली संमती
डेटा संप्रेषण: कायदेशीर बंधन वगळता डेटा तृतीय पक्षास कळविला जाणार नाही.
डेटा संग्रहण: ओकेन्टस नेटवर्क (EU) द्वारा होस्ट केलेला डेटाबेस
अधिकारः कोणत्याही वेळी आपण आपली माहिती मर्यादित, पुनर्प्राप्त आणि हटवू शकता.

मला वृत्तपत्र प्राप्त करायचे आहे

DesdeLinux

त्यांनी व्हिस्परचा स्त्रोत कोड जारी केला, एक स्वयंचलित भाषण ओळख प्रणाली

आपली टिप्पणी द्या उत्तर रद्द करा