انهن ويسپر جو سورس ڪوڊ جاري ڪيو، هڪ خودڪار تقرير جي سڃاڻپ وارو نظام

ويندڙ

ويسپر هڪ خودڪار تقرير جي سڃاڻپ وارو نظام آهي

پروجيڪٽ تازو OpenAI، جيڪو مصنوعي ذهانت جي ميدان ۾ عوامي منصوبن کي ترقي ڪري ٿو، خبر شايع ڪئي آواز جي سڃاڻپ سسٽم سان لاڳاپيل سرگوشي، جيڪو هڪ آهي خودڪار تقرير جي سڃاڻپ سسٽم (ASR) 680.000 ڪلاڪن جي گهڻ لساني، گھڻن ڪمن جي نگراني ڪيل ڊيٽا ويب تان گڏ ڪيل.

اها دعويٰ ڪئي وئي آهي ته انگريزي تقرير لاءِ، سسٽم انساني سڃاڻپ جي ويجهو خودڪار سڃاڻپ جي اعتبار ۽ درستگي جي سطح مهيا ڪري ٿو.

اسان ڏيکاريون ٿا ته اهڙي وڏي ۽ متنوع ڊيٽا سيٽ کي استعمال ڪندي تلفظ، پس منظر جي شور، ۽ ٽيڪنيڪل ٻولي کي وڌيڪ مضبوط بڻائي ٿو. ان کان سواء، اها اجازت ڏئي ٿي مختلف ٻولين ۾ ٽرانسپشن، انهي سان گڏ انهن ٻولين جو ترجمو انگريزيء ۾. اسان اوپن سورس ماڊل ۽ انفرنس ڪوڊ آهيون جيڪي ڪارآمد ايپليڪيشنن جي تعمير ۽ مضبوط اسپيچ پروسيسنگ تي مستقبل جي تحقيق لاءِ بنياد طور ڪم ڪن ٿا.

ماڊل بابت (جيئن اڳ ۾ ئي ذڪر ڪيو ويو آهي) 680 ڪلاڪ استعمال ڪندي تربيت ڪئي وئي مختلف مجموعن مان گڏ ڪيل آواز جي ڊيٽا جو مختلف ٻولين ۽ موضوع جي علائقن کي ڍڪي ٿو. ٽريننگ ۾ شامل آواز جي ڊيٽا جو اٽڪل 1/3 انگريزي کان سواء ٻين ٻولين ۾ آهي.

پيش ڪيل نظام صحيح طور تي حالتن کي سنڀاليندو آهي جهڙوڪ تلفظ ٿيل تلفظ، پس منظر جي شور جي موجودگي ۽ ٽيڪنيڪل جرگون جو استعمال. تقرير کي متن ۾ نقل ڪرڻ کان علاوه، سسٽم پڻ تقرير کي هڪ خودمختيار ٻولي کان انگريزي ۾ ترجمو ڪري سگهي ٿو ۽ آڊيو اسٽريم ۾ تقرير جي ظاهر کي ڳولي سگھي ٿو.

ماڊلز کي ٻن نمائشن ۾ تربيت ڏني ويندي آھي: ھڪڙو انگريزي ٻوليءَ جو نمونو ۽ ھڪڙو گھڻ لساني ماڊل جيڪو ھسپانوي، روسي، اطالوي، جرمن، جاپاني، يوڪريني، بيلاروسي، چيني، ۽ ٻين ٻولين کي سپورٽ ڪري ٿو. موڙ ۾، هر ڏيک کي 5 اختيارن ۾ ورهايو ويو آهي، جيڪي ماڊل ۾ شامل ڪيل ماپ ۽ ماپن جي تعداد ۾ مختلف آهن.

ويسپر آرڪيٽيڪچر هڪ سادي آخر کان آخر تائين جو طريقو آهي، جيڪو انڪوڊر-ڊيڪوڊر ٽرانسفارمر طور لاڳو ڪيو ويو آهي. ان پٽ آڊيو کي 30 سيڪنڊن جي حصن ۾ ورهايو ويندو آهي، هڪ لاگ ميل اسپيڪٽرگرام ۾ تبديل ڪيو ويندو آهي، ۽ پوءِ انڪوڊر ڏانهن منتقل ڪيو ويندو آهي. هڪ ڊيڪوڊر کي تربيت ڏني وئي آهي ته لاڳاپيل متن جي ذيلي عنوان جي اڳڪٿي ڪرڻ لاءِ، خاص ٽوڪن سان جڙيل آهي جيڪي ڪم انجام ڏيڻ لاءِ منفرد ماڊل کي هدايت ڪن ٿا جهڙوڪ ٻولي جي سڃاڻپ، جملي جي سطح جي ٽائم اسٽيمپ، گهڻ لساني تقرير ٽرانسپشن، ۽ انگريزي ۾ تقرير جو ترجمو.

جيتري وڏي سائيز، اوترو ئي وڌيڪ سڃاڻپ جي درستگي ۽ معيار، پر GPU وڊيو ميموري جي سائيز لاءِ به اوترو ئي اعليٰ گهرجن ۽ ڪارڪردگي گهٽ. مثال طور، گھٽ ۾ گھٽ اختيار ۾ 39 ملين پيٽرولر شامل آهن ۽ 1 GB وڊيو ميموري جي ضرورت آهي، جڏهن ته وڌ ۾ وڌ اختيار ۾ 1550 بلين پيٽرولر شامل آهن ۽ 10 GB وڊيو ميموري جي ضرورت آهي. گھٽ ۾ گھٽ مختلف قسم جي وڌ ۾ وڌ کان 32 ڀيرا تيز آھي.

سسٽم استعمال ڪري ٿو "ٽرانسفارمر" نيورل نيٽورڪ فن تعمير، جنهن ۾ هڪ انڪوڊر ۽ هڪ ڊيڪوڊر شامل آهن جيڪي هڪ ٻئي سان رابطو ڪن ٿا. آڊيو 30 سيڪنڊن جي حصن ۾ ورهايل آهي، جيڪي هڪ لاگ ميل اسپيڪٽرگرام ۾ تبديل ڪيا ويا آهن ۽ انڪوڊر ڏانهن موڪليا ويا آهن.

انڪوڊر جي ڪم جو نتيجو ڊيڪوڊر ڏانهن موڪليو ويو آهي، جيڪو خاص ٽوڪن سان مليل متن جي نمائندگي جي اڳڪٿي ڪري ٿو جيڪي ڪمن کي حل ڪرڻ جي اجازت ڏين ٿا جهڙوڪ ٻوليءَ جي ڳولا، جملي جي تلفظ ڪرنالوجي اڪائونٽنگ، مختلف ٻولين ۾ تقرير ٽرانسپشن ۽ عام نموني ۾ انگريزي ترجمو.

اها ڳالهه قابل ذڪر آهي ته ويسپر جي ڪارڪردگي ٻولي جي لحاظ کان تمام گهڻو مختلف آهي، تنهنڪري هڪ جيڪو بهتر سمجهي ٿو اهو انگريزي آهي، جنهن جا چار نسخا صرف انگريزيء ۾ آهن، جيڪي ٻين ٻولين جي ٻين ماڊل وانگر، فائدا ۽ نقصان پيش ڪن ٿا. رفتار ۽ درستگي.

فائنل جيڪڏھن توھان وڌيڪ inاڻڻ چاھيو ٿا ان بابت توھان چيڪ ڪري سگھو ٿا اصل اشاعت ۾ هي ڪڙي، جڏهن ته جيڪڏهن توهان سورس ڪوڊ ۽ تربيت يافته ماڊل ۾ دلچسپي رکو ٿا ته توهان انهن تي صلاح ڪري سگهو ٿا هي ڪڙي

ريفرنس تي عملدرآمد ڪوڊ PyTorch فريم ورڪ تي ٻڌل آهي ۽ اڳ ۾ ئي تربيت يافته ماڊلز جو هڪ سيٽ کليل آهي، استعمال لاءِ تيار آهي. ڪوڊ MIT لائسنس جي تحت کليل ذريعو آهي ۽ اهو قابل ذڪر آهي ته ffmpeg لائبريري جي استعمال جي ضرورت آهي.


مضمون جو مواد اسان جي اصولن تي عمل ڪري ٿو ايڊيٽوريل اخلاقيات. غلطي ڪلڪ ڪرڻ جي رپورٽ لاءِ هتي.

تبصرو ڪرڻ جو پهريون

پنهنجي راءِ ڏيو

پنهنجي اي ميل ايڊريس شايع نه ڪيو ويندو.

*

*

  1. ڊيٽا جو ذميوار: Miguel Ángel Gatón
  2. ڊيٽا جو مقصد: ڪنٽرول سپيم ، تبصرو جي انتظام.
  3. سازش: توهان جي رضامندي
  4. ڊيٽا جي ابلاغ: ڊيٽا کي قانوني ذميواري کانسواءِ ٽئين پارٽين تائين رسائي نه ڏني ويندي.
  5. ڊيٽا اسٽوريج: ڊيٽابيس اويسينٽس نيٽورڪ (اي يو) پاران ميزباني ڪيل
  6. حق: ڪنهن به وقت توهان پنهنجي معلومات کي محدود ، ٻيهر ۽ ختم ڪري سگهو ٿا.