دوی د ویسپر سرچینې کوډ خپور کړ، د اتوماتیک وینا پیژندنې سیسټم

د وسوسو

ویسپر د وینا د پیژندنې اتوماتیک سیسټم دی

په دې وروستیو کې پروژه OpenAI، کوم چې د مصنوعي استخباراتو په برخه کې عامه پروژې رامینځته کوي ، خبر خپور کړ د غږ پیژندنې سیسټم پورې اړه لري چغې وهل کوم چې a د اتوماتیک وینا پیژندنې سیسټم (ASR) په 680.000 ساعتونو کې روزل شوي څو ژبني، څو دندې څارل شوي معلومات چې له ویب څخه راټول شوي.

دا ادعا کیږي چې د انګلیسي وینا لپاره، سیسټم د انسان پیژندنې ته نږدې د اتوماتیک پیژندنې اعتبار او دقت چمتو کوي.

موږ ښیو چې د دومره لوی او متنوع ډیټاسیټ کارول د تلفظونو ، شالید شور ، او تخنیکي ژبې ته د خورا قوي کیدو لامل کیږي. برسېره پردې، دا په مختلفو ژبو کې لیږد ته اجازه ورکوي، او همدارنګه د دې ژبو ژباړې انګلیسي ته. موږ د خلاصې سرچینې ماډلونه او انفرنس کوډ یو چې د ګټورو غوښتنلیکونو جوړولو او د قوي وینا پروسس کولو په اړه راتلونکي څیړنې لپاره د بنسټ په توګه کار کوي.

د ماډل په اړه (لکه څنګه چې مخکې یادونه وشوه) د 680 ساعتونو په کارولو سره روزل شوي د غږ معلوماتو ډیټا چې د مختلفو مجموعو څخه راټول شوي د مختلفو ژبو او موضوع ساحې پوښي. په روزنه کې د غږ ډیټا شاوخوا 1/3 برخه د انګلیسي پرته په نورو ژبو کې ده.

وړاندیز شوی سیسټم په سمه توګه حالتونه اداره کوي لکه تلفظ شوي تلفظ، د شاليد شور شتون او د تخنيکي جرګون کارول. په متن کې د وینا د لیږدولو سربیره، سیسټم کولی شي وینا د خپل سري ژبې څخه انګلیسي ته وژباړي او په آډیو جریان کې د وینا بڼه معلومه کړي.

ماډلونه په دوه نمایندګیو کې روزل کیږي: د انګلیسي ژبې ماډل او څو ژبني ماډل چې هسپانوي، روسی، ایټالوی، الماني، جاپاني، اوکرایني، بیلاروسی، چینایي او نورو ژبو ملاتړ کوي. په بدل کې، هر لید په 5 اختیارونو ویشل شوی، کوم چې په ماډل کې پوښل شوي پیرامیټونو اندازه او شمیر سره توپیر لري.

د ویسپر جوړښت یو ساده له پای څخه تر پایه طریقه ده، چې د کوډر-کوډر ټرانسفارمر په توګه پلي کیږي. د ان پټ آډیو په 30-ثانوي ټوټو ویشل شوی، په log-Mel سپیکٹروګرام کې بدل شوی، او بیا یو کوډر ته لیږدول کیږي. یو ډیکوډر روزل شوی ترڅو د اړوند متن فرعي سرلیک وړاندوینه وکړي، د ځانګړو توکیو سره یوځای شوي چې ځانګړي ماډل ته لارښوونه کوي چې دندې ترسره کړي لکه د ژبې پیژندنه، د جملې کچې مهال ویش، څو ژبني وینا لیږد، او د انګلیسي وینا ژباړه.

څومره چې اندازه لوی وي، د پیژندنې دقت او کیفیت لوړ وي، مګر د GPU ویډیو حافظې اندازې لپاره اړتیاوې هم لوړې دي او فعالیت ټیټ دی. د مثال په توګه ، لږترلږه اختیار کې 39 ملیون پیرامیټرې شاملې دي او د 1 GB ویډیو حافظې ته اړتیا لري ، پداسې حال کې چې اعظمي اختیار کې 1550 ملیارد پیرامیټرې شاملې دي او د 10 GB ویډیو حافظې ته اړتیا لري. لږترلږه ډول د اعظمي څخه 32 ځله ګړندی دی.

سیسټم د "ټرانسفارمر" عصبي شبکې جوړښت کاروي، په کوم کې چې کوډ کوونکی او یو کوډر شامل دي چې یو له بل سره اړیکه لري. آډیو په 30-ثانوي ټوټو ویشل شوې، کوم چې د log-Mel سپیکٹروگرام ته بدلیږي او کوډ کونکي ته لیږل کیږي.

د کوډ ورکونکي کار پایله ډیکوډر ته لیږل کیږي، کوم چې د ځانګړي توکیو سره مخلوط شوي متن نمایندګي وړاندوینه کوي چې د دندو حل کولو ته اجازه ورکوي لکه د ژبې کشف ، د جملې تلفظ کرونولوژي محاسبه ، په مختلف ژبو کې د وینا لیږد او په عمومي ماډل کې انګلیسي ژباړه.

د یادولو وړ ده چې د ویسپر فعالیت د ژبې پورې اړه لري خورا توپیر لري ، نو هغه څوک چې ښه پوهه وړاندې کوي انګلیسي ده ، چې یوازې په انګلیسي کې څلور نسخې لري ، کوم چې د نورو ژبو د نورو ماډلونو په څیر ، ګټې او زیانونه وړاندې کوي. سرعت او دقت.

وروستی که تاسو د دې په اړه د نورو پوهیدو سره علاقه لرئ ، تاسو کولی شئ اصلي خپرونه په کې چیک کړئ دا لینک، پداسې حال کې چې تاسو د سرچینې کوډ او روزل شوي ماډلونو سره علاقه لرئ تاسو کولی شئ له دوی سره مشوره وکړئ دا لینک.

د PyTorch چوکاټ پراساس د حوالې پلي کولو کوډ او د دمخه روزل شوي ماډلونو سیټ خلاص دي ، کارولو ته چمتو دي. کوډ د MIT جواز لاندې خلاص سرچینه ده او د یادولو وړ ده چې د ffmpeg کتابتون کارول اړین دي.


د مقالې مینځپانګه زموږ د اصولو سره سمون لري ایډیټیک اخلاق. د غلطۍ راپور ورکولو لپاره کلیک وکړئ دلته.

لومړی د تبصره کولو لپاره وئ

خپله نظر پرېږدئ

ستاسو د بریښنا لیک پته به خپره نه شي.

*

*

  1. د معلوماتو لپاره مسؤل: میګیوانجل ګاتین
  2. د معلوماتو هدف: د سپیم کنټرول ، د نظر مدیریت.
  3. قانونیت: ستاسو رضایت
  4. د معلوماتو راټولول: معلومات به د قانوني مکلفیت پرته دریمې ډلې ته نه لیږدول کیږي.
  5. د معلوماتو ذخیره: ډیټابیس د Occentus شبکې (EU) لخوا کوربه شوی
  6. حقونه: په هر وخت کې تاسو کولی شئ خپل معلومات محدود ، له سره تنظیم او حذف کړئ.