آنها کد منبع Whisper، یک سیستم تشخیص خودکار گفتار را منتشر کردند

نجوا

Whisper یک سیستم تشخیص گفتار خودکار است

پروژه اخیرا OpenAIکه پروژه های عمومی در زمینه هوش مصنوعی را توسعه می دهد، اخباری را منتشر کرده است مربوط به سیستم تشخیص صدا نجوا، که یک است سیستم تشخیص خودکار گفتار (ASR) بر روی 680.000 ساعت داده های نظارت شده چندزبانه و چند وظیفه ای جمع آوری شده از وب آموزش دیده است.

ادعا می شود که برای گفتار انگلیسی، سیستم سطوحی از قابلیت اطمینان و دقت تشخیص خودکار نزدیک به تشخیص انسان را ارائه می دهد.

ما نشان می‌دهیم که استفاده از چنین مجموعه داده‌ای بزرگ و متنوع منجر به استحکام بیشتر لهجه‌ها، نویز پس‌زمینه و زبان فنی می‌شود. علاوه بر این، امکان رونویسی به زبان های مختلف و همچنین ترجمه آن زبان ها به انگلیسی را فراهم می کند. ما مدل های منبع باز و کد استنتاجی هستیم که به عنوان پایه ای برای ساخت برنامه های کاربردی مفید و برای تحقیقات آینده در مورد پردازش گفتار قوی عمل می کند.

در مورد مدل (همانطور که قبلا ذکر شد) با استفاده از 680 ساعت آموزش دیده است داده های صوتی جمع آوری شده از مجموعه های مختلف که زبان ها و حوزه های موضوعی مختلف را پوشش می دهند. حدود 1/3 از داده های صوتی درگیر در آموزش به زبان هایی غیر از انگلیسی است.

سیستم پیشنهادی موقعیت هایی مانند تلفظ تاکیدی را به درستی مدیریت می کند، وجود نویز پس زمینه و استفاده از اصطلاحات فنی. این سیستم علاوه بر رونویسی گفتار به متن، می‌تواند گفتار را از یک زبان دلخواه به انگلیسی ترجمه کند و ظاهر گفتار را در جریان صوتی تشخیص دهد.

مدل ها در دو نمایش آموزش می بینند: یک مدل برای زبان انگلیسی و یک مدل چند زبانه که از زبان های اسپانیایی، روسی، ایتالیایی، آلمانی، ژاپنی، اوکراینی، بلاروسی، چینی و سایر زبان ها پشتیبانی می کند. به نوبه خود، هر نما به 5 گزینه تقسیم می شود که از نظر اندازه و تعداد پارامترهای پوشش داده شده در مدل متفاوت است.

معماری Whisper یک رویکرد انتها به انتها ساده است که به عنوان یک ترانسفورماتور رمزگذار - رمزگشا پیاده سازی شده است. صدای ورودی به تکه‌های 30 ثانیه‌ای تقسیم می‌شود، به یک طیف‌نگار log-Mel تبدیل می‌شود و سپس به یک رمزگذار ارسال می‌شود. یک رمزگشا برای پیش‌بینی زیرنویس متن مربوطه آموزش داده شده است، که با نشانه‌های خاصی آمیخته شده است که مدل منحصربه‌فرد را برای انجام وظایفی مانند شناسایی زبان، مهرهای زمانی در سطح جمله، رونویسی گفتار چند زبانه و ترجمه گفتار به انگلیسی هدایت می‌کند.

هرچه اندازه بزرگتر باشد، دقت و کیفیت تشخیص بالاتر است، اما همچنین الزامات مورد نیاز برای اندازه حافظه ویدئویی GPU و عملکرد پایین تر است. به عنوان مثال، گزینه حداقل شامل 39 میلیون پارامتر است و به 1 گیگابایت حافظه ویدیویی نیاز دارد، در حالی که گزینه حداکثر شامل 1550 میلیارد پارامتر و به 10 گیگابایت حافظه ویدیویی نیاز دارد. حداقل نوع 32 برابر سریعتر از حداکثر است.

این سیستم از معماری شبکه عصبی “Transformer” استفاده می کند. که شامل یک رمزگذار و یک رمزگشا است که با یکدیگر تعامل دارند. صدا به تکه‌های 30 ثانیه‌ای تقسیم می‌شود که به یک طیف‌نگار log-Mel تبدیل شده و به رمزگذار ارسال می‌شود.

نتیجه کار انکودر به رسیور ارسال می شود، که یک نمایش متن مخلوط با نشانه‌های ویژه را پیش‌بینی می‌کند که به حل وظایفی مانند تشخیص زبان، محاسبه گاه‌شماری تلفظ جمله، رونویسی گفتار در زبان‌های مختلف و ترجمه انگلیسی در یک مدل کلی اجازه می‌دهد.

شایان ذکر است که عملکرد Whisper بسته به زبان بسیار متفاوت است، بنابراین زبانی که درک بهتری ارائه می دهد انگلیسی است که دارای چهار نسخه فقط به زبان انگلیسی است که مانند سایر مدل های زبان های دیگر مزایا و معایب را ارائه می دهد. سرعت و دقت

سرانجام اگر شما علاقه مند به دانستن بیشتر در مورد آن هستید ، می توانید نشریه اصلی را بررسی کنید این لینک، در حالی که اگر به کد منبع و مدل های آموزش دیده علاقه مند هستید می توانید با آنها در این آدرس مشورت کنید این لینک

کد پیاده‌سازی مرجع بر اساس چارچوب PyTorch و مجموعه‌ای از مدل‌های آموزش دیده باز هستند و آماده استفاده هستند. این کد تحت مجوز MIT منبع باز است و لازم به ذکر است که استفاده از کتابخانه ffmpeg الزامی است.


محتوای مقاله به اصول ما پیوست اخلاق تحریریه. برای گزارش یک خطا کلیک کنید اینجا.

اولین کسی باشید که نظر

نظر خود را بگذارید

نشانی ایمیل شما منتشر نخواهد شد.

*

*

  1. مسئول داده ها: میگل آنخل گاتون
  2. هدف از داده ها: کنترل هرزنامه ، مدیریت نظرات.
  3. مشروعیت: رضایت شما
  4. ارتباط داده ها: داده ها به اشخاص ثالث منتقل نمی شوند مگر با تعهد قانونی.
  5. ذخیره سازی داده ها: پایگاه داده به میزبانی شبکه های Occentus (EU)
  6. حقوق: در هر زمان می توانید اطلاعات خود را محدود ، بازیابی و حذف کنید.