أصدروا الكود المصدري لـ Whisper ، وهو نظام التعرف التلقائي على الكلام

همس

Whisper هو نظام التعرف التلقائي على الكلام

المشروع مؤخرا OpenAIالتي تطور المشاريع العامة في مجال الذكاء الاصطناعي ، نشرت الأخبار المتعلقة بنظام التعرف على الصوت همسة، وهو نظام التعرف التلقائي على الكلام (ASR) تم تدريبهم على 680.000 ساعة من البيانات متعددة اللغات والمهام المتعددة التي تم جمعها من الويب.

يُزعم أنه بالنسبة للكلام باللغة الإنجليزية ، يوفر النظام مستويات من موثوقية التعرف التلقائي والدقة بالقرب من التعرف البشري.

نوضح أن استخدام مثل هذه المجموعة الكبيرة والمتنوعة من البيانات يؤدي إلى مزيد من المتانة لللهجات والضوضاء الخلفية واللغة الفنية. بالإضافة إلى ذلك ، فإنه يسمح بالنسخ بلغات مختلفة ، وكذلك ترجمة تلك اللغات إلى الإنجليزية. نحن نماذج مفتوحة المصدر ورمز الاستدلال الذي يعمل كأساس لبناء تطبيقات مفيدة وللبحث المستقبلي حول المعالجة القوية للكلام.

حول النموذج (كما سبق ذكره) تم تدريبه باستخدام 680 ساعة من البيانات الصوتية التي تم جمعها من مجموعات مختلفة تغطي لغات مختلفة ومجالات موضوعية. حوالي ثلث البيانات الصوتية المستخدمة في التدريب بلغات أخرى غير الإنجليزية.

النظام المقترح يتعامل بشكل صحيح مع مواقف مثل النطق المحكم ، وجود ضوضاء في الخلفية واستخدام المصطلحات الفنية. بالإضافة إلى تحويل الكلام إلى نص ، يمكن للنظام أيضًا ترجمة الكلام من لغة عشوائية إلى اللغة الإنجليزية والكشف عن ظهور الكلام في دفق الصوت.

يتم تدريب النماذج في تمثيلين: نموذج للغة الإنجليزية ونموذج متعدد اللغات يدعم الإسبانية والروسية والإيطالية والألمانية واليابانية والأوكرانية والبيلاروسية والصينية ولغات أخرى. في المقابل ، يتم تقسيم كل عرض إلى 5 خيارات ، والتي تختلف في الحجم وعدد المعلمات التي يغطيها النموذج.

هندسة Whisper هي نهج بسيط من طرف إلى طرف ، يتم تنفيذه كمحول تشفير وفك تشفير. يتم تقسيم صوت الإدخال إلى أجزاء مدتها 30 ثانية ، وتحويلها إلى مخطط طيفي log-Mel ، ثم يتم تمريرها إلى جهاز تشفير. يتم تدريب وحدة فك التشفير على التنبؤ بالعنوان الفرعي النصي المقابل ، تتخللها رموز خاصة توجه النموذج الفريد لأداء مهام مثل تحديد اللغة والطوابع الزمنية على مستوى الجملة ونسخ الكلام متعدد اللغات وترجمة الكلام إلى اللغة الإنجليزية.

كلما زاد الحجم ، زادت دقة وجودة التعرف ، ولكن أيضًا زادت متطلبات حجم ذاكرة فيديو وحدة معالجة الرسومات وانخفاض الأداء. على سبيل المثال ، يتضمن الخيار الأدنى 39 مليون معلمة ويتطلب 1 جيجابايت من ذاكرة الفيديو ، بينما يتضمن الخيار الأقصى 1550 مليار معلمة ويتطلب 10 جيجابايت من ذاكرة الفيديو. المتغير الأدنى هو 32 مرة أسرع من الحد الأقصى.

يستخدم النظام بنية الشبكة العصبية "Transformer" ، الذي يتضمن برنامج تشفير وجهاز فك ترميز يتفاعلان مع بعضهما البعض. يتم تقسيم الصوت إلى أجزاء مدتها 30 ثانية ، والتي يتم تحويلها إلى مخطط طيفي log-Mel وإرسالها إلى المشفر.

يتم إرسال نتيجة عمل المشفر إلى وحدة فك التشفير، والذي يتنبأ بتمثيل نصي ممزوج برموز خاصة تسمح بحل المهام مثل اكتشاف اللغة ، ومحاسبة التسلسل الزمني لنطق الجملة ، ونسخ الكلام بلغات مختلفة ، والترجمة الإنجليزية في نموذج عام.

الجدير بالذكر أن أداء Whisper يختلف اختلافًا كبيرًا اعتمادًا على اللغة ، لذا فإن اللغة التي تقدم فهمًا أفضل هي اللغة الإنجليزية ، والتي تحتوي على أربعة إصدارات باللغة الإنجليزية فقط ، والتي تقدم ، مثل النماذج الأخرى للغات الأخرى ، مزايا وعيوب السرعة والدقة.

أخيرا إذا كنت مهتمًا بمعرفة المزيد عنها ، يمكنك التحقق من المنشور الأصلي في هذا الرابط، بينما إذا كنت مهتمًا بالشفرة المصدرية والنماذج المدربة يمكنك الرجوع إليها على هذا الرابط.

رمز التنفيذ المرجعي المستند إلى إطار عمل PyTorch ومجموعة من النماذج المدربة بالفعل مفتوحة وجاهزة للاستخدام. الكود مفتوح المصدر بموجب ترخيص معهد ماساتشوستس للتكنولوجيا والجدير بالذكر أن استخدام مكتبة ffmpeg مطلوب.


اترك تعليقك

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها ب *

*

*

  1. المسؤول عن البيانات: ميغيل أنخيل جاتون
  2. الغرض من البيانات: التحكم في الرسائل الاقتحامية ، وإدارة التعليقات.
  3. الشرعية: موافقتك
  4. توصيل البيانات: لن يتم إرسال البيانات إلى أطراف ثالثة إلا بموجب التزام قانوني.
  5. تخزين البيانات: قاعدة البيانات التي تستضيفها شركة Occentus Networks (الاتحاد الأوروبي)
  6. الحقوق: يمكنك في أي وقت تقييد معلوماتك واستعادتها وحذفها.