تقدم Mozilla محرك DeepSpeech 0.9 للتعرف على الكلام

DeepSpeech1

تم نشر الإطلاق محرك التعرف على الصوت DeepSpeech 0.9 من تطوير Mozilla، والتي تنفذ بنية التعرف على الكلام من نفس الاسم اقترحه باحثو بايدو.

التطبيق مكتوب بلغة بايثون باستخدام منصة التعلم الآلي TensorFlow ويتم توزيعها بموجب ترخيص MPL 2.0 المجاني.

حول DeepSpeech

يتكون DeepSpeech من نظامين فرعيين: نموذج صوتي وجهاز فك التشفير. يستخدم النموذج الصوتي تقنيات التعلم الآلي العميقة لحساب احتمالية وجود بعض الأحرف في صوت الإدخال.

يستخدم مفكك التشفير خوارزمية بحث شعاعي لتحويل بيانات احتمالية الحرف إلى تمثيل نصي. DeepSpeech أبسط بكثير من الأنظمة التقليدية وفي نفس الوقت يوفر جودة أعلى في التعرف في وجود ضوضاء غريبة.

لا يستخدم التطوير النماذج الصوتية التقليدية ومفهوم الصوتيات ؛ بدلاً من ذلك ، يتم استخدام نظام التعلم الآلي المعتمد على الشبكة العصبية المحسّن جيدًا ، مما يلغي الحاجة إلى تطوير مكونات منفصلة لنمذجة العديد من الانحرافات مثل الضوضاء وصدى الصوت وخصائص الكلام.

الكيت تقدم نماذج مدربة وعينات من ملفات الصوت وأدوات التعرف على سطر الأوامر.

يتم توفير النموذج النهائي باللغتين الإنجليزية والصينية فقط. بالنسبة للغات الأخرى ، يمكنك تعلم النظام بنفسك وفقًا للإرشادات المرفقة ، باستخدام البيانات الصوتية التي تم جمعها بواسطة مشروع الصوت المشترك.

عندما يتم استخدام نموذج اللغة الإنجليزية الجاهز للاستخدام المعروض للتنزيل ، مستوى أخطاء التعرف في DeepSpeech هو 7.06٪ عند تقييمه باستخدام مجموعة اختبار LibriSpeech.

للمقارنة ، يقدر معدل خطأ التعرف البشري بـ 5,83٪.

في النموذج المقترح ، يتم تحقيق أفضل نتيجة تمييز من خلال التسجيل النظيف لصوت ذكر بلكنة أمريكية في بيئة خالية من الضوضاء الخارجية.

وفقًا لمؤلف مكتبة Vosk للتعرف المستمر على الكلام ، فإن عيوب مجموعة الصوت المشترك هي أحادية الجانب لمواد الكلام (غلبة الرجال في العشرينات والثلاثينيات من العمر ونقص المواد بصوت النساء والأطفال والأشخاص) كبار السن) ، وعدم وجود تنوع في المفردات (تكرار نفس العبارات) وتوزيع تسجيلات MP20 عرضة للتشويه.

تشمل عيوب برنامج DeepSpeech ضعف الأداء والاستهلاك العالي للذاكرة في وحدة فك التشفير ، بالإضافة إلى الموارد المهمة لتدريب النموذج (تستخدم Mozilla نظامًا به 8 وحدات معالجة رسومات Quadro RTX 6000 مع ذاكرة فيديو عشوائية سعة 24 جيجابايت في كل واحدة).

الجانب السلبي لهذا النهج هو أن من أجل التعرف عالي الجودة وتدريب الشبكة العصبية، محرك DeepSpeech يتطلب كمية كبيرة من البيانات غير متجانسة تمليها في ظروف حقيقية أصوات مختلفة وفي ظل وجود ضوضاء طبيعية.

يتم تجميع هذه البيانات بواسطة مشروع Common Voice الذي تم إنشاؤه في Mozilla ، والذي يوفر مجموعة بيانات تم التحقق منها مع 1469 ساعة باللغة الإنجليزية و 692 باللغة الألمانية و 554 باللغة الفرنسية و 105 ساعة باللغة الروسية و 22 ساعة باللغة الأوكرانية.

عند تدريب النموذج الإنجليزي النهائي لـ DeepSpeech ، بالإضافة إلى Common Voice ، يتم استخدام البيانات من مشاريع LibriSpeech و Fisher و Switchboard بالإضافة إلى ما يقرب من 1700 ساعة من تسجيلات البرامج الإذاعية المنسوخة.

بين التغييرات في الفرع الجديد ، يتم تسليط الضوء على إمكانية فرض ثقل الكلمات المختارة أثناء عملية فك التشفير.

يسلط الضوء أيضًا على دعم النظام الأساسي Electron 9.2 والتنفيذ الاختياري لآلية تسوية الطبقة (Layer Norms) عند تدريب الشبكة العصبية.

تنزيل والحصول على

الأداء كافٍ لاستخدام المحرك في لوحات LePotato و Raspberry Pi 3 و Raspberry Pi 4 ، وكذلك في هواتف Google Pixel 2 و Sony Xperia Z Premium و Nokia 1.3 الذكية.

يتم تقديم وحدات جاهزة لاستخدامها مع Python و NodeJS و C ++ و .NET لدمج وظائف التعرف على الكلام في برامجك (قام مطورو الطرف الثالث بإعداد وحدات منفصلة لـ Rust و Go و V).


محتوى المقال يلتزم بمبادئنا أخلاقيات التحرير. للإبلاغ عن خطأ انقر فوق هنا.

كن أول من يعلق

اترك تعليقك

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها ب *

*

*

  1. المسؤول عن البيانات: ميغيل أنخيل جاتون
  2. الغرض من البيانات: التحكم في الرسائل الاقتحامية ، وإدارة التعليقات.
  3. الشرعية: موافقتك
  4. توصيل البيانات: لن يتم إرسال البيانات إلى أطراف ثالثة إلا بموجب التزام قانوني.
  5. تخزين البيانات: قاعدة البيانات التي تستضيفها شركة Occentus Networks (الاتحاد الأوروبي)
  6. الحقوق: يمكنك في أي وقت تقييد معلوماتك واستعادتها وحذفها.