DeepSpeech: محرك التعرف على الكلام من Mozilla

الكلام العميق1

لا تعمل Mozilla حاليًا فقط في متصفح الويب الشهير ، ولكن لديها أيضًا مجموعة متنوعة من المشاريع تحت مظلتها ، منها اليوم سوف نتحدث عن DeepSpeech. هذا هو محرك التعرف على الكلام التي تنفذ بنية التعرف على الكلام التي اقترحها باحثو بايدو.

DeepSpeech تبرز لتقديم نماذج مختلفة مدربة، عينة من الملفات الصوتية وأدوات التعرف على سطر الأوامر ، لدمج وظيفة التعرف على الكلام في برامجك. لذلك يتم توفير وحدات جاهزة لكل من Python و NodeJS و C ++ و .NET، على الرغم من أن المطورين الخارجيين أعدوا أيضًا وحدات منفصلة لـ Rust and Go.

يتم تسليم النموذج النهائي للغة الإنجليزية فقط ، ولكن بالنسبة للغات الأخرى وفقًا للإرشادات المرفقة ، يمكن تدريب النظام باستخدام البيانات الصوتية التي تم جمعها بواسطة مشروع الصوت المشترك.

حول DeepSpeech

DeepSpeech أبسط بكثير من الأنظمة التقليدية وفي نفس الوقت يوفر جودة أعلى في التعرف في وجود ضوضاء غريبة.

التطور لا تستخدم النماذج الصوتية التقليدية ومفهوم الصوتيات؛ في حين أن، استخدام نظام التعلم الآلي شبكة عصبية مُحسَّنة جيدًا ، مما يلغي الحاجة إلى تطوير مكونات منفصلة لنمذجة الانحرافات المختلفة مثل الضوضاء وصدى الصوت وخصائص الكلام.

الجانب الآخر من هذا النهج هو الحصول على اعتراف عالي الجودة وتدريب للشبكة العصبية ، المحرك يتطلب DeepSpeech كمية كبيرة من البيانات غير متجانسة تمليها في ظروف حقيقية أصوات مختلفة ووجود ضوضاء طبيعية.

يعد مشروع Common Voice الذي تم إنشاؤه في Mozilla مسؤولاً عن جمع مثل هذه البيانات ، وتوفير مجموعة بيانات مثبتة مع 780 ساعة باللغة الإنجليزية ، و 325 باللغة الألمانية ، و 173 باللغة الفرنسية ، و 27 ساعة باللغة الروسية.

الهدف النهائي من مشروع الصوت المشترك هو تراكم 10 آلاف ساعة مع تسجيلات النطق المختلفة العبارات النموذجية للكلام البشري ، والتي ستصل إلى مستوى مقبول من أخطاء التعرف. في النموذج الحالي ، درس المشاركون في المشروع ما مجموعه 4.3 ألف ساعة ، اجتاز 3.5 ألف منها الاختبار.

في تدريس النموذج الإنجليزي النهائي لـ DeepSpeech ، تم استخدام 3816 ساعة من الكلام ، باستثناء الصوت المشترك الذي يغطي البيانات من مشاريع LibriSpeech و Fisher و Switchboard ، بالإضافة إلى تضمين حوالي 1700 ساعة من تسجيلات البرامج الإذاعية المكتوبة.

عند استخدام النموذج الإنجليزي الجاهز للتنزيل ، مستوى خطأ التعرف في DeepSpeech هو 7,5٪ عند تقييمها باستخدام مجموعة اختبار LibriSpeech. على سبيل المقارنة ، يقدر مستوى الأخطاء في التعرف البشري بـ 5.83٪.

يتكون DeepSpeech من نظامين فرعيين: نموذج صوتي ووحدة فك ترميز. يستخدم النموذج الصوتي أساليب التعلم الآلي العميقة لحساب احتمالية وجود أحرف معينة في صوت الإدخال. يستخدم مفكك التشفير خوارزمية بحث شعاعي لتحويل بيانات احتمالية الحرف إلى تمثيل نصي.

حول الإصدار الجديد من DeepSpeech

DeepSpeech موجود حاليًا في نسخته 0.6 حيث يتم تمييز التغييرات التالية:

  • يُقترح مفكك تشفير إرسال جديد يوفر استجابة أكبر ولا يعتمد على حجم البيانات الصوتية المعالجة.
  • تم إجراء تغييرات على API وتم العمل على توحيد أسماء الوظائف. تمت إضافة وظائف للحصول على بيانات وصفية إضافية حول التوقيت ، مما يسمح ليس فقط بتلقي تمثيل نصي في الإخراج ، ولكن أيضًا لتتبع ربط الأحرف الفردية والجمل إلى موضع في دفق الصوت.
  • تمت إضافة دعم استخدام مكتبة CuDNN لتحسين العمل مع الشبكات العصبية المتكررة (RNN) إلى مجموعة أدوات وحدات التدريب.
  • تم رفع الحد الأدنى لمتطلبات إصدار TensorFlow من 1.13.1 إلى 1.14.0.
  • دعم إضافي لـ TensorFlow Lite Light Edition ، مما يقلل حجم حزمة DeepSpeech من 98 ميجابايت إلى 3.7 ميجابايت.
  • تم نقل نموذج اللغة إلى تنسيق آخر لهيكل البيانات ، مما يسمح بتخصيص الملفات للذاكرة في وقت التمهيد.
  • تم إيقاف دعم التنسيق الأقدم.

تمت كتابة التطبيق بلغة Python باستخدام منصة التعلم الآلي TensorFlow ويتم توزيعه بموجب ترخيص MPL 2.0 المجاني. العمل وهو مدعوم على Linux و Android و macOS و Windows. هناك أداء كافٍ لاستخدام المحرك على لوحات LePotato و Raspberry Pi 3 و Raspberry Pi 4.


اترك تعليقك

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها ب *

*

*

  1. المسؤول عن البيانات: ميغيل أنخيل جاتون
  2. الغرض من البيانات: التحكم في الرسائل الاقتحامية ، وإدارة التعليقات.
  3. الشرعية: موافقتك
  4. توصيل البيانات: لن يتم إرسال البيانات إلى أطراف ثالثة إلا بموجب التزام قانوني.
  5. تخزين البيانات: قاعدة البيانات التي تستضيفها شركة Occentus Networks (الاتحاد الأوروبي)
  6. الحقوق: يمكنك في أي وقت تقييد معلوماتك واستعادتها وحذفها.