أصدرت Google الإصدار 2 من Lyra ، وهو برنامج ترميز مفتوح المصدر ذي معدل بت منخفض

Lyra برنامج ترميز الصوت من Google

أصدرت Google الإصدار الثاني من Lyra ، وهو برنامج ترميز عالي الجودة ومنخفض معدل البت يجعل الاتصال الصوتي متاحًا حتى على أبطأ الشبكات.

مؤخرا تم كشف النقاب عن Google عبر مشاركة مدونة، مع إطلاق الإصدار الثاني من برنامج ترميز الصوت «Lyra-V2» ، التي تستخدم تقنيات التعلم الآلي لتحقيق أعلى جودة صوت عند استخدام قنوات اتصال بطيئة للغاية.

النسخة الجديدة يقدم انتقالًا إلى بنية شبكة عصبية جديدة ، دعم الأنظمة الأساسية الإضافية ، وتحسين التحكم في معدل البت ، وتحسين الأداء ، وجودة صوت أعلى.

نطلق الآن Lyra V2 ، بهيكل جديد يتمتع بدعم أوسع للنظام الأساسي ، ويوفر إمكانات قابلة للتطوير لمعدل البت ، وأداء أفضل ، وصوتًا بجودة أعلى. مع هذا الإصدار ، نتطلع إلى مواصلة التطور مع المجتمع ، ومن خلال إبداعك الجماعي ، نرى تطبيقات جديدة قيد التطوير وظهور اتجاهات جديدة.

حول ليرا

فيما يتعلق بجودة البيانات الصوتية المنقولة بسرعة منخفضة ، تتفوق Lyra بشكل كبير على برامج الترميز التقليدية التي تستخدم طرق معالجة الإشارات الرقمية. من أجل تحقيق إرسال صوتي عالي الجودة في ظل ظروف كمية محدودة من المعلومات المرسلة ، بالإضافة إلى طرق ضغط الصوت المعتادة وتحويل الإشارة ، يستخدم Lyra نموذجًا صوتيًا يعتمد على نظام التعلم الآلي مما يسمح لك بإعادة إنشاء المعلومات المفقودة. بناءً على خصائص الكلام النموذجية.

يشتمل برنامج الترميز على وحدة تشفير ووحدة فك ترميز. خوارزمية التشفير يستخرج معلمات البيانات الصوتية كل 20 مللي ثانية ، ويضغطها وينقلها إلى المستلم عبر الشبكة بمعدل بت من 3,2 كيلوبت في الثانية إلى 9,2 كيلوبت في الثانية.

على جانب المستقبل ، يستخدم مفكك الشفرة نموذجًا توليديًا لإعادة إنشاء إشارة الكلام الأصلية بناءً على معلمات الصوت المرسلة ، بما في ذلك الطيف اللوغاريتمي للطباشير الذي يأخذ في الاعتبار خصائص الطاقة للكلام في نطاقات التردد المختلفة. ويتم إعداده مع وضع الإدراك السمعي البشري في الاعتبار .

ما الجديد في Lyra V2؟

يستخدم Lyra V2 نموذجًا توليديًا جديدًا يعتمد على شبكة SoundStream العصبية، والتي لها متطلبات حسابية منخفضة ، مما يسمح بفك التشفير في الوقت الفعلي حتى في الأنظمة منخفضة الطاقة.

تم تدريب النموذج المستخدم لتوليد الصوت باستخدام عدة آلاف من الساعات من التسجيلات الصوتية بأكثر من 90 لغة (يتم استخدام TensorFlow Lite لتشغيل النموذج). أداء التنفيذ المقترح كافٍ لتشفير وفك تشفير الصوت على الهواتف الذكية بأقل نطاق سعري.

بالإضافة إلى استخدام نموذج توليدي مختلف ، يبرز الإصدار الجديد أيضًا لإدراج روابط مع محدد الكمية RVQ (متجه متجه متبقي) في بنية الترميز ، والتي يتم إجراؤها على جانب المرسل قبل إرسال البيانات ، وعلى جانب المستقبل بعد استقبال البيانات.

يقوم المُكَمِم بتحويل المعلمات التي يوفرها برنامج الترميز إلى مجموعات من الحزم ، مما يؤدي إلى ترميز المعلومات المتعلقة بمعدل البتات المحدد. لضمان مستويات جودة مختلفة ، يتم توفير أجهزة الكميات لثلاثة معدلات بت (3,2 كيلو بت في الثانية ، 6 كيلو بت في الثانية ، 9,2 كيلو بت في الثانية) ، كلما زاد معدل البت ، كانت الجودة أفضل ، ولكن كلما زادت متطلبات النطاق الترددي.

العمارة الجديدة قلل تأخير إرسال الإشارات من 100 مللي ثانية إلى 20 مللي ثانية. للمقارنة ، أظهر برنامج الترميز Opus لـ WebRTC تأخيرات قدرها 26,5 مللي ثانية ، و 46,5 مللي ثانية ، و 66,5 مللي ثانية بمعدلات البت التي تم اختبارها. كما زاد أداء جهاز التشفير وفك التشفير بشكل كبير: مقارنة بالإصدار السابق ، يوجد تسارع يصل إلى 5 أضعاف. على سبيل المثال ، على الهاتف الذكي Pixel 6 Pro ، يقوم برنامج الترميز الجديد بترميز عينة 20 مللي ثانية وفك تشفيرها في 0,57 مللي ثانية ، وهو أسرع 35 مرة من المطلوب للبث في الوقت الفعلي.

بالإضافة إلى الأداء ، تمكنا أيضًا من تحسين جودة استعادة الصوت: وفقًا لمقياس MUSHRA ، تتوافق جودة الكلام بمعدلات بت 3,2 كيلوبت في الثانية و 6 كيلوبت في الثانية و 9,2 كيلوبت في الثانية عند استخدام برنامج ترميز Lyra V2 مع معدلات بت تبلغ 10 كيلوبت في الثانية ، 13 كيلوبت في الثانية و 14 كيلوبت في الثانية عند استخدام برنامج الترميز Opus.

أخيرا إذا كنت مهتمًا بمعرفة المزيد عنها، يمكنك التحقق من التفاصيل في الرابط التالي.


كن أول من يعلق

اترك تعليقك

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها ب *

*

*

  1. المسؤول عن البيانات: ميغيل أنخيل جاتون
  2. الغرض من البيانات: التحكم في الرسائل الاقتحامية ، وإدارة التعليقات.
  3. الشرعية: موافقتك
  4. توصيل البيانات: لن يتم إرسال البيانات إلى أطراف ثالثة إلا بموجب التزام قانوني.
  5. تخزين البيانات: قاعدة البيانات التي تستضيفها شركة Occentus Networks (الاتحاد الأوروبي)
  6. الحقوق: يمكنك في أي وقت تقييد معلوماتك واستعادتها وحذفها.