Google випустив V2 Lyra, кодека з відкритим кодом із низьким бітрейтом

Lyra, аудіокодек Google

Google випустив другу версію Lyra, високоякісного кодека з низьким бітрейтом, який робить голосовий зв’язок доступним навіть у найповільніших мережах.

Останнім часом Google представив у блозі, випускаючи другу версію вашого аудіокодека «Ліра-V2», який використовує методи машинного навчання для досягнення найвищої якості голосу при використанні дуже повільних каналів зв’язку.

Нова версія представляє перехід до нової архітектури нейронної мережі, підтримка додаткових платформ, покращене керування бітрейтом, підвищення продуктивності та вища якість звуку.

Зараз ми випускаємо Lyra V2 із новою архітектурою, яка має ширшу підтримку платформи, забезпечує масштабовані можливості бітрейту, кращу продуктивність і вищу якість звуку. Завдяки цьому випуску ми з нетерпінням чекаємо на продовження розвитку разом із спільнотою та завдяки вашій колективній творчості побачимо, як розробляються нові програми та з’являються нові напрямки.

Про Ліру

Щодо якості голосових даних, що передаються на низькій швидкості, Lyra значно перевершує традиційні кодеки які використовують цифрові методи обробки сигналів. Щоб досягти високоякісної передачі голосу в умовах обмеженого обсягу переданої інформації, крім звичайних методів стиснення звуку і перетворення сигналу, Lyra використовує голосову модель на основі системи машинного навчання що дозволяє відтворити відсутню інформацію. на основі типових мовленнєвих характеристик.

Кодек містить кодер і декодер. Алгоритм кодера витягує параметри голосових даних кожні 20 мілісекунд, стискає їх і передає одержувачу через мережу зі швидкістю передачі даних від 3,2 до 9,2 кбіт/с.

На стороні приймача декодер використовує генеративну модель для відтворення оригінального мовного сигналу на основі переданих аудіопараметрів, включаючи логарифмічні крейдяні спектрограми, які враховують енергетичні характеристики мови в різних частотних діапазонах і підготовлені з урахуванням людського слухового сприйняття. .

Що нового в Lyra V2?

Lyra V2 використовує нову генеративну модель на основі нейронної мережі SoundStream, який має низькі обчислювальні вимоги, що дозволяє декодувати в реальному часі навіть у системах з низьким енергоспоживанням.

Модель, яка використовується для створення звуку, була навчена з використанням кількох тисяч годин голосових записів більш ніж 90 мовами (Для запуску моделі використовується TensorFlow Lite). Продуктивність запропонованої реалізації достатня для кодування та декодування голосу на смартфонах найнижчого цінового діапазону.

На додаток до використання іншої генеративної моделі, нова версія також виділяється включенням посилань із квантором RVQ (Residual Vector Quantizer) в архітектурі кодека, який виконується на стороні відправника перед передачею даних і на стороні приймача після отримання даних.

Квантувальник перетворює параметри, надані кодеком, у набори пакетів, кодуючи інформацію відносно вибраної швидкості передачі даних. Щоб забезпечити різні рівні якості, передбачено квантувачі для трьох бітрейтів (3,2 Кбіт/с, 6 Кбіт/с і 9,2 Кбіт/с). Що вищий бітрейт, то краща якість, але тим вищі вимоги до пропускної здатності.

нова архітектура зменшив затримки передачі сигналу зі 100 мілісекунд до 20 мілісекунд. Для порівняння, кодек Opus для WebRTC показав затримки 26,5 мс, 46,5 мс і 66,5 мс при перевірених бітрейтах. Продуктивність кодера та декодера також значно зросла: У порівнянні з попередньою версією є прискорення до 5 разів. Наприклад, на смартфоні Pixel 6 Pro новий кодек кодує та декодує вибірку довжиною 20 мс за 0,57 мс, що в 35 разів швидше, ніж потрібно для потокової передачі в реальному часі.

Крім продуктивності вдалося також підвищити якість відновлення звуку: за шкалою MUSHRA якість мови на бітрейтах 3,2 кбіт/с, 6 кбіт/с і 9,2 кбіт/с при використанні кодека Lyra V2 відповідає бітрейтам 10 кбіт/с, 13 Кбіт/с і 14 Кбіт/с при використанні кодека Opus.

В кінці кінців якщо вам цікаво дізнатись більше про це, Ви можете перевірити деталі в за наступним посиланням.


Залиште свій коментар

Ваша електронна адреса не буде опублікований. Обов'язкові для заповнення поля позначені *

*

*

  1. Відповідальний за дані: Мігель Анхель Гатон
  2. Призначення даних: Контроль спаму, управління коментарями.
  3. Легітимація: Ваша згода
  4. Передача даних: Дані не передаватимуться третім особам, за винятком юридичних зобов’язань.
  5. Зберігання даних: База даних, розміщена в мережі Occentus Networks (ЄС)
  6. Права: Ви можете будь-коли обмежити, відновити та видалити свою інформацію.