Google vydal V2 Lyra, open source kodek s nízkou bitovou rychlostí

Lyra, zvukový kodek Google

Google vydal druhou verzi Lyry, svého vysoce kvalitního kodeku s nízkou bitovou rychlostí, který zpřístupňuje hlasovou komunikaci i v těch nejpomalejších sítích.

Nedávno Google odhalil prostřednictvím příspěvku na blogu, uvolňuje druhou verzi vašeho zvukového kodeku "Lyra-V2", která využívá techniky strojového učení k dosažení nejvyšší kvality hlasu při použití velmi pomalých komunikačních kanálů.

Nová verze představuje přechod na novou architekturu neuronové sítě, podpora dalších platforem, vylepšené řízení datového toku, vylepšení výkonu a vyšší kvalita zvuku.

Nyní vydáváme Lyra V2 s novou architekturou, která se těší širší podpoře platforem, poskytuje možnosti škálovatelného datového toku, lepší výkon a vyšší kvalitu zvuku. S touto verzí se těšíme na další vývoj s komunitou a s vaší kolektivní kreativitou uvidíme, jak se vyvíjejí nové aplikace a objevují se nové směry.

O Lyře

Pokud jde o kvalitu hlasových dat přenášených nízkou rychlostí, Lyra je výrazně lepší než tradiční kodeky které používají metody digitálního zpracování signálu. Aby bylo dosaženo vysoce kvalitního přenosu hlasu za podmínek omezeného množství přenášených informací, kromě obvyklých metod komprese zvuku a konverze signálu, Lyra používá hlasový model založený na systému strojového učení což vám umožní znovu vytvořit chybějící informace. na základě typických vlastností řeči.

Kodek obsahuje kodér a dekodér. Algoritmus kodéru každých 20 milisekund extrahuje parametry hlasových dat, zkomprimuje je a předá příjemci přes síť s přenosovou rychlostí 3,2 kbps až 9,2 kbps.

Na straně přijímače používá dekodér generativní model k obnovení původního řečového signálu na základě přenášených zvukových parametrů, včetně logaritmických křídových spektrogramů, které berou v úvahu energetické charakteristiky řeči v různých frekvenčních rozsazích a jsou připraveny s ohledem na lidské sluchové vnímání. .

Co je nového v Lyra V2?

Lyra V2 využívá nový generativní model založený na neuronové síti SoundStream, který má nízké výpočetní nároky a umožňuje dekódování v reálném čase i na systémech s nízkou spotřebou.

Model použitý ke generování zvuku byl trénován pomocí několika tisíc hodin hlasových nahrávek ve více než 90 jazycích (Ke spuštění modelu se používá TensorFlow Lite). Výkon navrhované implementace je dostatečný pro kódování a dekódování hlasu na chytrých telefonech nejnižší cenové kategorie.

Kromě použití jiného generativního modelu, nová verze také vyniká zahrnutím vazeb s kvantifikátorem RVQ (Residual Vector Quantizer) v architektuře kodeku, který se provádí na straně odesílatele před přenosem dat a na straně příjemce po příjmu dat.

Kvantizér převádí parametry poskytované kodekem na sady paketů, které kódují informace týkající se zvolené bitové rychlosti. Pro zajištění různých úrovní kvality jsou k dispozici kvantizery pro tři bitové rychlosti (3,2 kbps, 6 kbps a 9,2 kbps), čím vyšší bitrate, tím lepší kvalita, ale vyšší požadavky na šířku pásma pásma.

nová architektura má snížené zpoždění přenosu signálu ze 100 milisekund na 20 milisekund. Pro srovnání, kodek Opus pro WebRTC vykazoval zpoždění 26,5 ms, 46,5 ms a 66,5 ms při testovaných přenosových rychlostech. Výkon kodéru a dekodéru se také výrazně zvýšil: Oproti předchozí verzi dochází až k pětinásobnému zrychlení. Například na smartphonu Pixel 5 Pro nový kodek zakóduje a dekóduje vzorek 6 ms za 20 ms, což je 0,57krát rychleji, než je potřeba pro streamování v reálném čase.

Kromě výkonu se nám podařilo zlepšit i kvalitu obnovy zvuku: podle stupnice MUSHRA odpovídá kvalita řeči při přenosových rychlostech 3,2 kbps, 6 kbps a 9,2 kbps při použití kodeku Lyra V2 přenosovým rychlostem 10 kbps, 13 kbps a 14 kbps při použití kodeku Opus.

Konečně pokud máte zájem o tom vědět více, můžete zkontrolovat podrobnosti v následující odkaz.


Zanechte svůj komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *

*

*

  1. Odpovědný za údaje: Miguel Ángel Gatón
  2. Účel údajů: Ovládací SPAM, správa komentářů.
  3. Legitimace: Váš souhlas
  4. Sdělování údajů: Údaje nebudou sděleny třetím osobám, s výjimkou zákonných povinností.
  5. Úložiště dat: Databáze hostovaná společností Occentus Networks (EU)
  6. Práva: Vaše údaje můžete kdykoli omezit, obnovit a odstranit.