Google vydal V2 Lyra, open source kodek s nízkou bitovou rýchlosťou

Lyra, zvukový kodek Google

Google vydal druhú verziu Lyry, jej vysokokvalitného kodeku s nízkou bitovou rýchlosťou, ktorý sprístupňuje hlasovú komunikáciu aj v tých najpomalších sieťach.

Nedávno Google odhalil prostredníctvom blogového príspevku, čím sa uvoľňuje druhá verzia vášho zvukového kodeku "Lyra-V2", ktorá využíva techniky strojového učenia na dosiahnutie najvyššej kvality hlasu pri použití veľmi pomalých komunikačných kanálov.

Nová verzia zavádza prechod na novú architektúru neurónovej siete, podpora ďalších platforiem, vylepšené ovládanie bitovej rýchlosti, vylepšenia výkonu a vyššia kvalita zvuku.

Teraz vydávame Lyra V2 s novou architektúrou, ktorá má širšiu podporu platforiem, poskytuje škálovateľné možnosti bitovej rýchlosti, lepší výkon a vyššiu kvalitu zvuku. S týmto vydaním sa tešíme na ďalší vývoj v spolupráci s komunitou a s vašou kolektívnou kreativitou uvidíme, ako sa vyvíjajú nové aplikácie a objavujú sa nové smery.

O Lyre

Pokiaľ ide o kvalitu hlasových dát prenášaných nízkou rýchlosťou, Lyra je výrazne lepšia ako tradičné kodeky ktoré využívajú metódy digitálneho spracovania signálu. Aby sa dosiahol kvalitný prenos hlasu v podmienkach obmedzeného množstva prenášaných informácií, okrem bežných metód kompresie zvuku a konverzie signálu, Lyra používa hlasový model založený na systéme strojového učenia čo vám umožní znovu vytvoriť chýbajúce informácie. na základe typických vlastností reči.

Kodek obsahuje kodér a dekodér. Algoritmus kódovača každých 20 milisekúnd extrahuje parametre hlasových údajov, skomprimuje ich a odovzdá príjemcovi cez sieť s bitovou rýchlosťou 3,2 kbps až 9,2 kbps.

Na strane prijímača používa dekodér generatívny model na obnovenie pôvodného rečového signálu na základe prenášaných audio parametrov, vrátane logaritmických kriedových spektrogramov, ktoré berú do úvahy energetické charakteristiky reči v rôznych frekvenčných rozsahoch a sú pripravené s ohľadom na ľudské sluchové vnímanie. .

Čo je nové v Lyre V2?

Lyra V2 využíva nový generatívny model založený na neurónovej sieti SoundStream, ktorý má nízke výpočtové nároky, čo umožňuje dekódovanie v reálnom čase aj na systémoch s nízkou spotrebou.

Model použitý na generovanie zvuku bol trénovaný pomocou niekoľkých tisíc hodín hlasových nahrávok vo viac ako 90 jazykoch (Na spustenie modelu sa používa TensorFlow Lite). Výkon navrhovanej implementácie je dostatočný na kódovanie a dekódovanie hlasu na smartfónoch najnižšej cenovej kategórie.

Okrem použitia iného generatívneho modelu, nová verzia sa vyznačuje aj zahrnutím väzieb s kvantifikátorom RVQ (Residual Vector Quantizer) v architektúre kodeku, ktorý sa vykonáva na strane odosielateľa pred prenosom údajov a na strane prijímača po prijatí údajov.

Kvantizér konvertuje parametre poskytnuté kodekom na sady paketov, ktoré zakódujú informácie týkajúce sa zvolenej bitovej rýchlosti. Na zabezpečenie rôznych úrovní kvality sú k dispozícii kvantizéry pre tri bitové rýchlosti (3,2 kbps, 6 kbps a 9,2 kbps), čím vyššia bitová rýchlosť, tým lepšia kvalita, ale vyššie požiadavky na šírku pásma.

nová architektúra má skrátené oneskorenie prenosu signálu zo 100 milisekúnd na 20 milisekúnd. Pre porovnanie, kodek Opus pre WebRTC vykazoval oneskorenia 26,5 ms, 46,5 ms a 66,5 ms pri testovaných bitových rýchlostiach. Výrazne sa zvýšil aj výkon kodéra a dekodéra: V porovnaní s predchádzajúcou verziou je zrýchlenie až 5-násobné. Napríklad na smartfóne Pixel 6 Pro nový kodek zakóduje a dekóduje 20 ms vzorku za 0,57 ms, čo je 35-krát rýchlejšie, ako je potrebné na streamovanie v reálnom čase.

Okrem výkonu sa nám podarilo zlepšiť aj kvalitu obnovy zvuku: podľa stupnice MUSHRA kvalita reči pri bitových rýchlostiach 3,2 kbps, 6 kbps a 9,2 kbps pri použití kodeku Lyra V2 zodpovedá bitovej rýchlosti 10 kbps, 13 kbps a 14 kbps pri použití kodeku Opus.

Konečne ak máte záujem dozvedieť sa o tom viac, môžete skontrolovať podrobnosti v nasledujúci odkaz.


Zanechajte svoj komentár

Vaša e-mailová adresa nebude zverejnená. Povinné položky sú označené *

*

*

  1. Zodpovedný za údaje: Miguel Ángel Gatón
  2. Účel údajov: Kontrolný SPAM, správa komentárov.
  3. Legitimácia: Váš súhlas
  4. Oznamovanie údajov: Údaje nebudú poskytnuté tretím stranám, iba ak to vyplýva zo zákona.
  5. Ukladanie dát: Databáza hostená spoločnosťou Occentus Networks (EU)
  6. Práva: Svoje údaje môžete kedykoľvek obmedziť, obnoviť a vymazať.