nemrég A Google egy blogbejegyzésben mutatta be, kiadja az audiokodek második verzióját "Lyra-V2", amely gépi tanulási technikákat használ a legmagasabb hangminőség eléréséhez nagyon lassú kommunikációs csatornák használatakor.
Az új verzió áttér egy új neurális hálózati architektúrára, további platformok támogatása, továbbfejlesztett bitsebesség-szabályozás, teljesítményjavulás és jobb hangminőség.
Most kiadjuk a Lyra V2-t egy új architektúrával, amely szélesebb platformtámogatást élvez, méretezhető bitsebességet, jobb teljesítményt és jobb hangminőséget biztosít. Ezzel a kiadással várjuk a közösség fejlődésének folytatását, és az Ön közös kreativitásával új alkalmazások fejlesztését és új irányok megjelenését várjuk.
Lyráról
Ami az alacsony sebességgel továbbított hangadatok minőségét illeti, A Lyra jelentősen felülmúlja a hagyományos kodekeket amelyek digitális jelfeldolgozási módszereket alkalmaznak. A jó minőségű hangátvitel elérése érdekében korlátozott mennyiségű továbbított információ mellett, a szokásos hangtömörítési és jelátalakítási módszerek mellett, A Lyra gépi tanulási rendszeren alapuló hangmodellt használ amely lehetővé teszi a hiányzó információk újbóli létrehozását. tipikus beszédjellemzők alapján.
A kodek tartalmaz egy kódolót és egy dekódert. A kódoló algoritmus 20 ezredmásodpercenként kivonja a hangadatok paramétereit, tömöríti és továbbítja a címzettnek hálózaton keresztül 3,2–9,2 kbps bitsebességgel.
A vevő oldalon a dekóder egy generatív modellt használ az eredeti beszédjel újraalkotására a továbbított hangparaméterek alapján, beleértve a logaritmikus kréta spektrogramokat, amelyek figyelembe veszik a beszéd energiajellemzőit különböző frekvenciatartományokban, és az emberi hallás észlelését szem előtt tartva készültek. .
Mik az újdonságok a Lyra V2-ben?
A Lyra V2 egy új generatív modellt használ, amely a SoundStream neurális hálózaton alapul, amely alacsony számítási követelményekkel rendelkezik, lehetővé téve a valós idejű dekódolást még alacsony fogyasztású rendszereken is.
A hang generálására használt modellt több ezer órányi hangfelvétel segítségével képezték ki több mint 90 nyelven (A TensorFlow Lite a modell futtatására szolgál). A javasolt megvalósítás teljesítménye elegendő a hang kódolásához és dekódolásához a legalacsonyabb árkategóriájú okostelefonokon.
Amellett, hogy egy másik generatív modellt használ, az új verzió az RVQ kvantorral való hivatkozásokkal is kitűnik (Residual Vector Quantizer) a kodek architektúrában, amely az adatátvitel előtt a küldő oldalon, az adatfogadás után a vevő oldalon történik.
A kvantáló a kodek által biztosított paramétereket csomaghalmazokká alakítja át, az információt a kiválasztott bitsebességhez viszonyítva kódolva. A különböző minőségi szintek biztosítása érdekében a kvantálók három bitsebességgel (3,2 kb/s, 6 kb/s és 9,2 kb/s) állnak rendelkezésre, minél nagyobb a bitsebesség, annál jobb a minőség, de annál nagyobb a sávszélesség-igény.
az új építészet a jelátviteli késleltetést 100 ezredmásodpercről 20 ezredmásodpercre csökkentette. Összehasonlításképpen a WebRTC Opus kodekje 26,5 ms, 46,5 ms és 66,5 ms késést mutatott a tesztelt bitsebességek mellett. A kódoló és dekódoló teljesítménye is jelentősen nőtt: Az előző verzióhoz képest akár 5-szörös gyorsulás érhető el. Például a Pixel 6 Pro okostelefonon az új kodek egy 20 ms-os mintát 0,57 ms alatt kódol és dekódol, ami 35-ször gyorsabb, mint a valós idejű streameléshez.
A teljesítmény mellett a hangvisszaállítás minőségét is sikerült javítanunk: a MUSHRA skála szerint a 3,2 kbps, 6 kbps és 9,2 kbps-os beszédminőség Lyra V2 kodek használatakor 10 kbps-os bitsebességnek felel meg, 13 kbps és 14 kbps az Opus kodek használatakor.
Végül ha érdekel, hogy többet tudjon meg róla, a részleteket itt ellenőrizheti a következő link.