Google je izdal različico 2 Lyre, odprtokodnega kodeka z nizko bitno hitrostjo

Lyra, Googlov zvočni kodek

Google je izdal drugo različico Lyre, svojega visokokakovostnega kodeka z nizko bitno hitrostjo, ki omogoča glasovno komunikacijo tudi v najpočasnejših omrežjih.

Pred kratkim Google je predstavil prek objave v spletnem dnevniku, ki izdaja drugo različico vašega zvočnega kodeka "Lira-V2", ki uporablja tehnike strojnega učenja za doseganje najvišje kakovosti govora pri uporabi zelo počasnih komunikacijskih kanalov.

Nova različica uvaja prehod na novo arhitekturo nevronske mreže, podpora za dodatne platforme, izboljšan nadzor bitne hitrosti, izboljšave zmogljivosti in višja kakovost zvoka.

Zdaj izdajamo Lyra V2 z novo arhitekturo, ki uživa širšo podporo platforme, zagotavlja razširljive zmogljivosti bitne hitrosti, boljšo zmogljivost in višjo kakovost zvoka. S to izdajo se veselimo nadaljnjega razvoja s skupnostjo in z vašo kolektivno ustvarjalnostjo vidimo razvoj novih aplikacij in nastajanje novih smeri.

O Lyri

Glede kakovosti glasovnih podatkov, ki se prenašajo pri nizki hitrosti, Lyra je bistveno boljša od tradicionalnih kodekov ki uporabljajo metode digitalne obdelave signalov. Da bi dosegli visokokakovosten prenos govora v pogojih omejene količine prenesenih informacij, poleg običajnih metod stiskanja zvoka in pretvorbe signala, Lyra uporablja glasovni model, ki temelji na sistemu strojnega učenja ki vam omogoča ponovno ustvarjanje manjkajočih informacij. na podlagi tipičnih govornih značilnosti.

Kodek vključuje kodirnik in dekoder. Algoritem kodirnika vsakih 20 milisekund izvleče parametre glasovnih podatkov, jih stisne in prenese prejemniku prek omrežja z bitno hitrostjo od 3,2 kbps do 9,2 kbps.

Na strani sprejemnika dekoder uporablja generativni model za poustvarjanje izvirnega govornega signala na podlagi oddanih zvočnih parametrov, vključno z logaritemskimi spektrogrami s kredo, ki upoštevajo energijske značilnosti govora v različnih frekvenčnih območjih in so pripravljeni ob upoštevanju človeškega slušnega zaznavanja. .

Kaj je novega v Lyri V2?

Lyra V2 uporablja nov generativni model, ki temelji na nevronski mreži SoundStream, ki ima nizke računalniške zahteve, kar omogoča dekodiranje v realnem času tudi v sistemih z nizko porabo energije.

Model, uporabljen za ustvarjanje zvoka, je bil usposobljen z uporabo več tisoč ur glasovnih posnetkov v več kot 90 jezikih (Za zagon modela se uporablja TensorFlow Lite). Zmogljivost predlagane izvedbe zadostuje za kodiranje in dekodiranje glasu na pametnih telefonih najnižjega cenovnega razreda.

Poleg uporabe drugačnega generativnega modela, nova različica izstopa tudi po vključitvi povezav s kvantifikatorjem RVQ (Residual Vector Quantizer) v arhitekturi kodeka, ki se izvede na strani pošiljatelja pred prenosom podatkov, na strani prejemnika pa po sprejemu podatkov.

Kvantizator pretvori parametre, ki jih zagotovi kodek, v nize paketov, ki kodirajo informacije glede na izbrano bitno hitrost. Da bi zagotovili različne ravni kakovosti, so na voljo kvantizatorji za tri bitne hitrosti (3,2 kbps, 6 kbps in 9,2 kbps), višja kot je bitna hitrost, boljša je kakovost, vendar so višje zahteve glede pasovne širine.

novo arhitekturo je zmanjšal zamude pri prenosu signala s 100 milisekund na 20 milisekund. Za primerjavo, kodek Opus za WebRTC je pokazal zamude 26,5 ms, 46,5 ms in 66,5 ms pri testiranih bitnih hitrostih. Znatno se je povečala tudi zmogljivost kodirnika in dekoderja: V primerjavi s prejšnjo različico je pospešek do 5-krat. Na primer, na pametnem telefonu Pixel 6 Pro novi kodek kodira in dekodira 20 ms vzorec v 0,57 ms, kar je 35-krat hitreje, kot je potrebno za pretakanje v realnem času.

Poleg zmogljivosti nam je uspelo izboljšati tudi kakovost obnovitve zvoka: po lestvici MUSHRA kakovost govora pri bitnih hitrostih 3,2 kbps, 6 kbps in 9,2 kbps pri uporabi kodeka Lyra V2 ustreza bitni hitrosti 10 kbps, 13 kbps in 14 kbps pri uporabi kodeka Opus.

Končno če vas zanima več o tem, podrobnosti lahko preverite v naslednjo povezavo.


Pustite svoj komentar

Vaš e-naslov ne bo objavljen. Obvezna polja so označena z *

*

*

  1. Za podatke odgovoren: Miguel Ángel Gatón
  2. Namen podatkov: Nadzor neželene pošte, upravljanje komentarjev.
  3. Legitimacija: Vaše soglasje
  4. Sporočanje podatkov: Podatki se ne bodo posredovali tretjim osebam, razen po zakonski obveznosti.
  5. Shranjevanje podatkov: Zbirka podatkov, ki jo gosti Occentus Networks (EU)
  6. Pravice: Kadar koli lahko omejite, obnovite in izbrišete svoje podatke.