Google a lansat versiunea 2 a Lyra, codecul open source cu rată de biți scăzută

Lyra codecul audio Google

Google a lansat cea de-a doua versiune a Lyra, codecul său de înaltă calitate, cu rata de biți scăzută, care face comunicația vocală disponibilă chiar și în cele mai lente rețele.

recent Google a dezvăluit printr-o postare pe blog, lansând cea de-a doua versiune a codecului dvs. audio „Lyra-V2”, care utilizează tehnici de învățare automată pentru a obține cea mai înaltă calitate a vocii atunci când se utilizează canale de comunicare foarte lente.

Noua versiune introduce o tranziție la o nouă arhitectură de rețea neuronală, suport pentru platforme suplimentare, control îmbunătățit al ratei de biți, îmbunătățiri ale performanței și calitate audio mai ridicată.

Acum lansăm Lyra V2, cu o nouă arhitectură care se bucură de un suport mai larg pentru platformă, oferă capabilități scalabile de rată de biți, performanță mai bună și sunet de calitate superioară. Cu această lansare, așteptăm cu nerăbdare să continuăm să evoluăm împreună cu comunitatea și, cu creativitatea ta colectivă, să vedem noi aplicații în curs de dezvoltare și noi direcții care apar.

Despre Lyra

În ceea ce privește calitatea datelor vocale transmise la viteză redusă, Lyra este semnificativ superioară codec-urilor tradiționale care utilizează metode de procesare a semnalului digital. Pentru a obține o transmisie vocală de înaltă calitate în condițiile unei cantități limitate de informații transmise, pe lângă metodele obișnuite de compresie audio și conversie a semnalului, Lyra folosește un model de voce bazat pe un sistem de învățare automată care vă permite să recreați informațiile lipsă. pe baza caracteristicilor tipice de vorbire.

Codecul include un encoder și un decodor. Algoritmul codificatorului extrage parametrii datelor de voce la fiecare 20 de milisecunde, îi comprimă și îi transferă destinatarului prin rețea cu o rată de biți de la 3,2 kbps până la 9,2 kbps.

Pe partea receptorului, decodorul folosește un model generativ pentru a recrea semnalul de vorbire original pe baza parametrilor audio transmisi, inclusiv spectrograme cretă logaritmice care iau în considerare caracteristicile energetice ale vorbirii în diferite intervale de frecvență și sunt pregătite având în vedere percepția auditivă umană. .

Ce este nou în Lyra V2?

Lyra V2 folosește un nou model generativ bazat pe rețeaua neuronală SoundStream, care are cerințe de calcul reduse, permițând decodarea în timp real chiar și pe sistemele cu putere redusă.

Modelul folosit pentru a genera sunetul a fost antrenat folosind câteva mii de ore de înregistrări vocale în peste 90 de limbi (TensorFlow Lite este folosit pentru a rula modelul). Performanța implementării propuse este suficientă pentru a codifica și decoda vocea pe smartphone-uri cu cel mai mic preț.

Pe lângă utilizarea unui model generativ diferit, noua versiune se remarcă și prin includerea de legături cu cuantificatorul RVQ (Residual Vector Quantizer) în arhitectura codecului, care se realizează pe partea expeditorului înainte de transmiterea datelor și pe partea receptorului după recepția datelor.

Cuantificatorul convertește parametrii furnizați de codec în seturi de pachete, codând informațiile referitoare la rata de biți selectată. Pentru a asigura niveluri de calitate diferite, sunt furnizate cuantificatoare pentru trei rate de biți (3,2 kbps, 6 kbps și 9,2 kbps), cu cât rata de biți este mai mare, cu atât calitatea este mai bună, dar cu atât cerințele de lățime de bandă sunt mai mari.

noua arhitectură a redus întârzierile transmisiei semnalului de la 100 milisecunde la 20 milisecunde. Pentru comparație, codecul Opus pentru WebRTC a arătat întârzieri de 26,5 ms, 46,5 ms și 66,5 ms la ratele de biți testate. Performanța codificatorului și a decodorului a crescut, de asemenea, semnificativ: În comparație cu versiunea anterioară, există o accelerație de până la 5 ori. De exemplu, pe smartphone-ul Pixel 6 Pro, noul codec codifică și decodifică un eșantion de 20 ms în 0,57 ms, care este de 35 de ori mai rapid decât este necesar pentru streaming în timp real.

Pe lângă performanță, am reușit să îmbunătățim și calitatea restabilirii sunetului: conform scalei MUSHRA, calitatea vorbirii la rate de biți de 3,2 kbps, 6 kbps și 9,2 kbps atunci când utilizați codecul Lyra V2 corespunde ratelor de biți de 10 kbps, 13 kbps și 14 kbps atunci când utilizați codecul Opus.

În cele din urmă dacă sunteți interesat să aflați mai multe despre asta, puteți verifica detaliile în următorul link.


Lasă comentariul tău

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

*

*

  1. Responsabil pentru date: Miguel Ángel Gatón
  2. Scopul datelor: Control SPAM, gestionarea comentariilor.
  3. Legitimare: consimțământul dvs.
  4. Comunicarea datelor: datele nu vor fi comunicate terților decât prin obligație legală.
  5. Stocarea datelor: bază de date găzduită de Occentus Networks (UE)
  6. Drepturi: în orice moment vă puteți limita, recupera și șterge informațiile.