Google llanço la V2 de Lyra, el còdec open source de baixa taxa de bits

Lyra el còdec d'àudio de Google

Google llanço la segona versió de Lyra, el seu còdec d'alta qualitat i baixa taxa de bits que fa que la comunicació de veu estigui disponible fins i tot a les xarxes més lentes

fa poc Google va donar a conèixer mitjançant una publicació de bloc, l'alliberament de la segona versió del seu còdec d'àudio Lyra V2, que utilitza tècniques daprenentatge automàtic per aconseguir la màxima qualitat de veu quan sutilitzen canals de comunicació molt lents.

La nova versió presenta una transició a una nova arquitectura de xarxa neuronal, suport per a plataformes addicionals, control millorat de taxa de bits, millores de rendiment i més qualitat d'àudio.

Ara estem llançant Lyra V2, amb una nova arquitectura que gaudeix d'un suport de plataforma més ampli, brinda capacitats de taxa de bits escalables, té un millor rendiment i genera àudio de més qualitat. Amb aquest llançament, esperem continuar evolucionant amb la comunitat i, amb la seva creativitat col·lectiva, veure com es desenvolupen noves aplicacions i sorgeixen noves adreces.

Sobre Lyra

Pel que fa a la qualitat de les dades de veu transmeses a baixa velocitat, Lyra és significativament superior als còdecs tradicionals que utilitzen mètodes de processament de senyals digitals. Per aconseguir una transmissió de veu d'alta qualitat en condicions d'una quantitat limitada d'informació transmesa, a més dels mètodes habituals de compressió d'àudio i de conversió de senyal, Lyra utilitza un model de veu basat en un sistema daprenentatge automàtic que permet recrear la informació que hi falta. basat en les característiques típiques de la parla.

El còdec inclou un codificador i un descodificador. L'algorisme del codificador extreu els paràmetres de dades de veu cada 20 mil·lisegons, els comprimeix i els transfereix al destinatari a través de la xarxa amb una taxa de bits de 3,2 kbps a 9,2 kbps.

Al costat del receptor, el descodificador utilitza un model generatiu per recrear el senyal de veu original en funció dels paràmetres d'àudio transmesos, que inclouen espectrogrames de guix logarítmic que tenen en compte les característiques de l'energia de la parla en diferents rangs de freqüència i es preparen tenint en compte la percepció auditiva humana.

Què hi ha de nou a Lyra V2?

Lyra V2 utilitza un nou model generatiu basat en la xarxa neuronal SoundStream, que té baixos requisits computacionals, cosa que permet la descodificació en temps real fins i tot en sistemes de baixa potència.

El model utilitzat per generar el so s'ha entrenat utilitzant milers d'hores d'enregistraments de veu en més de 90 idiomes (TensorFlow Lite s'utilitza per executar el model). El rendiment de la implementació proposada és suficient per codificar i descodificar veu en telèfons intel·ligents del rang de preu més baix.

A més d'utilitzar un model generatiu diferent, la nova versió també destaca per la inclusió denllaços amb el quantificador RVQ (Residual Vector Quantizer) a l'arquitectura del còdec, que es realitza al costat de l'emissor abans de la transmissió de dades, i al costat del receptor després de la recepció de dades.

El quantificador converteix els paràmetres proporcionats pel còdec en conjunts de paquets, codificant la informació en relació amb la taxa de bits seleccionada. Per garantir diferents nivells de qualitat, es proporcionen quantificadors per a tres taxes de bits (3,2 kbps, 6 kbps i 9,2 kbps), com més gran sigui la taxa de bits, millor serà la qualitat, però més grans seran els requisits d'amplada de banda.

La nova arquitectura ha reduït els retards en la transmissió de senyals de 100 a 20 mil·lisegons. Com a comparació, el còdec Opus per a WebRTC va mostrar retards de 26,5 ms, 46,5 ms i 66,5 ms en les taxes de bits provades. El rendiment del codificador i descodificador també ha augmentat significativament: en comparació amb la versió anterior, hi ha una acceleració de fins a 5 vegades. Per exemple, al telèfon intel·ligent Pixel 6 Pro, el nou còdec codifica i descodifica una mostra de 20 ms en 0,57 ms, que és 35 vegades més ràpid del necessari per a la transmissió en temps real.

A més del rendiment, també aconseguim millorar la qualitat de la restauració del so: segons l'escala MUSHRA, la qualitat de la parla a taxes de bits de 3,2 kbps, 6 kbps i 9,2 kbps quan s'usa el còdec Lyra V2 correspon a taxes de bits de 10 kbps, 13 kbps i 14 kbps quan es fa servir el còdec Opus.

Finalment si estàs interessat en poder conèixer més a l'respecte, Pots consultar els detalls a el següent enllaç.


Deixa el teu comentari

La seva adreça de correu electrònic no es publicarà. Els camps obligatoris estan marcats amb *

*

*

  1. Responsable de les dades: Miguel Ángel Gatón
  2. Finalitat de les dades: Controlar l'SPAM, gestió de comentaris.
  3. Legitimació: El teu consentiment
  4. Comunicació de les dades: No es comunicaran les dades a tercers excepte per obligació legal.
  5. Emmagatzematge de les dades: Base de dades allotjada en Occentus Networks (UE)
  6. Drets: En qualsevol moment pots limitar, recuperar i esborrar la teva informació.