Google ha rilasciato V2 di Lyra, il codec open source a basso bitrate

Lyra il codec audio di Google

Google ha rilasciato la seconda versione di Lyra, il suo codec di alta qualità a basso bitrate che rende disponibile la comunicazione vocale anche sulle reti più lente.

recentemente Google svelato tramite un post sul blog, rilasciando la seconda versione del codec audio «Lira-V2», che utilizza tecniche di apprendimento automatico per ottenere la massima qualità vocale quando si utilizzano canali di comunicazione molto lenti.

La nuova versione introduce una transizione verso una nuova architettura di rete neurale, supporto per piattaforme aggiuntive, controllo del bitrate migliorato, miglioramenti delle prestazioni e qualità audio superiore.

Ora stiamo rilasciando Lyra V2, con una nuova architettura che gode di un supporto più ampio della piattaforma, offre capacità di bitrate scalabili, prestazioni migliori e audio di qualità superiore. Con questa versione, non vediamo l'ora di continuare ad evolverci con la community e, con la tua creatività collettiva, vedere nuove applicazioni in fase di sviluppo ed emergere nuove direzioni.

A proposito di Lyra

Per quanto riguarda la qualità dei dati vocali trasmessi a bassa velocità, Lyra è significativamente superiore ai codec tradizionali che utilizzano metodi di elaborazione del segnale digitale. Per ottenere una trasmissione vocale di alta qualità in condizioni di una quantità limitata di informazioni trasmesse, oltre ai consueti metodi di compressione audio e conversione del segnale, Lyra utilizza un modello vocale basato su un sistema di apprendimento automatico che consente di ricreare le informazioni mancanti. in base alle tipiche caratteristiche del linguaggio.

Il codec include un codificatore e un decodificatore. L'algoritmo dell'encoder estrae i parametri dei dati vocali ogni 20 millisecondi, li comprime e li trasferisce al destinatario sulla rete con un bit rate da 3,2 kbps a 9,2 kbps.

Sul lato ricevitore, il decoder utilizza un modello generativo per ricreare il segnale vocale originale basato sui parametri audio trasmessi, inclusi gli spettrogrammi di gesso logaritmici che tengono conto delle caratteristiche energetiche del parlato in diverse gamme di frequenza e sono preparati pensando alla percezione uditiva umana .

Cosa c'è di nuovo in Lyra V2?

Lyra V2 utilizza un nuovo modello generativo basato sulla rete neurale SoundStream, che ha bassi requisiti di calcolo, consentendo la decodifica in tempo reale anche su sistemi a bassa potenza.

Il modello utilizzato per generare il suono è stato addestrato utilizzando diverse migliaia di ore di registrazioni vocali in più di 90 lingue (TensorFlow Lite viene utilizzato per eseguire il modello). Le prestazioni dell'implementazione proposta sono sufficienti per codificare e decodificare la voce sugli smartphone della fascia di prezzo più bassa.

Oltre a utilizzare un modello generativo diverso, la nuova versione si distingue anche per l'inserimento dei collegamenti con il quantificatore RVQ (Residual Vector Quantizer) nell'architettura del codec, che viene eseguito sul lato mittente prima della trasmissione dei dati e sul lato ricevitore dopo la ricezione dei dati.

Il quantizzatore converte i parametri forniti dal codec in insiemi di pacchetti, codificando le informazioni relative al bit rate selezionato. Per garantire diversi livelli di qualità, sono previsti quantizzatori per tre bitrate (3,2kbps, 6kbps e 9,2kbps), maggiore è il bitrate, migliore è la qualità, ma maggiori sono i requisiti di larghezza di banda della banda.

la nuova architettura ha ridotto i ritardi di trasmissione del segnale da 100 millisecondi a 20 millisecondi. Per confronto, il codec Opus per WebRTC ha mostrato ritardi di 26,5 ms, 46,5 ms e 66,5 ms alle velocità in bit testate. Anche le prestazioni di encoder e decoder sono aumentate in modo significativo: Rispetto alla versione precedente, c'è un'accelerazione fino a 5 volte. Ad esempio, sullo smartphone Pixel 6 Pro, il nuovo codec codifica e decodifica un campione di 20 ms in 0,57 ms, 35 volte più veloce di quanto necessario per lo streaming in tempo reale.

Oltre alle prestazioni, siamo anche riusciti a migliorare la qualità del ripristino del suono: secondo la scala MUSHRA, la qualità del parlato a bit rate di 3,2 kbps, 6 kbps e 9,2 kbps quando si utilizza il codec Lyra V2 corrisponde a bit rate di 10 kbps, 13 kbps e 14 kbps quando si utilizza il codec Opus.

Infine se sei interessato a saperne di più, puoi controllare i dettagli in il seguente collegamento.


Lascia un tuo commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *

*

*

  1. Responsabile dei dati: Miguel Ángel Gatón
  2. Scopo dei dati: controllo SPAM, gestione commenti.
  3. Legittimazione: il tuo consenso
  4. Comunicazione dei dati: I dati non saranno oggetto di comunicazione a terzi se non per obbligo di legge.
  5. Archiviazione dati: database ospitato da Occentus Networks (UE)
  6. Diritti: in qualsiasi momento puoi limitare, recuperare ed eliminare le tue informazioni.