O Google lançou a V2 do Lyra, o codec de código aberto de baixa taxa de bits

Lyra o codec de áudio do Google

O Google lançou a segunda versão do Lyra, seu codec de alta qualidade e baixa taxa de bits que torna a comunicação de voz disponível mesmo nas redes mais lentas.

Faz pouco Google revelado através de um post no blog, lançando a segunda versão do seu codec de áudio «Lyra-V2», que usa técnicas de aprendizado de máquina para obter a mais alta qualidade de voz ao usar canais de comunicação muito lentos.

A nova versão introduz uma transição para uma nova arquitetura de rede neural, suporte para plataformas adicionais, controle de taxa de bits aprimorado, melhorias de desempenho e maior qualidade de áudio.

Agora estamos lançando o Lyra V2, com uma nova arquitetura que oferece suporte mais amplo à plataforma, oferece recursos de taxa de bits escalonáveis, melhor desempenho e áudio de maior qualidade. Com este lançamento, esperamos continuar evoluindo com a comunidade e, com sua criatividade coletiva, ver novos aplicativos sendo desenvolvidos e novas direções surgindo.

Sobre Lyra

Em relação à qualidade dos dados de voz transmitidos em baixa velocidade, Lyra é significativamente superior aos codecs tradicionais que usam métodos de processamento de sinal digital. Para obter uma transmissão de voz de alta qualidade sob condições de uma quantidade limitada de informações transmitidas, além dos métodos usuais de compressão de áudio e conversão de sinal, Lyra usa um modelo de voz baseado em um sistema de aprendizado de máquina que permite recriar as informações ausentes. com base nas características típicas da fala.

O codec inclui um codificador e um decodificador. O algoritmo do codificador extrai os parâmetros de dados de voz a cada 20 milissegundos, os compacta e os transfere para o destinatário pela rede com uma taxa de bits de 3,2 kbps a 9,2 kbps.

No lado do receptor, o decodificador usa um modelo generativo para recriar o sinal de fala original com base em parâmetros de áudio transmitidos, incluindo espectrogramas de giz logarítmicos que levam em consideração as características de energia da fala em diferentes faixas de frequência e são preparados com a percepção auditiva humana em mente .

O que há de novo no Lyra V2?

Lyra V2 usa um novo modelo generativo baseado na rede neural SoundStream, que possui baixos requisitos computacionais, permitindo a decodificação em tempo real mesmo em sistemas de baixa potência.

O modelo usado para gerar o som foi treinado usando vários milhares de horas de gravações de voz em mais de 90 idiomas (O TensorFlow Lite é usado para executar o modelo). O desempenho da implementação proposta é suficiente para codificar e decodificar voz em smartphones de menor faixa de preço.

Além de usar um modelo generativo diferente, a nova versão também se destaca pela inclusão de links com o quantificador RVQ (Residual Vector Quantizer) na arquitetura do codec, que é executado no lado do emissor antes da transmissão de dados e no lado do receptor após a recepção dos dados.

O quantizador converte os parâmetros fornecidos pelo codec em conjuntos de pacotes, codificando a informação relativa à taxa de bits selecionada. Para garantir diferentes níveis de qualidade, os quantizadores são fornecidos para três taxas de bits (3,2 kbps, 6 kbps e 9,2 kbps), quanto maior a taxa de bits, melhor a qualidade, mas maiores os requisitos de largura de banda.

a nova arquitetura reduziu os atrasos de transmissão de sinal de 100 milissegundos para 20 milissegundos. Para comparação, o codec Opus para WebRTC mostrou atrasos de 26,5 ms, 46,5 ms e 66,5 ms nas taxas de bits testadas. O desempenho do codificador e do decodificador também aumentou significativamente: Comparado com a versão anterior, há uma aceleração de até 5 vezes. Por exemplo, no smartphone Pixel 6 Pro, o novo codec codifica e decodifica uma amostra de 20 ms em 0,57 ms, o que é 35 vezes mais rápido do que o necessário para streaming em tempo real.

Além do desempenho, também conseguimos melhorar a qualidade da restauração do som: de acordo com a escala MUSHRA, a qualidade da fala em taxas de bits de 3,2 kbps, 6 kbps e 9,2 kbps ao usar o codec Lyra V2 corresponde a taxas de bits de 10 kbps, 13 kbps e 14 kbps ao usar o codec Opus.

Finalmente se você estiver interessado em saber mais sobre isso, você pode verificar os detalhes em o seguinte link.


Deixe um comentário

Seu endereço de email não será publicado. Campos obrigatórios são marcados com *

*

*

  1. Responsável pelos dados: Miguel Ángel Gatón
  2. Finalidade dos dados: Controle de SPAM, gerenciamento de comentários.
  3. Legitimação: Seu consentimento
  4. Comunicação de dados: Os dados não serão comunicados a terceiros, exceto por obrigação legal.
  5. Armazenamento de dados: banco de dados hospedado pela Occentus Networks (UE)
  6. Direitos: A qualquer momento você pode limitar, recuperar e excluir suas informações.