Google 发布低码率开源编解码器 Lyra V2

谷歌音频编解码器 Lyra

Google 发布了 Lyra 的第二个版本,它是高质量、低比特率的编解码器,即使在最慢的网络上也可以进行语音通信。

最近 谷歌通过博客发布,发布您的音频编解码器的第二个版本 «天琴座-V2», 它使用机器学习技术在使用非常慢的通信渠道时实现最高的语音质量。

新版本 引入了向新神经网络架构的过渡, 支持其他平台、改进的比特率控制、性能改进和更高的音频质量。

我们现在发布 Lyra V2,它采用新架构,享有更广泛的平台支持,提供可扩展的比特率功能、更好的性能和更高质量的音频。 通过此版本,我们期待继续与社区一起发展,并凭借您的集体创造力,看到正在开发的新应用程序和出现的新方向。

关于天琴座

关于低速传输的语音数据质量, Lyra 明显优于传统编解码器 使用数字信号处理方法。 为了在传输信息量有限的情况下实现高质量的语音传输,除了通常的音频压缩和信号转换方法外, Lyra 使用基于机器学习系统的语音模型 它允许您重新创建丢失的信息。 基于典型的语音特征。

编解码器包括编码器和解码器。 编码器算法 每 20 毫秒提取语音数据参数,压缩并传输给接收方 通过网络以 3,2 kbps 至 9,2 kbps 的比特率传输。

在接收端,解码器使用生成模型根据传输的音频参数重建原始语音信号,包括考虑到不同频率范围内语音能量特征的对数粉笔频谱图,并考虑到人类听觉感知。 .

Lyra V2 有什么新功能?

Lyra V2 使用基于 SoundStream 神经网络的新生成模型,其计算要求低,即使在低功耗系统上也允许实时解码。

用于生成声音的模型已经使用 90 多种语言的数千小时录音进行了训练(TensorFlow Lite 用于运行模型)。 提议的实现的性能足以在最低价格范围的智能手机上对语音进行编码和解码。

除了使用不同的生成模型, 新版本还突出包含与 RVQ 量词的链接 (Residual Vector Quantizer)编解码架构中的,在数据​​传输前在发送端执行,在数据接收后在接收端执行。

量化器将编解码器提供的参数转换为数据包集,对与所选比特率相关的信息进行编码。 为保证不同的质量等级,为三种比特率(3,2kbps、6kbps和9,2kbps)提供了量化器,比特率越高质量越好,但对带宽的要求也越高。

新架构 将信号传输延迟从 100 毫秒减少到 20 毫秒。 作为比较,WebRTC 的 Opus 编解码器在测试的比特率下显示出 26,5 毫秒、46,5 毫秒和 66,5 毫秒的延迟。 编码器和解码器性能也显着提高: 与之前的版本相比,有高达5倍的加速。 例如,在 Pixel 6 Pro 智能手机上,新的编解码器在 20 毫秒内对 0,57 毫秒的样本进行编码和解码,这比实时流式传输所需的速度快 35 倍。

除了性能,我们还设法提高了声音恢复的质量:根据 MUSHRA 量表,使用 Lyra V3,2 编解码器时比特率 6 kbps、9,2 kbps 和 2 kbps 的语音质量对应于 10 kbps 的比特率,使用 Opus 编解码器时为 13 kbps 和 14 kbps。

最后 如果您有兴趣了解更多有关它的信息,您可以在中查看详细信息 以下链接。


发表您的评论

您的电子邮件地址将不会被发表。 必填字段标有 *

*

*

  1. 负责数据:MiguelÁngelGatón
  2. 数据用途:控制垃圾邮件,注释管理。
  3. 合法性:您的同意
  4. 数据通讯:除非有法律义务,否则不会将数据传达给第三方。
  5. 数据存储:Occentus Networks(EU)托管的数据库
  6. 权利:您可以随时限制,恢复和删除您的信息。