最近 Google がブログ投稿で発表、オーディオ コーデックの XNUMX 番目のバージョンをリリースします «ライラ-V2», これは、機械学習技術を使用して、非常に遅い通信チャネルを使用する場合に最高の音声品質を実現します。
新しいバージョン 新しいニューラル ネットワーク アーキテクチャへの移行を導入し、 追加のプラットフォームのサポート、ビットレート制御の改善、パフォーマンスの改善、およびオーディオ品質の向上。
現在、より幅広いプラットフォームをサポートし、スケーラブルなビットレート機能、より優れたパフォーマンス、高品質のオーディオを提供する新しいアーキテクチャを備えた Lyra V2 をリリースしています。 このリリースで、私たちはコミュニティと共に進化し続けることを楽しみにしています。皆さんの集合的な創造性により、新しいアプリケーションが開発され、新しい方向性が生まれているのを見ることができます。
ライラについて
低速で伝送される音声データの品質については、 Lyra は従来のコーデックよりも大幅に優れています デジタル信号処理方式を採用しています。 限られた伝送情報量の条件下で高品質な音声伝送を実現するために、通常の音声圧縮や信号変換方式に加え、 Lyra は、機械学習システムに基づく音声モデルを使用します これにより、不足している情報を再作成できます。 典型的な音声特性に基づいています。
コーデックには、エンコーダとデコーダが含まれます。 エンコーダーアルゴリズム 20 ミリ秒ごとに音声データ パラメータを抽出し、圧縮して受信者に転送します。 3,2 kbps ~ 9,2 kbps のビット レートのネットワークを介して。
レシーバー側では、デコーダーは生成モデルを使用して、異なる周波数範囲での音声のエネルギー特性を考慮した対数チョーク スペクトログラムを含む、送信されたオーディオ パラメータに基づいて元の音声信号を再作成し、人間の聴覚を念頭に置いて準備します。 .
Lyra V2 の新機能は何ですか?
Lyra V2 は、SoundStream ニューラル ネットワークに基づく新しい生成モデルを使用します。、計算要件が低く、低電力システムでもリアルタイムのデコードが可能です。
音を生成するために使用されるモデルは、90 以上の言語で数千時間の音声録音を使用してトレーニングされています (TensorFlow Lite を使用してモデルを実行します)。 提案された実装のパフォーマンスは、最も低価格帯のスマートフォンで音声をエンコードおよびデコードするのに十分です。
別の生成モデルを使用することに加えて、 新しいバージョンは、RVQ 量指定子とのリンクが含まれていることでも際立っています (Residual Vector Quantizer) コーデック アーキテクチャで、データ送信前に送信側で実行され、データ受信後に受信側で実行されます。
量子化器は、コーデックによって提供されたパラメータをパケットのセットに変換し、選択されたビット レートに関連する情報をエンコードします。 異なる品質レベルを保証するために、量子化器は 3,2 つのビットレート (6kbps、9,2kbps、および XNUMXkbps) に対応しており、ビットレートが高いほど品質は高くなりますが、必要な帯域幅も高くなります。
新しいアーキテクチャ 信号伝送遅延が 100 ミリ秒から 20 ミリ秒に短縮されました。 比較のために、WebRTC の Opus コーデックは、テストされたビット レートで 26,5 ミリ秒、46,5 ミリ秒、および 66,5 ミリ秒の遅延を示しました。 エンコーダーとデコーダーのパフォーマンスも大幅に向上: 前のバージョンと比較して、最大 5 倍の高速化があります。 たとえば、Pixel 6 Pro スマートフォンでは、新しいコーデックは 20 ミリ秒のサンプルを 0,57 ミリ秒でエンコードおよびデコードします。これは、リアルタイム ストリーミングに必要な速度よりも 35 倍高速です。
パフォーマンスに加えて、サウンド復元の品質も向上させることができました。MUSHRA スケールによると、Lyra V3,2 コーデックを使用した場合の 6 kbps、9,2 kbps、および 2 kbps のビット レートでの音声品質は、10 kbps のビット レートに相当します。 Opus コーデックを使用する場合は 13 kbps および 14 kbps。
最後に あなたがそれについてもっと知りたいなら、詳細はで確認できます 次のリンク。