数日前 Google開発者がリリース 彼らが取ったブログ投稿を介して Lyraをオープンソースにする決定。 Lyraは機械学習に基づいており、低帯域幅の状況で高品質の音声通話を可能にします。
これで メリットがあり、他の開発者がアプリケーションにフィードできるようになります コミュニケーションを取り、ライラを新しい方向に発展させます。
コーデックは、何十年にもわたってメディアアプリケーションの定番であり、帯域幅を大量に消費するアプリケーションがデータを効率的に送信できるようにしてきました。
など、 ビデオとオーディオの両方のコーデック開発には、継続的な課題があります-これまで以上に高品質を提供し、使用するデータを減らし、リアルタイム通信の遅延を最小限に抑えます。
ビデオはオーディオよりもはるかに多くの帯域幅を消費しているように見えるかもしれませんが、最新のビデオコーデックは、現在使用されている高品質の音声コーデックの一部よりも低いビットレートを実現できます。
の組み合わせ 低ビットレートの音声およびビデオコーデックは、高品質のビデオ通話体験をもたらすことができます 低帯域幅のネットワークでも。 ただし、歴史的に、オーディオコーデックのビットレートが低いほど、音声信号の理解が難しくなり、ロボット性が高まります。
また、一貫した高品質のブロードバンドネットワークにアクセスできる人もいますが、このレベルの接続は普遍的ではなく、接続の良い地域に住んでいる人でさえ、ネットワーク接続、ネットワーク接続、接続性の低下に直面することがあります。
この問題を解決するために、 Googleは、高品質で超低ビットレートの音声コーデックであるLyraを作成しました。 これにより、最も低速なネットワークでも音声通信を利用できるようになります。
これを行うには、 グーグルは進歩を利用しながら伝統的なコーディング技術を適用しました 音声信号の圧縮と送信の新しい方法を作成するために、数千時間のデータでトレーニングされたモデルを使用した機械学習。
Lyraのコードは、速度を上げるためにC ++で記述されています。 効率性と相互運用性に加えて、Abseilを備えたBazelフレームワークと完全な単体テスト用のGoogleTestフレームワークを使用します。
Basic APIは、パケットおよびファイルレベルでエンコードおよびデコードするためのインターフェイスを提供します。 完全な信号処理ツールチェーンも提供されており、さまざまなフィルターと変換が含まれています。
「サンプルアプリケーションはAndroidNDKと統合されており、LyraのネイティブコードをJavaベースのAndroidアプリケーションに統合する方法を示しています。 Lyraの実行に必要なベクトルの重みと数量詞も提供します」とGoogleは述べています。 このリリースでは、開発者がLyraを使用してオーディオをエンコードおよびデコードするために必要なツールを提供し、64ビットのAndroidARMプラットフォーム用に最適化されています。Linux用のバージョンがあります。
特徴は、生成モデルを使用して波形にデコードされます。 生成モデルは、限られた数の関数から完全なオーディオ波形を再現するのに適した特殊なタイプの機械学習モデルです。
Lyraのアーキテクチャは、従来のオーディオコーデックと非常によく似ています。、何十年もの間インターネット通信のバックボーンでした。 これらの従来のコーデックはデジタル信号処理技術に基づいていますが、Lyraは、高品質の音声信号を再構築する生成モデルの機能にあります。
Googleは無料のビデオ通話アプリDuoにLyraを実装し、他のアプリに適している可能性があると考えているため、コードをオープンソースにしていると述べました。
Googleは、大量の音声のアーカイブ、バッテリー寿命の節約、忙しい状況でのネットワークの混雑の緩和など、Lyraが適している可能性のあるアプリは多数あると考えています。
「強力でユニークなアプリケーションを提供するためにLyraに適用されるオープンソースコミュニティを特徴付ける創造性を見るのを楽しみにしています」とGoogleは言いました。
出典 https://opensource.googleblog.com