幾天前 Google開發人員發布 通過他們採取的博客文章 決定將Lyra開源。 Lyra基於機器學習,可在低帶寬情況下實現高質量的語音通話。
與此一起 好處,並允許其他開發人員提供他們的應用程序 交流並向新方向發展Lyra。
數十年來,編解碼器是媒體應用程序的主要部分,它使帶寬密集型應用程序能夠有效地傳輸數據。
因此, 視頻和音頻的編解碼器開髮帶來了持續的挑戰-提供更高的質量,使用更少的數據,並最小化實時通信的延遲。
儘管視頻似乎比音頻消耗更多的帶寬,但是現代視頻編解碼器可以實現比當今使用的某些高質量語音編解碼器更低的比特率。
的結合 低比特率的語音和視頻編解碼器可以帶來高質量的視頻通話體驗 即使在低帶寬網絡上也是如此。 但是,從歷史上看,音頻編解碼器的比特率越低,語音信號的清晰度就越差,並且它的機器人性就越高。
另外,儘管有些人可以使用一致的高質量寬帶網絡,但是這種連接級別並不普遍,甚至居住在連接良好的地區的人有時也會面臨網絡連接不良,網絡連接不良和連接性不足的問題。
為了解決這個問題, Google創建了Lyra,這是一種高質量,超低比特率的語音編解碼器 即使在最慢的網絡上也可以進行語音通信。
為此, Google在利用先進技術的同時運用了傳統編碼技術 在機器學習中,我們使用經過數千小時數據訓練的模型來創建一種壓縮和傳輸語音信號的新方法。
Lyra的代碼是用C ++編寫的,以提高速度, 效率和互操作性,此外,它還使用帶有Abseil的Bazel框架和用於全面單元測試的GoogleTest框架。
基本API提供了用於在數據包和文件級別進行編碼和解碼的接口。 還提供了完整的信號處理工具鏈,其中包括各種濾波器和變換。
“我們的示例應用程序與Android NDK集成在一起,以展示如何將Lyra的本機代碼集成到基於Java的Android應用程序中。 我們還提供了運行Lyra所需的向量權重和量詞,” Google說。 該版本為開發人員提供了必要的工具,以使用Lyra進行音頻編碼和解碼,Lyra已針對64位Android ARM平台進行了優化,並具有適用於Linux的版本。
使用生成模型將特徵解碼為波形。 生成模型是一種特殊類型的機器學習模型,非常適合通過有限的功能重新創建完整的音頻波形。
Lyra的體系結構與傳統音頻編解碼器非常相似,數十年來一直是Internet通信的骨幹。 這些傳統的編解碼器基於數字信號處理技術,而Lyra則依賴於生成模型重構高質量語音信號的能力。
谷歌在其免費的視頻通話應用程序Duo中實現了Lyra,並表示正在將代碼開源,因為它認為它可能適用於其他應用程序。
Google認為,Lyra可能適用於許多應用程序,無論是用於存檔大量語音,節省電池壽命還是在繁忙情況下緩解網絡擁塞。
谷歌說:“我們期待看到代表Lyra的開源社區所具有的創造力,以提供強大而獨特的應用程序。”
來源: https://opensource.googleblog.com