SEED RL,Google人工智能模型開源框架

很多 Google研究人員發布 有關其開發新框架的新聞,該框架將人工智能模型的培訓擴展到數千台機器。 結果稱為 種子RL (可擴展的高效深度強化學習)。

這是 有希望的發展 因為我應該 允許訓練人工智能算法每秒處理數百萬張圖像 谷歌在一份研究報告中說,這將培訓成本降低了80%。

這種縮小規模可以幫助為初創企業提供公平的競爭環境。 到現在為止,在人工智能領域還無法與Google等主要競爭對手競爭。 在雲中訓練複雜的機器學習模型的成本令人驚訝地高。 Google正式開放SEED RL代碼,該項目旨在優化強化學習的成本/性能比。

強化學習是一種非常特殊的用例方法,代理商可以通過探索來了解他們的環境,並優化他們的行動以獲得最大的回報。

在»SEED RL:具有加速中央推理功能的可擴展且高效的Deep-RL中,我們引入了RL代理,該代理可擴展到數千台機器,能夠以每秒數百萬幀的速度進行訓練,並顯著提高了計算效率。 這是通過一種新穎的體系結構實現的,該體系結構通過集中模型推斷並引入快速通信層來大規模利用加速器(GPU或TPU)。

我們在受歡迎的RL基準(例如Google Research Football,Arcade Learning Environment和DeepMind Lab)上展示了SEED RL的性能,並表明通過使用更大的模型,可以提高數據效率。 該代碼已在Github上打開,並附帶示例可在帶有GPU的Google Cloud上運行。

SEED RL基於TensorFlow 2.0框架 y 結合使用圖形處理單元進行工作 和張量處理單元以集中模型推斷。 推理是使用訓練模型的學習組件集中完成的。

目標模型的變量和狀態信息存儲在本地 並在過程的每個階段將對它們的觀察結果發送給學生。 SEED RL還使用基於通用開源RPC框架的網絡庫來最大程度地減少延遲。

很多 谷歌研究人員表示,學習部分 由SEED RL 可以擴展到數千個內核, 在環境中進行測量與對模型執行推斷以預測下一個動作之間要重複的參與者數量可以擴展到數千台機器。

Google通過將SEED RL與流行的Arcade學習環境,Google Research Football環境和各種DeepMind Lab環境進行比較,評估了SEED RL的有效性,結果表明他們在訓練2,4萬模型的同時設法解決了Google Research Football的任務每秒使用雲張量處理單元的64個芯片的幀數。

谷歌表示,它比以前的幀快約80倍。

“這轉化為顯著的時間加速,因為加速器每次操作比CPU便宜得多,因此大大降低了實驗成本。” 我們相信SEED RL及其提供的結果表明,就加速器的使用而言,強化學習再次趕上了其他深度學習,” Google Research研究工程師Lasse Espeholt寫道。

通過針對現代加速器進行了優化的架構,自然可以增加模型的大小,從而提高數據效率。

Google說SEED RL代碼是開源的,可以在Github上找到, 以及顯示如何使其在帶有圖形處理單元的Google Cloud上運行的示例。

最後,對於對此新框架感興趣的人,您可以轉到下面的鏈接,在其中可以找到有關它的更多信息。 鏈接是這個。 

來源: https://ai.googleblog.com/


發表您的評論

您的電子郵件地址將不會被發表。 必填字段標有 *

*

*

  1. 負責數據:MiguelÁngelGatón
  2. 數據用途:控制垃圾郵件,註釋管理。
  3. 合法性:您的同意
  4. 數據通訊:除非有法律義務,否則不會將數據傳達給第三方。
  5. 數據存儲:Occentus Networks(EU)託管的數據庫
  6. 權利:您可以隨時限制,恢復和刪除您的信息。