SEED RL,这是Google的用于人工智能模型的开源框架

MGI Google研究人员发布 有关其开发新框架的新闻,该框架将人工智能模型的培训扩展到数千台机器。 结果称为 种子RL (可扩展的高效深度强化学习)。

这是 有希望的发展 因为我应该 使人工智能算法能够以每秒数百万张图像的速度进行训练 谷歌在一份研究报告中说,这将培训成本降低了80%。

这种缩小规模可能有助于为初创企业提供公平的竞争环境。 到现在为止,在人工智能领域还无法与Google等主要竞争对手竞争。 在云中训练复杂的机器学习模型的成本令人惊讶地高。 Google正式开放SEED RL代码,该项目旨在优化强化学习的成本/性能比。

强化学习是一种非常特殊的用例方法,代理商可以通过探索来了解他们的环境,并优化他们的行动以获得最大的回报。

在»SEED RL:具有加速中央推理功能的可扩展且高效的Deep-RL中,我们引入了RL代理,该代理可扩展到数千台机器,能够以每秒数百万帧的速度进行训练,并显着提高了计算效率。 这是通过一种新颖的体系结构实现的,该体系结构通过集中模型推断并引入快速通信层来大规模利用加速器(GPU或TPU)。

我们在受欢迎的RL基准(例如Google Research Football,Arcade Learning Environment和DeepMind Lab)上展示了SEED RL的性能,并表明通过使用更大的模型,可以提高数据效率。 该代码已在Github上打开,并带有在GPU上的Google Cloud上运行的示例。

SEED RL基于TensorFlow 2.0框架 y 结合使用图形处理单元进行工作 和张量处理单元以集中模型推断。 推论使用训练模型的学习组件集中完成。

目标模型的变量和状态信息存储在本地 并在过程的每个阶段将对它们的观察结果发送给学生。 SEED RL还使用基于通用开源RPC框架的网络库来最大程度地减少延迟。

MGI 谷歌研究人员表示,学习部分 由SEED RL 可以扩展到数千个内核, 在环境中进行测量与对模型执行推断以预测下一个动作之间要重复的参与者数量可以扩展到数千台机器。

Google通过将SEED RL与流行的Arcade学习环境,Google Research Football环境和各种DeepMind Lab环境进行比较,评估了SEED RL的有效性,结果表明,他们在以每秒2,4万帧的速度训练模型的同时成功解决了Google Research Football的任务使用了云张量处理单元的64个芯片。

谷歌表示,它比以前的帧快约80倍。

“这转化为显着的时间加速,因为加速器每次操作比CPU便宜得多,因此大大降低了实验成本。” 我们相信SEED RL及其提供的结果表明,就加速器的使用而言,强化学习已再次赶上了其他深度学习,” Google Research研究工程师Lasse Espeholt写道。

通过针对现代加速器进行了优化的架构,自然可以增加模型的大小,从而提高数据效率。

Google说SEED RL代码是开源的,可以在Github上找到, 以及显示如何使其在带有图形处理单元的Google Cloud上运行的示例。

最后,对于对此新框架感兴趣的人,他们可以转到以下链接,在其中可以找到有关该框架的更多信息。 链接是这个。 

数据来源: https://ai.googleblog.com/


本文内容遵循我们的原则 编辑伦理。 要报告错误,请单击 信息.

成为第一个发表评论

发表您的评论

您的电子邮件地址将不会被发表。 必填字段标有 *

*

*

  1. 负责数据:MiguelÁngelGatón
  2. 数据用途:控制垃圾邮件,注释管理。
  3. 合法性:您的同意
  4. 数据通讯:除非有法律义务,否则不会将数据传达给第三方。
  5. 数据存储:Occentus Networks(EU)托管的数据库
  6. 权利:您可以随时限制,恢复和删除您的信息。