FlexGen,一种在单个 GPU 上运行 AI 机器人的引擎

弗莱克斯根

FlexGen 是一个引擎,旨在将大型语言模型的推理资源需求减少到单个 GPU。

最近有新闻发布 一组研究人员 来自斯坦福大学、加州大学伯克利分校、苏黎世联邦理工学院、卡内基梅隆大学经济学研究生院,以及 Yandex 和 Meta,已经发布了源代码 un 运行大型语言模型的引擎 在资源有限的系统中。

代号 «FlexGen»,是一个旨在显着减少 要求 LLM 推理操作的资源。 FlexGen 发布在 GitHub 上,它只需要 Python 和 PyTorch,但大多数情况下可以与 NVIDIA Tesla T4 或 GeForce RTX 3090 等单个 GPU 一起使用。

例如: 该引擎提供了创建功能的能力,让人联想到 ChatGPT 和 Copilot 在配备 175 GB 显存的 NVIDIA RTX175 游戏显卡的普通计算机上运行涵盖 3090 亿个参数的预训练 OPT-24B 模型。

提到(LLM)模型支持ChatGPT、Copilot等工具的运行。 这些是使用数十亿个参数并在大量数据上进行训练的大型模型。

LLM 推理任务的高计算和内存要求通常需要使用高端加速器。

我们很高兴公众对 FlexGen 感到非常兴奋。 但是,我们的工作仍在准备中,尚未准备好公开发布/公告。 从对该项目的早期反馈中,我们意识到该 README 的早期版本和我们的文档对 FlexGen 的用途不清楚。 这是减少 LLM 资源需求的初步努力,但它也有很多限制,并不打算在有足够资源可用时取代用例。

LLM 推理是一个过程,其中使用语言模型来生成关于输入文本的预测:它涉及使用语言模型,例如 GPT(生成式预训练转换器)等生成模型,来预测最有可能的内容即将发生。 在特定输入捕获文本后作为响应提供。

关于 FlexGen

该软件包包括一个用于创建机器人的示例脚本。 这允许用户 下载一种公开可用的语言模型 并立即开始聊天。

作为基础,建议使用 Facebook 发布的大型语言模型,在 BookCorpus collections(10 万本书)、CC-Stories、Pile(OpenSubtitles、Wikipedia、DM Mathematics、HackerNews 等)、Pushshift.io 上进行训练(基于 Reddit 数据))和 CCNewsV2(新闻档案)。

该模型涵盖约 180 亿个令牌(800 GB 数据)。 使用 33 个 NVIDIA A992 100 GB GPU 运行集群需要 80 天来训练模型。

在具有单个 NVIDIA T175 GPU (4 GB) 的系统上运行 OPT-16B,FlexGen 引擎展示了比以前提供的解决方案快 100 倍的性能,使大型语言模型的使用更加经济实惠,并允许它们在没有专门加速器的系统上运行。

同时,FlexGen 可以扩展以在存在多个 GPU 的情况下并行计算。 为了减小模型的大小,使用了额外的参数压缩方案和模型缓存机制。

目前, FlexGen 仅支持 OPT 语言模型,但在未来,开发者还承诺增加对 BLOOM(176 亿参数,支持 46 种语言和 13 种编程语言)、CodeGen(可以生成 22 种编程语言的代码)和 GLM 的支持。

最后值得一提的是,代码是用 Python 编写的,使用 PyTorch 框架,并在 Apache 2.0 许可下分发。

有兴趣了解更多关于它的信息,您可以查看详细信息 在下面的链接中。


发表您的评论

您的电子邮件地址将不会被发表。 必填字段标有 *

*

*

  1. 负责数据:MiguelÁngelGatón
  2. 数据用途:控制垃圾邮件,注释管理。
  3. 合法性:您的同意
  4. 数据通讯:除非有法律义务,否则不会将数据传达给第三方。
  5. 数据存储:Occentus Networks(EU)托管的数据库
  6. 权利:您可以随时限制,恢复和删除您的信息。