FlexGen，一個在單一 GPU 上運行人工智慧機器人的引擎

FlexGen 是一個引擎，旨在將大型語言模型的推理資源需求減少到單個 GPU。

該新聞是最近發布的 一組研究人員 來自斯坦福大學、加州大學伯克利分校、蘇黎世聯邦理工學院、卡內基梅隆大學經濟學研究生院，以及 Yandex 和 Meta，已經發布了源代碼 un 運行大型語言模型的引擎 在資源有限的系統中。

代號 «FlexGen»，是一個旨在顯著減少 要求 LLM 推理操作的資源。 FlexGen 發佈在 GitHub 上，它只需要 Python 和 PyTorch，但大多數情況下可以與 NVIDIA Tesla T4 或 GeForce RTX 3090 等單個 GPU 一起使用。

例如： 該引擎提供了創建功能的能力，讓人聯想到 ChatGPT 和 Copilot 在配備 175 GB 顯存的 NVIDIA RTX175 遊戲顯卡的普通計算機上運行涵蓋 3090 億個參數的預訓練 OPT-24B 模型。

提到（LLM）模型支持ChatGPT、Copilot等工具的運行。這些是使用數十億個參數並在大量數據上進行訓練的大型模型。

LLM 推理任務的高計算和內存要求通常需要使用高端加速器。

我們很高興公眾對 FlexGen 感到非常興奮。但是，我們的工作仍在準備中，尚未準備好公開發布/公告。從對該項目的早期反饋中，我們意識到該 README 的早期版本和我們的文檔對 FlexGen 的用途不清楚。這是減少 LLM 資源需求的初步努力，但它也有很多限制，並不打算在有足夠資源可用時取代用例。

LLM 推理是一個過程，其中使用語言模型來生成關於輸入文本的預測：它涉及使用語言模型，例如 GPT（生成式預訓練轉換器）等生成模型，來預測最有可能的內容即將發生。在特定輸入捕獲文本後作為響應提供。

關於 FlexGen

該軟件包包括一個用於創建機器人的示例腳本。 這允許用戶 下載一種公開可用的語言模型 並立即開始聊天。

作為基礎，建議使用 Facebook 發布的大型語言模型，在 BookCorpus collections（10 萬本書）、CC-Stories、Pile（OpenSubtitles、Wikipedia、DM Mathematics、HackerNews 等）、Pushshift.io 上進行訓練（基於 Reddit 數據））和 CCNewsV2（新聞檔案）。

該模型涵蓋約 180 億個令牌（800 GB 數據）。使用 33 個 NVIDIA A992 100 GB GPU 運行集群需要 80 天來訓練模型。

在具有單個 NVIDIA T175 GPU (4 GB) 的系統上運行 OPT-16B，FlexGen 引擎展示了比以前提供的解決方案快 100 倍的性能，使大型語言模型的使用更加經濟實惠，並允許它們在沒有專門加速器的系統上運行。

同時，FlexGen 可以擴展以在存在多個 GPU 的情況下並行計算。為了減小模型的大小，使用了額外的參數壓縮方案和模型緩存機制。

目前， FlexGen 僅支持 OPT 語言模型，但在未來，開發者還承諾增加對 BLOOM（176 億參數，支持 46 種語言和 13 種編程語言）、CodeGen（可以生成 22 種編程語言的代碼）和 GLM 的支持。

最後值得一提的是，代碼是用 Python 編寫的，使用 PyTorch 框架，並在 Apache 2.0 許可下分發。

為 有興趣了解更多關於它的信息，您可以查看詳細信息在下面的鏈接中。

DesdeLinux

FlexGen，一種在單個 GPU 上運行 AI 機器人的引擎

關於 FlexGen

發表您的評論取消回复

關於 FlexGen

發表您的評論 取消回复

發表您的評論取消回复