FlexGen, движок для запуска ботов с искусственным интеллектом на одном графическом процессоре

FlexGen — это механизм, созданный с целью сокращения требований к ресурсам логического вывода для больших языковых моделей до одного графического процессора.

Недавно появилась новость, что группа исследователей из Стэнфордского университета, Калифорнийского университета в Беркли, ETH Zurich, Высшей школы экономики, Университета Карнеги-Меллона, а также Яндекс и Мета опубликовали исходный код un движок для запуска больших языковых моделей в системах с ограниченными ресурсами.

с кодовым названием «FlexGen», это проект, который направлен на значительное снижение требование ресурсы для операций логического вывода LLM. Размещенный на GitHub, FlexGen требует только Python и PyTorch, но в основном его можно использовать с одним графическим процессором, таким как NVIDIA Tesla T4 или GeForce RTX 3090.

Например, движок дает возможность создавать функционал, напоминающий ChatGPT и Copilot запуск предварительно обученной модели OPT-175B, охватывающей 175 миллиардов параметров, на обычном компьютере с игровой видеокартой NVIDIA RTX3090, оснащенной 24 ГБ видеопамяти.

Упоминается, что модели (LLM) поддерживают работу таких инструментов, как ChatGPT и Copilot. Это большие модели, которые используют миллиарды параметров и обучаются на огромном количестве данных.

Высокие требования к вычислительным ресурсам и памяти для задач логического вывода LLM обычно требуют использования высокопроизводительных ускорителей.

Мы рады, что общественность в восторге от FlexGen. Однако наша работа все еще находится в стадии подготовки и еще не готова к публичному выпуску/объявлению. Из ранних отзывов об этом проекте мы поняли, что в ранних версиях этого README и нашего документа неясно было назначение FlexGen. Это предварительная попытка уменьшить требования LLM к ресурсам, но она также имеет много ограничений и не предназначена для замены вариантов использования при наличии достаточных ресурсов.

Вывод LLM — это процесс, в котором языковая модель используется для генерирования прогнозов относительно входного текста: он включает использование языковой модели, такой как генеративная модель, такая как GPT (Generative Pretrained Transformer), для прогнозирования того, что наиболее вероятно. произойдет. предоставляться в качестве ответа после ввода захваченного текста.

О FlexGen

В пакет входит пример скрипта для создания ботов. что позволяет пользователю скачать одну из общедоступных языковых моделей и сразу начать общение.

В качестве базы предлагается использовать большую языковую модель, опубликованную Facebook, обученную на коллекциях BookCorpus (10 тыс. книг), CC-Stories, Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews и др.), Pushshift.io (по данным Reddit)) и CCNewsV2 (архив новостей).

Модель охватывает около 180 миллиардов токенов (800 ГБ данных). Для обучения модели потребовалось 33 дня запуска кластера с 992 графическими процессорами NVIDIA A100 80 ГБ.

Запустив OPT-175B в системе с одним графическим процессором NVIDIA T4 (16 ГБ), движок FlexGen продемонстрировал до 100 раз более высокую производительность по сравнению с ранее предлагаемыми решениями, что сделало использование больших языковых моделей более доступным и позволило запускать их в системах без специализированных ускорителей.

В то же время FlexGen может масштабироваться для распараллеливания вычислений при наличии нескольких графических процессоров. Для уменьшения размера модели используется дополнительная схема сжатия параметров и механизм кэширования модели.

В настоящее время, FlexGen поддерживает только языковые модели OPT., но в будущем разработчики также обещают добавить поддержку BLOOM (176 миллиардов параметров, поддерживает 46 языков и 13 языков программирования), CodeGen (может генерировать код на 22 языках программирования) и GLM.

Наконец, стоит отметить, что код написан на Python, использует фреймворк PyTorch и распространяется под лицензией Apache 2.0.

Для Интересно узнать об этом больше, вы можете проверить подробности По следующей ссылке.

Оставьте свой комментарий Отменить ответ

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

комментарий *

Имя*

Электронная почта*

Принять условия конфиденциальности*

Ответственный за данные: Мигель Анхель Гатон
Назначение данных: контроль спама, управление комментариями.
Легитимация: ваше согласие
Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.

Я хочу получать рассылку новостей

DesdeLinux

FlexGen, движок для запуска ботов с искусственным интеллектом на одном графическом процессоре.

О FlexGen

Оставьте свой комментарий Отменить ответ