FlexGen, механізм для запуску ботів ШІ на одному GPU

FlexGen — це механізм, створений з метою зменшення вимог до ресурсів логічного висновку для великих мовних моделей до одного GPU.

Нещодавно була опублікована новина група дослідників Стенфордського університету, Каліфорнійського університету в Берклі, ETH Zurich, Вищої школи економіки Університету Карнегі-Меллона, а також Яндекс і Мета опублікували вихідний код un двигун для запуску великих мовних моделей в системах з обмеженими ресурсами.

з кодовою назвою «FlexGen» — це проект, спрямований на суттєве скорочення вимога ресурси для операцій висновку LLM. Опублікований на GitHub, FlexGen потребує лише Python і PyTorch, але здебільшого його можна використовувати з одним графічним процесором, таким як NVIDIA Tesla T4 або GeForce RTX 3090.

Наприклад, двигун надає можливість створювати функціональність, що нагадує ChatGPT і Copilot запуск попередньо підготовленої моделі OPT-175B із 175 мільярдами параметрів на звичайному комп’ютері з ігровою відеокартою NVIDIA RTX3090, оснащеною 24 ГБ відеопам’яті.

Згадується, що моделі (LLM) підтримують роботу таких інструментів, як ChatGPT і Copilot. Це великі моделі, які використовують мільярди параметрів і навчаються на величезних обсягах даних.

Високі вимоги до обчислень і пам'яті для завдань логічного висновку LLM зазвичай вимагають використання високоякісних прискорювачів.

Ми раді, що громадськість справді захоплена FlexGen. Однак наша робота все ще готується і ще не готова для публічного випуску/оголошення. З перших відгуків про цей проект ми зрозуміли, що ранні версії цього README та нашого документа не зрозуміли мети FlexGen. Це попередня спроба зменшити вимоги до ресурсів LLM, але вона також має багато обмежень і не призначена для заміни випадків використання, коли доступні достатні ресурси.

Висновок LLM – це процес, у якому мовна модель використовується для генерування передбачень щодо вхідного тексту: це передбачає використання мовної моделі, такої як генеративна модель, наприклад GPT (Generative Pretrained Transformer), щоб робити прогнози щодо того, що найімовірніше статися. надаватися як відповідь після певного введення захопленого тексту.

Про FlexGen

Пакет містить зразок сценарію для створення ботів. що дозволяє користувачеві завантажити одну з загальнодоступних мовних моделей і починайте спілкуватися відразу.

В якості бази пропонується використовувати велику мовну модель, видану Facebook, навчену на колекціях BookCorpus (10 тис. книг), CC-Stories, Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews та ін.), Pushshift.io (на основі даних Reddit)) і CCNewsV2 (архів новин).

Модель охоплює близько 180 мільярдів токенів (800 ГБ даних). Для навчання моделі знадобилося 33 дні роботи кластера з 992 графічним процесором NVIDIA A100 80 ГБ.

Запустивши OPT-175B у системі з одним графічним процесором NVIDIA T4 (16 ГБ), механізм FlexGen продемонстрував до 100 разів більшу продуктивність, ніж раніше пропоновані рішення, що зробило використання великої мовної моделі більш доступним і дозволило їм працювати в системах без спеціалізованих прискорювачів.

У той же час FlexGen може масштабуватися для розпаралелювання обчислень за наявності кількох графічних процесорів. Для зменшення розміру моделі використовується додаткова схема стиснення параметрів і механізм кешування моделі.

В даний час, FlexGen підтримує лише мовні моделі OPT, але в майбутньому розробники також обіцяють додати підтримку BLOOM (176 мільярдів параметрів, підтримує 46 мов і 13 мов програмування), CodeGen (може генерувати код на 22 мовах програмування) і GLM.

Насамкінець варто згадати, що код написаний на Python, використовує фреймворк PyTorch і поширюється за ліцензією Apache 2.0.

Для Цікаво дізнатися більше про це, Ви можете перевірити деталі У наступному посиланні.

Залиште свій коментар Скасувати відповідь

Ваша електронна адреса не буде опублікований. Обов'язкові для заповнення поля позначені *

коментар *

Ім'я*

електронна пошта*

Я приймаю умови конфіденційності*

Відповідальний за дані: Мігель Анхель Гатон
Призначення даних: Контроль спаму, управління коментарями.
Легітимація: Ваша згода
Передача даних: Дані не передаватимуться третім особам, за винятком юридичних зобов’язань.
Зберігання даних: База даних, розміщена в мережі Occentus Networks (ЄС)
Права: Ви можете будь-коли обмежити, відновити та видалити свою інформацію.

Я хочу отримувати бюлетень

DesdeLinux

FlexGen, рушій для запуску ШІ-ботів на одному GPU

Про FlexGen

Залиште свій коментар Скасувати відповідь