FlexGen, un motor per executar bots d'IA en una sola GPU

FlexGen és un motor creat amb el propòsit de reduir els requisits de recursos d'inferència de models de llenguatge grans a una GPU

Es va donar a conèixer fa poc la notícia que un grup d'investigadors de la Universitat de Stanford, la Universitat de Califòrnia a Berkeley, ETH Zurich, l'Escola Superior d'Economia, la Universitat Carnegie Mellon, així com Yandex i Meta, han publicat el codi font de un motor per executar grans models de llenguatge en sistemes amb recursos limitats.

Amb nom clau «FlexGen», és un projecte que té com a objectiu reduir significativament els requisits recursos per a les operacions d'inferència LLM. Publicat a GitHub , FlexGen només requereix Python i PyTorch però sobretot es pot utilitzar amb una sola GPU com NVIDIA Tesla T4 o GeForce RTX 3090.

Per exemple, el motor brinda la capacitat de crear una funcionalitat que recorda ChatGPT i Copilot en executar un model OPT-175B preentrenat que cobreix 175 mil milions de paràmetres en un ordinador normal amb una targeta gràfica per a jocs NVIDIA RTX3090 equipada amb 24 GB de memòria de vídeo.

S'esmenta que els models de (LLM) donen suport al funcionament d'eines com ChatGPT i Copilot. Aquests són models extensos que usen milers de milions de paràmetres i estan entrenats en grans quantitats de dades.

Els alts requisits computacionals i de memòria per a tasques d'inferència de LLM generalment requereixen l'ús d'acceleradors d'alta gamma.

Estem contents que el públic estigui realment entusiasmat amb FlexGen. Tot i això, la nostra feina encara està en preparació i encara no està llesta per al seu llançament/anunci públic. Gràcies als primers comentaris sobre aquest projecte, ens vam adonar que les primeres versions d'aquest LLEGIU i el nostre document no tenien clar el propòsit de FlexGen. Aquest és un esforç preliminar per reduir els requisits de recursos dels LLM, però també té moltes limitacions i no pretén reemplaçar els casos dús quan hi ha prou recursos disponibles.

La inferència LLM és un procés en què es fa servir un model de llenguatge per generar prediccions sobre el text d'entrada: implica l'ús d'un model de llenguatge, com un model generatiu com un GPT (Transformador preentrenat generatiu), per fer prediccions sobre el que és més probable que passi. proporcionar-se com a resposta després d'un text capturat d'entrada específic.

Sobre FlexGen

El paquet inclou un script d'exemple per crear bots que permet a l'usuari descarregar un dels models de llenguatge disponibles públicament i començar a xatejar immediatament.

Com a base, es proposa utilitzar un gran model de llenguatge publicat per Facebook, entrenat a les col·leccions BookCorpus (10 mil llibres), CC-Stories, Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews, etc.), Pushshift.io (basat en dades de Reddit)) i CCNewsV2 (arxiu de notícies).

El model cobreix al voltant de 180 mil milions de tokens (800 GB de dades). Es van necessitar 33 dies de funcionament del clúster amb 992 GPU NVIDIA A100 de 80 GB per entrenar el model.

En executar OPT-175B en un sistema amb una sola GPU NVIDIA T4 (16 GB), el motor FlexGen va demostrar un rendiment fins a 100 vegades més ràpid que les solucions ofertes anteriorment, cosa que fa que l'ús de models de llenguatge gran sigui més assequible i els permet executar-se en sistemes sense acceleradors especialitzats.

Alhora, FlexGen pot escalar per paral·lelitzar els càlculs en presència de diverses GPU. Per reduir la mida del model, s'utilitzen un esquema de compressió de paràmetres addicional i un mecanisme d'emmagatzematge a la memòria cau del model.

Actualment, FlexGen només admet models de llenguatge OPT, però en el futur, els desenvolupadors també prometen afegir suport per a BLOOM (176 mil milions de paràmetres, admet 46 idiomes i 13 llenguatges de programació), CodeGen (pot generar codi en 22 llenguatges de programació) i GLM.

Finalment cal esmentar que el codi està escrit a Python, utilitza el marc PyTorch i es distribueix sota la llicència Apache 2.0.

Per als interessats a poder conèixer més sobre això, Poden consultar els detalls en el següent enllaç.

DesdeLinux

FlexGen, un motor per executar bots d'IA en una sola GPU

Sobre FlexGen

Deixa el teu comentari Cancel lar la resposta