FlexGen, een engine om AI-bots op één GPU te laten draaien

FlexGen is een engine die is gebouwd met als doel de vereisten voor inferentiebronnen van grote taalmodellen terug te brengen tot een enkele GPU.

Het nieuws is onlangs vrijgegeven dat een groep onderzoekers van Stanford University, de University of California in Berkeley, ETH Zürich, de Graduate School of Economics, Carnegie Mellon University, evenals Yandex en Meta hebben de broncode van gepubliceerd un engine voor het uitvoeren van grote taalmodellen in systemen met beperkte middelen.

met codenaam «FlexGen», is een project dat tot doel heeft de vereisten bronnen voor LLM-inferentiebewerkingen. Geplaatst op GitHub, FlexGen vereist alleen Python en PyTorch, maar kan meestal worden gebruikt met een enkele GPU zoals NVIDIA Tesla T4 of GeForce RTX 3090.

Bv de engine biedt de mogelijkheid om functionaliteit te creëren die doet denken aan ChatGPT en Copilot een vooraf getraind OPT-175B-model draaien dat 175 miljard parameters dekt op een gewone computer met een NVIDIA RTX3090 gaming grafische kaart uitgerust met 24 GB videogeheugen.

Vermeld wordt dat (LLM) modellen de werking van tools als ChatGPT en Copilot ondersteunen. Dit zijn grote modellen die miljarden parameters gebruiken en zijn getraind op enorme hoeveelheden gegevens.

De hoge reken- en geheugenvereisten voor LLM-inferentietaken vereisen over het algemeen het gebruik van geavanceerde versnellers.

We zijn blij dat het publiek erg enthousiast is over FlexGen. Ons werk is echter nog in voorbereiding en nog niet klaar voor publieke release/aankondiging. Uit vroege feedback over dit project realiseerden we ons dat vroege versies van deze README en ons document onduidelijk waren over het doel van FlexGen. Dit is een eerste poging om de resourcevereisten van LLM's te verminderen, maar het heeft ook veel beperkingen en is niet bedoeld om use cases te vervangen wanneer er voldoende resources beschikbaar zijn.

LLM-inferentie is een proces waarbij een taalmodel wordt gebruikt om voorspellingen over de invoertekst te genereren: het gaat om het gebruik van een taalmodel, zoals een generatief model zoals een GPT (Generative Pretrained Transformer), om voorspellingen te doen over wat het meest waarschijnlijk is. gebeuren. worden gegeven als een reactie na een specifieke invoer vastgelegde tekst.

Over FlexGen

Het pakket bevat een voorbeeldscript om bots te maken. wat de gebruiker toestaat download een van de openbaar beschikbare taalmodellen en begin meteen met chatten.

Als basis wordt voorgesteld om een groot taalmodel te gebruiken dat is gepubliceerd door Facebook, getraind op de BookCorpus-collecties (10 boeken), CC-Stories, Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews, enz.), Pushshift.io (gebaseerd op in Reddit-gegevens)) en CCNewsV2 (nieuwsarchief).

Het model dekt ongeveer 180 miljard tokens (800 GB aan data). Het kostte 33 dagen om het cluster met 992 NVIDIA A100 80 GB GPU's te laten draaien om het model te trainen.

Met OPT-175B op een systeem met een enkele NVIDIA T4 GPU (16 GB), presteerde de FlexGen-engine tot 100 keer sneller dan eerder aangeboden oplossingen, waardoor het gebruik van grote taalmodellen betaalbaarder werd en ze konden worden uitgevoerd op systemen zonder gespecialiseerde versnellers .

Tegelijkertijd kan FlexGen worden geschaald om berekeningen parallel te laten lopen in de aanwezigheid van meerdere GPU's. Om de grootte van het model te verkleinen, wordt een aanvullend schema voor parametercompressie en een mechanisme voor modelcaching gebruikt.

nog, FlexGen ondersteunt alleen OPT-taalmodellen, maar in de toekomst beloven de ontwikkelaars ook ondersteuning toe te voegen voor BLOOM (176 miljard parameters, ondersteunt 46 talen en 13 programmeertalen), CodeGen (kan code genereren in 22 programmeertalen) en GLM.

Ten slotte is het vermeldenswaard dat de code is geschreven in Python, het PyTorch-framework gebruikt en wordt gedistribueerd onder de Apache 2.0-licentie.

Voor Geïnteresseerd om er meer over te leren, kunt u de details controleren In de volgende link.

DesdeLinux

FlexGen, een engine voor het uitvoeren van AI-bots op een enkele GPU

Over FlexGen

Laat je reactie achter Antwoord annuleren