A közelmúltban jelent meg az a hír kutatók egy csoportja a Stanford Egyetemen, a Berkeley-i Kaliforniai Egyetemen, az ETH Zürich-ben, a Graduate School of Economics-ban, a Carnegie Mellon Egyetemen, valamint A Yandex és a Meta közzétették a forráskódot un motor nagy nyelvi modellek futtatásához korlátozott erőforrásokkal rendelkező rendszerekben.
kódnévvel A «FlexGen» egy olyan projekt, amelynek célja, hogy jelentősen csökkentse a követelmények erőforrások az LLM következtetési műveletekhez. A GitHubon közzétett FlexGenhez csak Python és PyTorch szükséges, de többnyire egyetlen GPU-val is használható, például NVIDIA Tesla T4 vagy GeForce RTX 3090.
Pl. a motor lehetőséget biztosít a ChatGPT-re és a Copilotra emlékeztető funkciók létrehozására egy 175 milliárd paramétert lefedő, előre betanított OPT-175B modellt futtatni egy normál számítógépen 3090 GB videomemóriával felszerelt NVIDIA RTX24 gamer grafikus kártyával.
Megemlítik, hogy az (LLM) modellek támogatják az olyan eszközök működését, mint a ChatGPT és a Copilot. Ezek nagy modellek, amelyek több milliárd paramétert használnak, és hatalmas mennyiségű adatra vannak kiképezve.
Az LLM következtetési feladatok magas számítási és memóriaigénye általában csúcskategóriás gyorsítók használatát igényli.
Örülünk, hogy a közvélemény nagyon izgatott a FlexGen miatt. Munkánk azonban még előkészítés alatt áll, és még nem áll készen a nyilvános közzétételre/bejelentésre. A projekttel kapcsolatos korai visszajelzésekből rájöttünk, hogy a README korai verziói és a dokumentumunk nem egyértelmű a FlexGen célját illetően. Ez egy előzetes erőfeszítés az LLM-ek erőforrásigényének csökkentésére, de számos korlátja is van, és nem célja, hogy helyettesítse a felhasználási eseteket, amikor elegendő erőforrás áll rendelkezésre.
Az LLM következtetés egy olyan folyamat, amelyben egy nyelvi modellt használnak a bemeneti szövegre vonatkozó előrejelzések generálására: ez magában foglalja egy nyelvi modell, például egy generatív modell, például a GPT (Generative Pretrained Transformer) használatát, hogy előrejelzéseket készítsünk arról, mi a legvalószínűbb. megtörténni. adott bemeneti rögzített szöveg után válaszként kell megadni.
A FlexGenről
A csomag tartalmaz egy minta szkriptet a robotok létrehozásához. amely lehetővé teszi a felhasználó számára töltse le az egyik nyilvánosan elérhető nyelvi modellt és azonnal elkezd chatelni.
Alapként a Facebook által közzétett, a BookCorpus gyűjtemények (10 ezer könyv), a CC-Stories, a Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews stb.), a Pushshift.io-n betanított nagy nyelvi modell használatát javasolják. (a Reddit adatai alapján)) és a CCNewsV2 (hírarchívum).
A modell körülbelül 180 milliárd tokent (800 GB adatot) fed le. A fürt 33 darab NVIDIA A992 100 GB-os GPU-val való futtatása 80 napig tartott a modell betanításához.
Az OPT-175B-t egyetlen NVIDIA T4 GPU-val (16 GB) rendelkező rendszeren futtatva a FlexGen motor akár 100-szor gyorsabb teljesítményt nyújtott, mint a korábban kínált megoldások, így a nagy nyelvű modellek használata megfizethetőbbé vált, és speciális gyorsítók nélküli rendszereken is futhatnak.
Ugyanakkor a FlexGen képes skálázni a számítások párhuzamosítására több GPU jelenlétében. A modell méretének csökkentése érdekében további paramétertömörítési sémát és modell gyorsítótárazási mechanizmust használnak.
Jelenleg A FlexGen csak az OPT nyelvi modelleket támogatja, de a jövőben a fejlesztők azt ígérik, hogy támogatják a BLOOM-ot (176 milliárd paraméter, 46 nyelvet és 13 programozási nyelvet támogat), a CodeGen-t (22 programozási nyelven tud kódot generálni) és a GLM-et.
Végül érdemes megemlíteni, hogy a kód Pythonban íródott, a PyTorch keretrendszert használja, és az Apache 2.0 licenc alatt kerül terjesztésre.
mert Érdekelne többet megtudni róla, ellenőrizheti a részleteket A következő linken.