FlexGen, mootor AI-robotite käitamiseks ühel GPU-l

FlexGen on mootor, mis on loodud selleks, et vähendada suurte keelemudelite järeldusressursivajadust ühele GPU-le.

Hiljuti avaldati uudis, mis teadlaste rühm Stanfordi ülikoolist, California ülikoolist Berkeleys, ETH Zürichist, Carnegie Melloni ülikooli majanduskoolist ja samuti Yandex ja Meta on avaldanud lähtekoodi un mootor suurte keelemudelite käitamiseks piiratud ressurssidega süsteemides.

koodnimega «FlexGen» on projekt, mille eesmärk on oluliselt vähendada nõuded ressursid LLM-i järeldusoperatsioonide jaoks. GitHubi postitatud FlexGen nõuab ainult Pythonit ja PyTorchi, kuid enamasti saab seda kasutada ühe GPU-ga, nagu NVIDIA Tesla T4 või GeForce RTX 3090.

Nt mootor annab võimaluse luua funktsionaalsust, mis meenutab ChatGPT ja Copilot eelkoolitatud OPT-175B mudeli kasutamine, mis katab 175 miljardit parameetrit tavalises arvutis NVIDIA RTX3090 mängugraafikakaardiga, mis on varustatud 24 GB videomäluga.

Mainitakse, et (LLM) mudelid toetavad selliste tööriistade nagu ChatGPT ja Copilot tööd. Need on suured mudelid, mis kasutavad miljardeid parameetreid ja on treenitud tohutul hulgal andmemahtudel.

Kõrged arvutus- ja mälunõuded LLM-i järeldusülesannete jaoks nõuavad üldiselt tipptasemel kiirendite kasutamist.

Meil on hea meel, et avalikkus on FlexGenist tõeliselt põnevil. Meie töö on aga alles ettevalmistamisel ega ole veel avalikuks avaldamiseks/väljakuulutamiseks valmis. Selle projekti varajase tagasiside põhjal mõistsime, et selle README ja meie dokumendi varased versioonid olid FlexGeni eesmärgi osas ebaselged. See on esialgne jõupingutus LLM-ide ressursivajaduse vähendamiseks, kuid sellel on ka palju piiranguid ja see ei ole mõeldud piisavate ressursside olemasolul kasutusjuhtude asendamiseks.

LLM-i järeldus on protsess, mille käigus kasutatakse sisendteksti ennustuste loomiseks keelemudelit: see hõlmab keelemudeli, näiteks generatiivse mudeli, nagu GPT (Generative Pretrained Transformer) kasutamist, et teha ennustusi selle kohta, mis on kõige tõenäolisem. juhtub. esitatakse vastusena pärast konkreetse sisendi jäädvustatud teksti.

FlexGeni kohta

Pakett sisaldab näidisskripti robotite loomiseks. mis võimaldab kasutajal laadige alla üks avalikult kättesaadavatest keelemudelitest ja hakka kohe vestlema.

Alusena tehakse ettepanek kasutada Facebooki avaldatud suurt keelemudelit, mis on koolitatud BookCorpuse kogudes (10 tuhat raamatut), CC-Stories, Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews jne), Pushshift.io (Redditi andmete põhjal)) ja CCNewsV2 (uudistearhiiv).

Mudel hõlmab umbes 180 miljardit luba (800 GB andmeid). Mudeli koolitamiseks kulus 33 NVIDIA A992 100 GB GPU-ga klastri käitamiseks 80 päeva.

Käitades OPT-175B süsteemis, millel on üks NVIDIA T4 GPU (16 GB), näitas FlexGeni mootor kuni 100 korda kiiremat jõudlust kui varem pakutud lahendused, muutes suurte keelemudelite kasutamise taskukohasemaks ja võimaldades neil töötada süsteemides ilma spetsiaalsete kiirenditeta.

Samal ajal saab FlexGen skaleerida arvutuste paralleelseks muutmiseks mitme GPU juuresolekul. Mudeli suuruse vähendamiseks kasutatakse täiendavat parameetrite tihendamise skeemi ja mudeli vahemällu salvestamise mehhanismi.

Praegu FlexGen toetab ainult OPT keelemudeleid, kuid tulevikus lubavad arendajad lisada ka BLOOMi (176 miljardit parameetrit, toetab 46 keelt ja 13 programmeerimiskeelt), CodeGeni (saab genereerida koodi 22 programmeerimiskeeles) ja GLM-i toe.

Lõpuks tasub mainida, et kood on kirjutatud Pythonis, kasutab PyTorchi raamistikku ja seda levitatakse Apache 2.0 litsentsi all.

Jaoks Huvi selle kohta rohkem teada saada, saate üksikasju kontrollida Järgmisel lingil.

DesdeLinux

FlexGen, mootor AI-robotite käitamiseks ühel GPU-l

FlexGeni kohta

Jäta oma kommentaar Tühista vastus