FlexGen, moottori AI-bottien ajamiseen yhdellä GPU:lla

FlexGen on moottori, joka on rakennettu vähentämään suurten kielimallien päättelyresurssivaatimukset yhdeksi GPU:ksi.

Uutiset julkaistiin äskettäin ryhmä tutkijoita Stanfordin yliopistosta, Kalifornian yliopistosta Berkeleystä, ETH Zürichistä, Graduate School of Economicsista, Carnegie Mellonin yliopistosta sekä Yandex ja Meta ovat julkaisseet lähdekoodin un moottori suurten kielimallien ajamiseen järjestelmissä, joissa on rajalliset resurssit.

koodinimellä «FlexGen» on projekti, jonka tavoitteena on vähentää merkittävästi requisitos resursseja LLM-päättelytoimintoihin. GitHubissa julkaistu FlexGen vaatii vain Pythonin ja PyTorchin, mutta sitä voidaan käyttää enimmäkseen yhden GPU:n, kuten NVIDIA Tesla T4:n tai GeForce RTX 3090:n, kanssa.

Esimerkiksi moottori tarjoaa mahdollisuuden luoda ChatGPT:tä ja Copilotia muistuttavia toimintoja käyttää esikoulutettua OPT-175B-mallia, joka kattaa 175 miljardia parametria tavallisessa tietokoneessa NVIDIA RTX3090 -pelinäytönohjaimella, jossa on 24 Gt videomuistia.

Mainitaan, että (LLM) mallit tukevat työkalujen, kuten ChatGPT ja Copilot, toimintaa. Nämä ovat suuria malleja, jotka käyttävät miljardeja parametreja ja jotka on koulutettu valtaviin tietomääriin.

LLM-päättelytehtävien korkeat laskenta- ja muistivaatimukset edellyttävät yleensä huippuluokan kiihdyttimien käyttöä.

Olemme iloisia, että yleisö on todella innoissaan FlexGenistä. Työmme on kuitenkin vielä valmisteluvaiheessa, eikä se ole vielä valmis julkistettavaksi/julkaistavaksi. Tätä projektia koskevan varhaisen palautteen perusteella ymmärsimme, että tämän README:n varhaiset versiot ja asiakirjamme olivat epäselviä FlexGenin tarkoituksesta. Tämä on alustava pyrkimys vähentää LLM:ien resurssivaatimuksia, mutta sillä on myös monia rajoituksia, eikä sen ole tarkoitus korvata käyttötapauksia, kun resursseja on riittävästi.

LLM-päätelmä on prosessi, jossa kielimallia käytetään ennusteiden luomiseen syöttötekstistä: siinä käytetään kielimallia, kuten generatiivista mallia, kuten GPT (Generative Pretrained Transformer), ennusteiden tekemiseen siitä, mikä on todennäköisintä. tapahtua. toimitetaan vastauksena tietyn syötteen kaapatun tekstin jälkeen.

Tietoja FlexGenistä

Paketti sisältää esimerkkiskriptin botien luomiseen. joka sallii käyttäjälle lataa jokin julkisesti saatavilla olevista kielimalleista ja aloita chattailu heti.

Pohjaksi ehdotetaan käytettäväksi Facebookin julkaisemaa suurta kielimallia, joka on koulutettu BookCorpus-kokoelmiin (10 tuhatta kirjaa), CC-Stories, Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews jne.), Pushshift.io (perustuu Reddit-tietoihin)) ja CCNewsV2 (uutisarkisto).

Malli kattaa noin 180 miljardia tokenia (800 Gt dataa). Mallin kouluttaminen kesti 33 päivää, kun klusteria käytettiin 992 NVIDIA A100 80 Gt:n grafiikkasuorittimella.

OPT-175B:tä käyttävä järjestelmä, jossa on yksi NVIDIA T4 GPU (16 Gt), FlexGen-moottori osoitti jopa 100 kertaa nopeamman suorituskyvyn kuin aiemmin tarjotut ratkaisut, mikä teki suurten kielimallien käytöstä edullisempaa ja mahdollistaa niiden käytön järjestelmissä, joissa ei ole erikoiskiihdyttimiä.

Samanaikaisesti FlexGen voi skaalata ja rinnastaa laskelmat useiden grafiikkasuorittimien läsnä ollessa. Mallin koon pienentämiseksi käytetään lisäparametrien pakkausjärjestelmää ja mallin välimuistimekanismia.

tällä hetkellä, FlexGen tukee vain OPT-kielimalleja, mutta tulevaisuudessa kehittäjät lupaavat myös lisätä tuen BLOOMille (176 miljardia parametria, tukee 46 kieltä ja 13 ohjelmointikieltä), CodeGenille (voi luoda koodia 22 ohjelmointikielellä) ja GLM:lle.

Lopuksi on syytä mainita, että koodi on kirjoitettu Pythonilla, käyttää PyTorch-kehystä ja sitä jaetaan Apache 2.0 -lisenssillä.

Varten Kiinnostaa tietää lisää aiheesta, voit tarkistaa yksityiskohdat Seuraavassa linkissä.

DesdeLinux

FlexGen, moottori AI-bottien ajamiseen yhdellä GPU:lla

Tietoja FlexGenistä

Jätä kommentti Peruuta vastaus