FlexGen, motor za zagon robotov z umetno inteligenco na eni GPE

FlexGen je motor, zgrajen z namenom zmanjšanja zahtev po virih sklepanja velikih jezikovnih modelov na en sam GPE.

Novica je bila objavljena pred kratkim skupina raziskovalcev z Univerze Stanford, Kalifornijske univerze v Berkeleyju, ETH Zürich, Podiplomske šole za ekonomijo, Univerze Carnegie Mellon, kot tudi Yandex in Meta sta objavila izvorno kodo un motor za izvajanje velikih jezikovnih modelov v sistemih z omejenimi viri.

s kodnim imenom «FlexGen» je projekt, katerega namen je bistveno zmanjšati zahteve vire za operacije sklepanja LLM. Objavljeno na GitHub, FlexGen zahteva samo Python in PyTorch, vendar ga je večinoma mogoče uporabljati z enim GPE-jem, kot sta NVIDIA Tesla T4 ali GeForce RTX 3090.

Npr motor omogoča ustvarjanje funkcionalnosti, ki spominja na ChatGPT in Copilot poganjanje vnaprej pripravljenega modela OPT-175B, ki pokriva 175 milijard parametrov, na običajnem računalniku z igralno grafično kartico NVIDIA RTX3090, opremljeno s 24 GB video pomnilnika.

Omenjeno je, da (LLM) modeli podpirajo delovanje orodij, kot sta ChatGPT in Copilot. To so veliki modeli, ki uporabljajo milijarde parametrov in so usposobljeni za ogromne količine podatkov.

Visoke računalniške in pomnilniške zahteve za naloge sklepanja LLM na splošno zahtevajo uporabo vrhunskih pospeševalnikov.

Veseli nas, da je javnost resnično navdušena nad FlexGen. Vendar je naše delo še v pripravi in še ni pripravljeno za javno objavo/objavo. Iz zgodnjih povratnih informacij o tem projektu smo ugotovili, da prve različice tega README in našega dokumenta niso bile jasne glede namena FlexGen. To je predhodno prizadevanje za zmanjšanje zahtev po virih LLM-jev, vendar ima tudi številne omejitve in ni namenjeno nadomestitvi primerov uporabe, ko je na voljo dovolj virov.

LLM sklepanje je postopek, v katerem se jezikovni model uporablja za generiranje napovedi o vhodnem besedilu: vključuje uporabo jezikovnega modela, kot je generativni model, kot je GPT (Generative Pretrained Transformer), za napovedovanje o tem, kaj je najverjetneje zgoditi se. na voljo kot odgovor po določenem vnosu zajetega besedila.

O FlexGen

Paket vključuje vzorčni skript za ustvarjanje botov. ki uporabniku omogoča prenesite enega od javno dostopnih jezikovnih modelov in takoj začnite klepetati.

Kot osnovo je predlagana uporaba velikega jezikovnega modela, ki ga je izdal Facebook, usposobljen na zbirkah BookCorpus (10 tisoč knjig), CC-Stories, Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews itd.), Pushshift.io (na podlagi podatkov Reddit)) in CCNewsV2 (arhiv novic).

Model pokriva približno 180 milijard žetonov (800 GB podatkov). Za usposabljanje modela je bilo potrebnih 33 dni delovanja gruče z 992 grafičnimi procesorji NVIDIA A100 80 GB.

Z izvajanjem OPT-175B v sistemu z enim GPE NVIDIA T4 (16 GB) je motor FlexGen pokazal do 100-krat hitrejšo zmogljivost od predhodno ponujenih rešitev, zaradi česar je uporaba velikih jezikovnih modelov cenovno dostopnejša in jim omogoča delovanje v sistemih brez specializiranih pospeševalnikov.

Hkrati se lahko FlexGen poveča za paralelizacijo izračunov v prisotnosti več grafičnih procesorjev. Za zmanjšanje velikosti modela se uporablja dodatna shema stiskanja parametrov in mehanizem predpomnjenja modela.

Trenutno FlexGen podpira samo jezikovne modele OPT, v prihodnosti pa razvijalci obljubljajo tudi podporo za BLOOM (176 milijard parametrov, podpira 46 jezikov in 13 programskih jezikov), CodeGen (lahko ustvari kodo v 22 programskih jezikih) in GLM.

Na koncu velja omeniti, da je koda napisana v Pythonu, uporablja okvir PyTorch in se distribuira pod licenco Apache 2.0.

Za Zanima me, da bi izvedeli več o tem, lahko preverite podrobnosti V naslednji povezavi.

DesdeLinux

FlexGen, motor za poganjanje botov z umetno inteligenco na eni GPU

O FlexGen

Pustite svoj komentar Prekliči odgovor