FlexGen, motor za pokretanje AI robota na jednom GPU

FlexGen je motor izgrađen sa svrhom smanjenja zahtjeva za resursima zaključivanja velikih jezičnih modela na jedan GPU.

Nedavno je objavljena vijest da skupina istraživača sa Sveučilišta Stanford, Kalifornijskog sveučilišta u Berkeleyu, ETH Zurich, Ekonomskog fakulteta, Sveučilišta Carnegie Mellon, kao i Yandex i Meta objavili su izvorni kod un motor za pokretanje velikih jezičnih modela u sustavima s ograničenim resursima.

s kodnim imenom «FlexGen» je projekt koji ima za cilj značajno smanjiti zahtjevi resursi za LLM operacije zaključivanja. Objavljeno na GitHubu, FlexGen zahtijeva samo Python i PyTorch, ali se uglavnom može koristiti s jednim GPU-om kao što je NVIDIA Tesla T4 ili GeForce RTX 3090.

Npr. motor pruža mogućnost stvaranja funkcionalnosti koja podsjeća na ChatGPT i Copilot pokretanje unaprijed obučenog modela OPT-175B koji pokriva 175 milijardi parametara na običnom računalu s NVIDIA RTX3090 grafičkom karticom za igre opremljenom s 24 GB video memorije.

Spominje se da (LLM) modeli podržavaju rad alata kao što su ChatGPT i Copilot. To su veliki modeli koji koriste milijarde parametara i obučeni su na ogromnim količinama podataka.

Visoki računalni i memorijski zahtjevi za LLM zadatke zaključivanja općenito zahtijevaju upotrebu vrhunskih akceleratora.

Drago nam je što je javnost doista uzbuđena zbog FlexGena. Međutim, naš je rad još uvijek u pripremi i još nije spreman za javnu objavu/objavu. Iz ranih povratnih informacija o ovom projektu, shvatili smo da su rane verzije ovog README-a i našeg dokumenta bile nejasne u pogledu svrhe FlexGen-a. Ovo je preliminarni pokušaj da se smanje zahtjevi za resursima LLM-a, ali također ima mnoga ograničenja i nije namijenjen zamjeni slučajeva korištenja kada je dovoljno resursa dostupno.

LLM zaključivanje je proces u kojem se jezični model koristi za generiranje predviđanja o ulaznom tekstu: uključuje korištenje jezičnog modela, kao što je generativni model kao što je GPT (Generative Pretrained Transformer), za predviđanje o tome što je najvjerojatnije dogoditi se. pružiti kao odgovor nakon određenog unosa snimljenog teksta.

O FlexGenu

Paket uključuje primjer skripte za stvaranje botova. koji omogućuje korisniku preuzmite jedan od javno dostupnih jezičnih modela i odmah počnite razgovarati.

Kao baza predlaže se korištenje velikog jezičnog modela koji objavljuje Facebook, obučen na zbirkama BookCorpus (10 tisuća knjiga), CC-Stories, Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews itd.), Pushshift.io (na temelju podataka Reddita)) i CCNewsV2 (arhiva vijesti).

Model pokriva oko 180 milijardi tokena (800 GB podataka). Bilo je potrebno 33 dana pokretanja klastera s 992 NVIDIA A100 80 GB GPU-a za treniranje modela.

Pokrećući OPT-175B na sustavu s jednim NVIDIA T4 GPU-om (16 GB), FlexGen motor pokazao je do 100 puta bržu izvedbu od prethodno ponuđenih rješenja, čineći korištenje velikog jezičnog modela pristupačnijim i omogućavajući im rad na sustavima bez specijaliziranih akceleratora.

U isto vrijeme, FlexGen može skalirati kako bi paralelizirao izračune u prisutnosti više GPU-a. Kako bi se smanjila veličina modela, koristi se dodatna shema kompresije parametara i mehanizam predmemoriranja modela.

Trenutno, FlexGen podržava samo OPT jezične modele, ali u budućnosti programeri također obećavaju dodati podršku za BLOOM (176 milijardi parametara, podržava 46 jezika i 13 programskih jezika), CodeGen (može generirati kod na 22 programska jezika) i GLM.

Na kraju je vrijedno spomenuti da je kod napisan u Pythonu, koristi okvir PyTorch i distribuira se pod licencom Apache 2.0.

Za Zanima me saznati više o tome, možete provjeriti pojedinosti U sljedećem linku.

DesdeLinux

FlexGen, motor za pokretanje AI botova na jednom GPU-u

O FlexGenu

Ostavite svoj komentar Otkaži odgovor