Nedavno je objavljena vijest da skupina istraživača sa Sveučilišta Stanford, Kalifornijskog sveučilišta u Berkeleyu, ETH Zurich, Ekonomskog fakulteta, Sveučilišta Carnegie Mellon, kao i Yandex i Meta objavili su izvorni kod un motor za pokretanje velikih jezičnih modela u sustavima s ograničenim resursima.
s kodnim imenom «FlexGen» je projekt koji ima za cilj značajno smanjiti zahtjevi resursi za LLM operacije zaključivanja. Objavljeno na GitHubu, FlexGen zahtijeva samo Python i PyTorch, ali se uglavnom može koristiti s jednim GPU-om kao što je NVIDIA Tesla T4 ili GeForce RTX 3090.
Npr. motor pruža mogućnost stvaranja funkcionalnosti koja podsjeća na ChatGPT i Copilot pokretanje unaprijed obučenog modela OPT-175B koji pokriva 175 milijardi parametara na običnom računalu s NVIDIA RTX3090 grafičkom karticom za igre opremljenom s 24 GB video memorije.
Spominje se da (LLM) modeli podržavaju rad alata kao što su ChatGPT i Copilot. To su veliki modeli koji koriste milijarde parametara i obučeni su na ogromnim količinama podataka.
Visoki računalni i memorijski zahtjevi za LLM zadatke zaključivanja općenito zahtijevaju upotrebu vrhunskih akceleratora.
Drago nam je što je javnost doista uzbuđena zbog FlexGena. Međutim, naš je rad još uvijek u pripremi i još nije spreman za javnu objavu/objavu. Iz ranih povratnih informacija o ovom projektu, shvatili smo da su rane verzije ovog README-a i našeg dokumenta bile nejasne u pogledu svrhe FlexGen-a. Ovo je preliminarni pokušaj da se smanje zahtjevi za resursima LLM-a, ali također ima mnoga ograničenja i nije namijenjen zamjeni slučajeva korištenja kada je dovoljno resursa dostupno.
LLM zaključivanje je proces u kojem se jezični model koristi za generiranje predviđanja o ulaznom tekstu: uključuje korištenje jezičnog modela, kao što je generativni model kao što je GPT (Generative Pretrained Transformer), za predviđanje o tome što je najvjerojatnije dogoditi se. pružiti kao odgovor nakon određenog unosa snimljenog teksta.
O FlexGenu
Paket uključuje primjer skripte za stvaranje botova. koji omogućuje korisniku preuzmite jedan od javno dostupnih jezičnih modela i odmah počnite razgovarati.
Kao baza predlaže se korištenje velikog jezičnog modela koji objavljuje Facebook, obučen na zbirkama BookCorpus (10 tisuća knjiga), CC-Stories, Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews itd.), Pushshift.io (na temelju podataka Reddita)) i CCNewsV2 (arhiva vijesti).
Model pokriva oko 180 milijardi tokena (800 GB podataka). Bilo je potrebno 33 dana pokretanja klastera s 992 NVIDIA A100 80 GB GPU-a za treniranje modela.
Pokrećući OPT-175B na sustavu s jednim NVIDIA T4 GPU-om (16 GB), FlexGen motor pokazao je do 100 puta bržu izvedbu od prethodno ponuđenih rješenja, čineći korištenje velikog jezičnog modela pristupačnijim i omogućavajući im rad na sustavima bez specijaliziranih akceleratora.
U isto vrijeme, FlexGen može skalirati kako bi paralelizirao izračune u prisutnosti više GPU-a. Kako bi se smanjila veličina modela, koristi se dodatna shema kompresije parametara i mehanizam predmemoriranja modela.
Trenutno, FlexGen podržava samo OPT jezične modele, ali u budućnosti programeri također obećavaju dodati podršku za BLOOM (176 milijardi parametara, podržava 46 jezika i 13 programskih jezika), CodeGen (može generirati kod na 22 programska jezika) i GLM.
Na kraju je vrijedno spomenuti da je kod napisan u Pythonu, koristi okvir PyTorch i distribuira se pod licencom Apache 2.0.
Za Zanima me saznati više o tome, možete provjeriti pojedinosti U sljedećem linku.