FlexGen, motor za pokretanje AI botova na jednom GPU-u

FlexGen

FlexGen je motor izgrađen sa svrhom smanjenja zahtjeva za resursima zaključivanja velikih jezičnih modela na jedan GPU.

Nedavno je objavljena vijest da skupina istraživača sa Sveučilišta Stanford, Kalifornijskog sveučilišta u Berkeleyu, ETH Zurich, Ekonomskog fakulteta, Sveučilišta Carnegie Mellon, kao i Yandex i Meta objavili su izvorni kod un motor za pokretanje velikih jezičnih modela u sustavima s ograničenim resursima.

s kodnim imenom «FlexGen» je projekt koji ima za cilj značajno smanjiti zahtjevi resursi za LLM operacije zaključivanja. Objavljeno na GitHubu, FlexGen zahtijeva samo Python i PyTorch, ali se uglavnom može koristiti s jednim GPU-om kao što je NVIDIA Tesla T4 ili GeForce RTX 3090.

Npr. motor pruža mogućnost stvaranja funkcionalnosti koja podsjeća na ChatGPT i Copilot pokretanje unaprijed obučenog modela OPT-175B koji pokriva 175 milijardi parametara na običnom računalu s NVIDIA RTX3090 grafičkom karticom za igre opremljenom s 24 GB video memorije.

Spominje se da (LLM) modeli podržavaju rad alata kao što su ChatGPT i Copilot. To su veliki modeli koji koriste milijarde parametara i obučeni su na ogromnim količinama podataka.

Visoki računalni i memorijski zahtjevi za LLM zadatke zaključivanja općenito zahtijevaju upotrebu vrhunskih akceleratora.

Drago nam je što je javnost doista uzbuđena zbog FlexGena. Međutim, naš je rad još uvijek u pripremi i još nije spreman za javnu objavu/objavu. Iz ranih povratnih informacija o ovom projektu, shvatili smo da su rane verzije ovog README-a i našeg dokumenta bile nejasne u pogledu svrhe FlexGen-a. Ovo je preliminarni pokušaj da se smanje zahtjevi za resursima LLM-a, ali također ima mnoga ograničenja i nije namijenjen zamjeni slučajeva korištenja kada je dovoljno resursa dostupno.

LLM zaključivanje je proces u kojem se jezični model koristi za generiranje predviđanja o ulaznom tekstu: uključuje korištenje jezičnog modela, kao što je generativni model kao što je GPT (Generative Pretrained Transformer), za predviđanje o tome što je najvjerojatnije dogoditi se. pružiti kao odgovor nakon određenog unosa snimljenog teksta.

O FlexGenu

Paket uključuje primjer skripte za stvaranje botova. koji omogućuje korisniku preuzmite jedan od javno dostupnih jezičnih modela i odmah počnite razgovarati.

Kao baza predlaže se korištenje velikog jezičnog modela koji objavljuje Facebook, obučen na zbirkama BookCorpus (10 tisuća knjiga), CC-Stories, Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews itd.), Pushshift.io (na temelju podataka Reddita)) i CCNewsV2 (arhiva vijesti).

Model pokriva oko 180 milijardi tokena (800 GB podataka). Bilo je potrebno 33 dana pokretanja klastera s 992 NVIDIA A100 80 GB GPU-a za treniranje modela.

Pokrećući OPT-175B na sustavu s jednim NVIDIA T4 GPU-om (16 GB), FlexGen motor pokazao je do 100 puta bržu izvedbu od prethodno ponuđenih rješenja, čineći korištenje velikog jezičnog modela pristupačnijim i omogućavajući im rad na sustavima bez specijaliziranih akceleratora.

U isto vrijeme, FlexGen može skalirati kako bi paralelizirao izračune u prisutnosti više GPU-a. Kako bi se smanjila veličina modela, koristi se dodatna shema kompresije parametara i mehanizam predmemoriranja modela.

Trenutno, FlexGen podržava samo OPT jezične modele, ali u budućnosti programeri također obećavaju dodati podršku za BLOOM (176 milijardi parametara, podržava 46 jezika i 13 programskih jezika), CodeGen (može generirati kod na 22 programska jezika) i GLM.

Na kraju je vrijedno spomenuti da je kod napisan u Pythonu, koristi okvir PyTorch i distribuira se pod licencom Apache 2.0.

Za Zanima me saznati više o tome, možete provjeriti pojedinosti U sljedećem linku.


Ostavite svoj komentar

Vaša email adresa neće biti objavljen. Obavezna polja su označena s *

*

*

  1. Za podatke odgovoran: Miguel Ángel Gatón
  2. Svrha podataka: Kontrola neželjene pošte, upravljanje komentarima.
  3. Legitimacija: Vaš pristanak
  4. Komunikacija podataka: Podaci se neće dostavljati trećim stranama, osim po zakonskoj obvezi.
  5. Pohrana podataka: Baza podataka koju hostira Occentus Networks (EU)
  6. Prava: U bilo kojem trenutku možete ograničiti, oporaviti i izbrisati svoje podatke.