FlexGen, motor za pokretanje AI botova na jednom GPU-u

FlexGen

FlexGen je motor napravljen sa svrhom da smanji zahtjeve za resursima zaključivanja velikih jezičkih modela na jedan GPU.

Nedavno je objavljena vijest o tome grupa istraživača sa Univerziteta Stanford, Univerziteta Kalifornije u Berkliju, ETH Zurich, Fakulteta ekonomije, Univerziteta Carnegie Mellon, kao i Yandex i Meta, objavili su izvorni kod un motor za pokretanje velikih jezičkih modela u sistemima sa ograničenim resursima.

sa kodnim imenom «FlexGen», je projekat koji ima za cilj značajno smanjenje zahtjevi resursi za LLM operacije zaključivanja. Objavljeno na GitHubu, FlexGen zahtijeva samo Python i PyTorch, ali se uglavnom može koristiti sa jednim GPU-om kao što je NVIDIA Tesla T4 ili GeForce RTX 3090.

Na primjer, motor pruža mogućnost kreiranja funkcionalnosti koja podsjeća na ChatGPT i Copilot pokreće prethodno obučeni model OPT-175B koji pokriva 175 milijardi parametara na običnom računaru sa NVIDIA RTX3090 grafičkom karticom za igre opremljenom sa 24 GB video memorije.

Spominje se da (LLM) modeli podržavaju rad alata kao što su ChatGPT i Copilot. Ovo su veliki modeli koji koriste milijarde parametara i obučeni su na ogromnim količinama podataka.

Visoki računarski i memorijski zahtjevi za LLM zadatke zaključivanja općenito zahtijevaju upotrebu vrhunskih akceleratora.

Drago nam je da je javnost zaista uzbuđena zbog FlexGena. Međutim, naš rad je još uvijek u pripremi i još nije spreman za javno objavljivanje/objavu. Iz ranih povratnih informacija o ovom projektu, shvatili smo da rane verzije ovog README-a i našeg dokumenta nisu bile jasne o svrsi FlexGen-a. Ovo je preliminarni napor da se smanje zahtjevi za resursima LLM-a, ali također ima mnoga ograničenja i nije namijenjena zamjeni slučajeva korištenja kada je dovoljno resursa na raspolaganju.

LLM zaključivanje je proces u kojem se jezički model koristi za generiranje predviđanja o ulaznom tekstu: uključuje korištenje jezičkog modela, kao što je generativni model kao što je GPT (Generative Pretrained Transformer), da se napravi predviđanja o tome što je najvjerovatnije Da se desi. biti dostavljen kao odgovor nakon određenog unesenog snimljenog teksta.

O FlexGen-u

Paket uključuje primjer skripte za kreiranje botova. što omogućava korisniku preuzmite jedan od javno dostupnih jezičkih modela i odmah počnite razgovarati.

Kao osnova, predlaže se korištenje velikog jezičkog modela koji je objavio Facebook, obučen na zbirkama BookCorpus (10 hiljada knjiga), CC-Stories, Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews, itd.), Pushshift.io (na osnovu podataka na Redditu)) i CCNewsV2 (arhiva vijesti).

Model pokriva oko 180 milijardi tokena (800 GB podataka). Bilo je potrebno 33 dana pokretanja klastera sa 992 NVIDIA A100 80 GB GPU-a za obuku modela.

Pokrećući OPT-175B na sistemu sa jednim NVIDIA T4 GPU (16 GB), FlexGen motor je pokazao do 100x brže performanse od prethodno ponuđenih rešenja, čineći upotrebu modela velikih jezika pristupačnijim i omogućavajući im da rade na sistemima bez specijalizovanih akceleratora.

U isto vrijeme, FlexGen može skalirati kako bi paralelizirao proračune u prisustvu više GPU-ova. Da bi se smanjila veličina modela, koriste se dodatna šema kompresije parametara i mehanizam keširanja modela.

Trenutno, FlexGen podržava samo OPT jezičke modele, ali u budućnosti programeri također obećavaju da će dodati podršku za BLOOM (176 milijardi parametara, podržava 46 jezika i 13 programskih jezika), CodeGen (može generirati kod u 22 programska jezika) i GLM.

Na kraju vrijedi spomenuti da je kod napisan u Python-u, koristi PyTorch framework i distribuira se pod licencom Apache 2.0.

Za Zainteresovan da saznam više o tome, možete provjeriti detalje Na sledećem linku.


Ostavite komentar

Vaša e-mail adresa neće biti objavljena. Obavezna polja su označena sa *

*

*

  1. Za podatke odgovoran: Miguel Ángel Gatón
  2. Svrha podataka: Kontrola neželjene pošte, upravljanje komentarima.
  3. Legitimacija: Vaš pristanak
  4. Komunikacija podataka: Podaci se neće dostavljati trećim stranama, osim po zakonskoj obavezi.
  5. Pohrana podataka: Baza podataka koju hostuje Occentus Networks (EU)
  6. Prava: U bilo kojem trenutku možete ograničiti, oporaviti i izbrisati svoje podatke.