FlexGen, un motor pentru a rula roboți AI pe un singur GPU

FlexGen este un motor construit cu scopul de a reduce cerințele de resurse de inferență ale modelelor de limbaj mari la un singur GPU.

Știrea a fost lansată recent că un grup de cercetători de la Universitatea Stanford, Universitatea din California din Berkeley, ETH Zurich, Școala Absolventă de Economie, Universitatea Carnegie Mellon, precum și Yandex și Meta, au publicat codul sursă al un motor pentru rularea modelelor lingvistice mari în sisteme cu resurse limitate.

cu nume de cod «FlexGen», este un proiect care își propune să reducă semnificativ Cerințe resurse pentru operațiuni de inferență LLM. Postat pe GitHub, FlexGen necesită doar Python și PyTorch, dar poate fi folosit în mare parte cu un singur GPU, cum ar fi NVIDIA Tesla T4 sau GeForce RTX 3090.

De exemplu, motorul oferă capacitatea de a crea funcționalități care amintesc de ChatGPT și Copilot rulează un model OPT-175B pregătit care acoperă 175 de miliarde de parametri pe un computer obișnuit cu o placă grafică pentru jocuri NVIDIA RTX3090 echipată cu 24 GB de memorie video.

Se menționează că modelele (LLM) acceptă operarea unor instrumente precum ChatGPT și Copilot. Acestea sunt modele mari care folosesc miliarde de parametri și sunt antrenate pe cantități mari de date.

Cerințele mari de calcul și memorie pentru sarcinile de inferență LLM necesită, în general, utilizarea acceleratoarelor de vârf.

Ne bucurăm că publicul este cu adevărat încântat de FlexGen. Cu toate acestea, munca noastră este încă în pregătire și nu este încă pregătită pentru lansare/anunț public. Din feedback-ul timpuriu cu privire la acest proiect, ne-am dat seama că versiunile timpurii ale acestui README și ale documentului nostru nu erau clare cu privire la scopul FlexGen. Acesta este un efort preliminar de reducere a cerințelor de resurse ale LLM-urilor, dar are, de asemenea, multe limitări și nu are scopul de a înlocui cazurile de utilizare atunci când sunt disponibile resurse suficiente.

Inferența LLM este un proces în care un model de limbaj este utilizat pentru a genera predicții despre textul introdus: implică utilizarea unui model de limbă, cum ar fi un model generativ, cum ar fi un GPT (Generative Pretrained Transformer), pentru a face predicții despre ceea ce este cel mai probabil. a se intampla. să fie furnizat ca răspuns după o anumită intrare de text capturat.

Despre FlexGen

Pachetul include un exemplu de script pentru a crea roboți. care permite utilizatorului descărcați unul dintre modelele de limbă disponibile publicului și începeți să discutați imediat.

Ca bază, se propune utilizarea unui model de limbaj mare publicat de Facebook, instruit pe colecțiile BookCorpus (10 mii de cărți), CC-Stories, Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews etc.), Pushshift.io (pe baza datelor Reddit)) și CCNewsV2 (arhivă de știri).

Modelul acoperă aproximativ 180 de miliarde de jetoane (800 GB de date). A fost nevoie de 33 de zile de rulare a clusterului cu 992 de GPU-uri NVIDIA A100 de 80 GB pentru a antrena modelul.

Rulând OPT-175B pe un sistem cu un singur GPU NVIDIA T4 (16 GB), motorul FlexGen a demonstrat o performanță de până la 100 de ori mai rapidă decât soluțiile oferite anterior, făcând ca utilizarea modelelor mari de limbă să fie mai accesibilă și le permite să ruleze pe sisteme fără acceleratoare specializate.

În același timp, FlexGen poate scala pentru a paraleliza calculele în prezența mai multor GPU-uri. Pentru a reduce dimensiunea modelului, se utilizează o schemă suplimentară de compresie a parametrilor și un mecanism de stocare în cache a modelului.

În prezent, FlexGen acceptă numai modele de limbaj OPT, dar în viitor, dezvoltatorii promit să adauge și suport pentru BLOOM (176 de miliarde de parametri, acceptă 46 de limbi și 13 limbaje de programare), CodeGen (poate genera cod în 22 de limbi de programare) și GLM.

În cele din urmă este de menționat că codul este scris în Python, folosește framework-ul PyTorch și este distribuit sub licența Apache 2.0.

Pentru Interesat să afle mai multe despre el, puteți verifica detaliile În următorul link.

DesdeLinux

FlexGen, un motor pentru rularea roboților AI pe un singur GPU

Despre FlexGen

Lasă comentariul tău Anulați răspunsul