FlexGen, en motor for å kjøre AI-roboter på en enkelt GPU

FlexGen er en motor bygget med det formål å redusere inferensressurskravene til store språkmodeller til en enkelt GPU.

Nyheten ble nylig utgitt den en gruppe forskere fra Stanford University, University of California i Berkeley, ETH Zurich, Graduate School of Economics, Carnegie Mellon University, samt Yandex og Meta, har publisert kildekoden til un motor for å kjøre store språkmodeller i systemer med begrensede ressurser.

med kodenavn «FlexGen», er et prosjekt som tar sikte på å redusere krav ressurser for LLM-slutningsoperasjoner. Publisert på GitHub, FlexGen krever bare Python og PyTorch, men kan stort sett brukes med en enkelt GPU som NVIDIA Tesla T4 eller GeForce RTX 3090.

Eg motoren gir muligheten til å lage funksjonalitet som minner om ChatGPT og Copilot kjører en forhåndsopplært OPT-175B-modell som dekker 175 milliarder parametere på en vanlig datamaskin med et NVIDIA RTX3090 gaming-grafikkkort utstyrt med 24 GB videominne.

Det nevnes at (LLM)-modeller støtter driften av verktøy som ChatGPT og Copilot. Dette er store modeller som bruker milliarder av parametere og er trent på enorme mengder data.

De høye beregnings- og minnekravene for LLM-slutningsoppgaver krever generelt bruk av avanserte akseleratorer.

Vi er glade for at publikum er veldig begeistret for FlexGen. Arbeidet vårt er imidlertid fortsatt under forberedelse og ennå ikke klart for offentlig utgivelse/kunngjøring. Fra tidlig tilbakemelding på dette prosjektet, innså vi at tidlige versjoner av denne README og dokumentet vårt var uklare om formålet med FlexGen. Dette er en foreløpig innsats for å redusere ressurskravene til LLM-er, men det har også mange begrensninger og er ikke ment å erstatte brukstilfeller når tilstrekkelige ressurser er tilgjengelige.

LLM-inferens er en prosess der en språkmodell brukes til å generere spådommer om inndatateksten: det innebærer å bruke en språkmodell, for eksempel en generativ modell som en GPT (Generative Pretrained Transformer), for å lage spådommer om hva som er mest sannsynlig å skje. gis som et svar etter en spesifikk inndata fanget tekst.

Om FlexGen

Pakken inkluderer et eksempelskript for å lage roboter. som tillater brukeren last ned en av de offentlig tilgjengelige språkmodellene og begynn å chatte med en gang.

Som en base foreslås det å bruke en stor språkmodell publisert av Facebook, trent på BookCorpus-samlingene (10 tusen bøker), CC-Stories, Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews, etc.), Pushshift.io (basert på Reddit-data)) og CCNewsV2 (nyhetsarkiv).

Modellen dekker rundt 180 milliarder tokens (800 GB data). Det tok 33 dager å kjøre klyngen med 992 NVIDIA A100 80 GB GPUer for å trene modellen.

Ved å kjøre OPT-175B på et system med en enkelt NVIDIA T4 GPU (16 GB), demonstrerte FlexGen-motoren opptil 100 ganger raskere ytelse enn tidligere tilbudte løsninger, noe som gjør bruk av store språkmodeller rimeligere og lar dem kjøre på systemer uten spesialiserte akseleratorer.

Samtidig kan FlexGen skalere for å parallellisere beregninger i nærvær av flere GPUer. For å redusere størrelsen på modellen brukes et ekstra parameterkomprimeringsskjema og modellbufringsmekanisme.

Tiden, FlexGen støtter bare OPT-språkmodeller, men i fremtiden lover utviklerne også å legge til støtte for BLOOM (176 milliarder parametere, støtter 46 språk og 13 programmeringsspråk), CodeGen (kan generere kode i 22 programmeringsspråk) og GLM.

Til slutt er det verdt å nevne at koden er skrevet i Python, bruker PyTorch-rammeverket og distribueres under Apache 2.0-lisensen.

For Interessert i å lære mer om det, kan du sjekke detaljene I den følgende lenken.

DesdeLinux

FlexGen, en motor for å kjøre AI-roboter på en enkelt GPU

Om FlexGen

Legg igjen kommentaren Avbryt svar