FlexGen, en motor til at køre AI-bots på en enkelt GPU

FlexGen er en motor bygget med det formål at reducere kravene til inferensressourcer for store sprogmodeller til en enkelt GPU.

Nyheden blev for nylig frigivet det en gruppe forskere fra Stanford University, University of California i Berkeley, ETH Zürich, Graduate School of Economics, Carnegie Mellon University, samt Yandex og Meta, har offentliggjort kildekoden til un motor til at køre store sprogmodeller i systemer med begrænsede ressourcer.

med kodenavn «FlexGen», er et projekt, der har til formål at reducere den krav ressourcer til LLM-slutningsoperationer. Udgivet på GitHub, FlexGen kræver kun Python og PyTorch, men kan for det meste bruges med en enkelt GPU som NVIDIA Tesla T4 eller GeForce RTX 3090.

Fx motoren giver mulighed for at skabe funktionalitet, der minder om ChatGPT og Copilot kører en fortrænet OPT-175B model, der dækker 175 milliarder parametre på en almindelig computer med et NVIDIA RTX3090 gaming grafikkort udstyret med 24 GB videohukommelse.

Det nævnes, at (LLM) modeller understøtter driften af værktøjer som ChatGPT og Copilot. Det er store modeller, der bruger milliarder af parametre og trænes på enorme mængder data.

De høje beregnings- og hukommelseskrav til LLM-slutningsopgaver kræver generelt brugen af avancerede acceleratorer.

Vi er glade for, at offentligheden er virkelig begejstret for FlexGen. Vores arbejde er dog stadig under forberedelse og endnu ikke klar til offentlig udgivelse/annoncering. Fra tidlig feedback på dette projekt indså vi, at tidlige versioner af denne README og vores dokument var uklare om formålet med FlexGen. Dette er en foreløbig indsats for at reducere ressourcekravene til LLM'er, men det har også mange begrænsninger og er ikke beregnet til at erstatte use cases, når der er tilstrækkelige ressourcer til rådighed.

LLM-inferens er en proces, hvor en sprogmodel bruges til at generere forudsigelser om inputteksten: det involverer brug af en sprogmodel, såsom en generativ model såsom en GPT (Generative Pretrained Transformer), til at lave forudsigelser om, hvad der er mest sandsynligt at ske. gives som et svar efter en specifik indtastet tekst.

Om FlexGen

Pakken indeholder et eksempelscript til at oprette bots. som tillader brugeren download en af de offentligt tilgængelige sprogmodeller og begynde at chatte med det samme.

Som udgangspunkt foreslås det at bruge en stor sprogmodel udgivet af Facebook, trænet på BookCorpus-samlingerne (10 tusind bøger), CC-Stories, Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews, etc.), Pushshift.io (baseret på Reddit-data)) og CCNewsV2 (nyhedsarkiv).

Modellen dækker omkring 180 milliarder tokens (800 GB data). Det tog 33 dage at køre klyngen med 992 NVIDIA A100 80 GB GPU'er at træne modellen.

Ved at køre OPT-175B på et system med en enkelt NVIDIA T4 GPU (16 GB), demonstrerede FlexGen-motoren op til 100 gange hurtigere ydeevne end tidligere tilbudte løsninger, hvilket gør brug af store sprogmodeller mere overkommelige og giver dem mulighed for at køre på systemer uden specialiserede acceleratorer.

Samtidig kan FlexGen skalere for at parallelisere beregninger i nærværelse af flere GPU'er. For at reducere størrelsen af modellen bruges et ekstra parameterkomprimeringsskema og model-cachemekanisme.

Currently, FlexGen understøtter kun OPT-sprogmodeller, men i fremtiden lover udviklerne også at tilføje understøttelse af BLOOM (176 milliarder parametre, understøtter 46 sprog og 13 programmeringssprog), CodeGen (kan generere kode i 22 programmeringssprog) og GLM.

Til sidst er det værd at nævne, at koden er skrevet i Python, bruger PyTorch frameworket og distribueres under Apache 2.0 licensen.

for Interesseret i at lære mere om det, kan du kontrollere detaljerne I det følgende link.

DesdeLinux

FlexGen, en motor til at køre AI-bots på en enkelt GPU

Om FlexGen

Efterlad din kommentar Annuller svar