FlexGen, eine Engine zum Ausführen von KI-Bots auf einer einzelnen GPU

FlexGen ist eine Engine, die mit dem Ziel entwickelt wurde, die Inferenzressourcenanforderungen großer Sprachmodelle auf eine einzelne GPU zu reduzieren.

Die Nachricht wurde kürzlich veröffentlicht eine Gruppe von Forschern von der Stanford University, der University of California at Berkeley, der ETH Zürich, der Graduate School of Economics, der Carnegie Mellon University, sowie Yandex und Meta haben den Quellcode von veröffentlicht un Engine zum Ausführen großer Sprachmodelle in Systemen mit begrenzten Ressourcen.

mit Codename «FlexGen» ist ein Projekt, das darauf abzielt, die Vorraussetzungen Ressourcen für LLM-Inferenzoperationen. Auf GitHub veröffentlicht, erfordert FlexGen nur Python und PyTorch, kann aber meistens mit einer einzelnen GPU wie NVIDIA Tesla T4 oder GeForce RTX 3090 verwendet werden.

Zum Beispiel Die Engine bietet die Möglichkeit, Funktionen zu erstellen, die an ChatGPT und Copilot erinnern Ausführen eines vortrainierten OPT-175B-Modells, das 175 Milliarden Parameter abdeckt, auf einem normalen Computer mit einer NVIDIA RTX3090 Gaming-Grafikkarte, die mit 24 GB Videospeicher ausgestattet ist.

Es wird erwähnt, dass (LLM)-Modelle den Betrieb von Tools wie ChatGPT und Copilot unterstützen. Dies sind große Modelle, die Milliarden von Parametern verwenden und mit riesigen Datenmengen trainiert werden.

Die hohen Rechen- und Speicheranforderungen für LLM-Inferenzaufgaben erfordern im Allgemeinen den Einsatz von High-End-Beschleunigern.

Wir freuen uns, dass die Öffentlichkeit wirklich von FlexGen begeistert ist. Unsere Arbeit befindet sich jedoch noch in Vorbereitung und ist noch nicht bereit für die öffentliche Veröffentlichung/Ankündigung. Aus frühem Feedback zu diesem Projekt haben wir erkannt, dass frühe Versionen dieser README-Datei und unseres Dokuments den Zweck von FlexGen unklar waren. Dies ist ein vorläufiger Versuch, den Ressourcenbedarf von LLMs zu reduzieren, hat aber auch viele Einschränkungen und soll keine Anwendungsfälle ersetzen, wenn genügend Ressourcen verfügbar sind.

LLM-Inferenz ist ein Prozess, bei dem ein Sprachmodell verwendet wird, um Vorhersagen über den Eingabetext zu generieren: Es beinhaltet die Verwendung eines Sprachmodells, z. B. eines generativen Modells wie GPT (Generative Pretrained Transformer), um Vorhersagen darüber zu treffen, was am wahrscheinlichsten ist passieren. als Antwort nach einer bestimmten Eingabe erfasster Text bereitgestellt werden.

Über FlexGen

Das Paket enthält ein Beispielskript zum Erstellen von Bots. was dem Benutzer erlaubt Laden Sie eines der öffentlich verfügbaren Sprachmodelle herunter und fang gleich an zu chatten.

Als Basis wird vorgeschlagen, ein großes von Facebook veröffentlichtes Sprachmodell zu verwenden, das auf den BookCorpus-Sammlungen (10 Bücher), CC-Stories, Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews usw.), Pushshift.io trainiert wurde (basierend auf in Reddit-Daten)) und CCNewsV2 (Nachrichtenarchiv).

Das Modell umfasst rund 180 Milliarden Token (800 GB Daten). Es dauerte 33 Tage, bis der Cluster mit 992 NVIDIA A100 80-GB-GPUs ausgeführt wurde, um das Modell zu trainieren.

Beim Ausführen von OPT-175B auf einem System mit einer einzelnen NVIDIA T4 GPU (16 GB) zeigte die FlexGen-Engine eine bis zu 100-mal schnellere Leistung als zuvor angebotene Lösungen, wodurch die Verwendung großer Sprachmodelle erschwinglicher wurde und sie auf Systemen ohne spezialisierte Beschleuniger ausgeführt werden können.

Gleichzeitig kann FlexGen skalieren, um Berechnungen in Gegenwart mehrerer GPUs zu parallelisieren. Um die Größe des Modells zu reduzieren, werden ein zusätzliches Parameterkomprimierungsschema und ein Modell-Caching-Mechanismus verwendet.

Derzeit FlexGen unterstützt nur OPT-Sprachmodelle, aber für die Zukunft versprechen die Entwickler auch Unterstützung für BLOOM (176 Milliarden Parameter, unterstützt 46 Sprachen und 13 Programmiersprachen), CodeGen (kann Code in 22 Programmiersprachen generieren) und GLM.

Abschließend sei noch erwähnt, dass der Code in Python geschrieben ist, das PyTorch-Framework verwendet und unter der Apache-2.0-Lizenz vertrieben wird.

Für Interessiert, mehr darüber zu erfahren, Sie können die Details überprüfen im folgenden Link.

DesdeLinux

FlexGen, eine Engine zum Ausführen von KI-Bots auf einer einzelnen GPU

Über FlexGen

Hinterlasse einen Kommentar Antwort abbrechen