FlexGen, एकल GPU वर AI बॉट्स चालवण्यासाठी इंजिन

फ्लेक्सजेन

फ्लेक्सजेन हे एक इंजिन आहे जे एका GPU मध्ये मोठ्या भाषा मॉडेल्सच्या अनुमान संसाधन आवश्यकता कमी करण्याच्या उद्देशाने तयार केले आहे.

नुकतीच ही बातमी प्रसिद्ध झाली होती संशोधकांचा एक गट स्टॅनफोर्ड विद्यापीठ, बर्कले येथील कॅलिफोर्निया विद्यापीठ, ईटीएच झुरिच, ग्रॅज्युएट स्कूल ऑफ इकॉनॉमिक्स, कार्नेगी मेलॉन विद्यापीठ, तसेच Yandex आणि Meta, चा स्त्रोत कोड प्रकाशित केला आहे un मोठ्या भाषा मॉडेल चालविण्यासाठी इंजिन मर्यादित संसाधनांसह प्रणालींमध्ये.

कोड नावासह "फ्लेक्सजेन", हा एक प्रकल्प आहे ज्याचा उद्देश लक्षणीयरीत्या कमी करणे आहे आवश्यकता LLM अनुमान ऑपरेशन्ससाठी संसाधने. GitHub वर पोस्ट केलेले, FlexGen ला फक्त Python आणि PyTorch आवश्यक आहे परंतु NVIDIA Tesla T4 किंवा GeForce RTX 3090 सारख्या एकाच GPU सह वापरला जाऊ शकतो.

उदाहरणार्थ, इंजिन ChatGPT आणि Copilot ची आठवण करून देणारी कार्यक्षमता निर्माण करण्याची क्षमता प्रदान करते 175 GB व्हिडिओ मेमरीसह NVIDIA RTX175 गेमिंग ग्राफिक्स कार्डसह नियमित संगणकावर 3090 अब्ज पॅरामीटर्स कव्हर करणारे पूर्वप्रशिक्षित OPT-24B मॉडेल चालवणे.

असे नमूद केले आहे की (LLM) मॉडेल्स ChatGPT आणि Copilot सारख्या साधनांच्या ऑपरेशनला समर्थन देतात. हे मोठे मॉडेल आहेत जे अब्जावधी पॅरामीटर्स वापरतात आणि मोठ्या प्रमाणात डेटावर प्रशिक्षित असतात.

LLM अनुमान कार्यांसाठी उच्च संगणकीय आणि मेमरी आवश्यकतांसाठी सामान्यतः उच्च-अंत प्रवेगक वापरणे आवश्यक आहे.

आम्हाला आनंद आहे की लोक FlexGen बद्दल खरोखर उत्साहित आहेत. तथापि, आमचे कार्य अद्याप तयारीत आहे आणि सार्वजनिक प्रकाशन/घोषणेसाठी अद्याप तयार नाही. या प्रकल्पावरील सुरुवातीच्या अभिप्रायावरून, आम्हाला जाणवले की या README च्या सुरुवातीच्या आवृत्त्या आणि आमचे दस्तऐवज FlexGen च्या उद्देशाबाबत अस्पष्ट होते. LLM च्या संसाधन आवश्यकता कमी करण्यासाठी हा एक प्राथमिक प्रयत्न आहे, परंतु त्यात अनेक मर्यादा देखील आहेत आणि पुरेशी संसाधने उपलब्ध असताना वापर प्रकरणे बदलण्याचा हेतू नाही.

LLM अनुमान ही एक प्रक्रिया आहे ज्यामध्ये इनपुट मजकूराबद्दल अंदाज तयार करण्यासाठी भाषा मॉडेलचा वापर केला जातो: यामध्ये भाषा मॉडेल वापरणे समाविष्ट आहे, जसे की GPT (जनरेटिव्ह प्रीट्रेन्ड ट्रान्सफॉर्मर) सारखे जनरेटिव्ह मॉडेल, बहुधा काय आहे याबद्दल अंदाज बांधणे. घडणे विशिष्ट इनपुट कॅप्चर केलेल्या मजकूरानंतर प्रतिसाद म्हणून प्रदान केले जाईल.

FlexGen बद्दल

पॅकेजमध्ये बॉट्स तयार करण्यासाठी नमुना स्क्रिप्ट समाविष्ट आहे. जे वापरकर्त्याला परवानगी देते सार्वजनिकरीत्या उपलब्ध भाषा मॉडेलपैकी एक डाउनलोड करा आणि लगेच गप्पा मारायला सुरुवात करा.

आधार म्हणून, Facebook द्वारे प्रकाशित केलेले एक मोठे भाषा मॉडेल वापरण्याचा प्रस्ताव आहे, ज्याला BookCorpus संग्रह (10 हजार पुस्तके), CC-Stories, Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews, इ.), Pushshift.io वर प्रशिक्षित केले आहे. (Reddit डेटावर आधारित)) आणि CCNewsV2 (वृत्त संग्रह).

मॉडेल सुमारे 180 अब्ज टोकन (800 GB डेटा) कव्हर करते. मॉडेलला प्रशिक्षित करण्यासाठी 33 NVIDIA A992 100 GB GPU सह क्लस्टर चालवण्यास 80 दिवस लागले.

सिंगल NVIDIA T175 GPU (4 GB) असलेल्या सिस्टीमवर OPT-16B चालवताना, FlexGen इंजिनने पूर्वी ऑफर केलेल्या सोल्यूशन्सपेक्षा 100x जलद कार्यप्रदर्शन केले आहे, ज्यामुळे मोठ्या भाषेच्या मॉडेलचा वापर अधिक परवडणारा आहे आणि त्यांना विशेष प्रवेगकांशिवाय सिस्टीमवर चालविण्याची परवानगी देते.

त्याच वेळी, फ्लेक्सजेन एकाधिक GPU च्या उपस्थितीत गणना समांतर करण्यासाठी स्केल करू शकते. मॉडेलचा आकार कमी करण्यासाठी, अतिरिक्त पॅरामीटर कॉम्प्रेशन स्कीम आणि मॉडेल कॅशिंग यंत्रणा वापरली जाते.

सध्या, FlexGen फक्त OPT भाषा मॉडेलला समर्थन देते, परंतु भविष्यात, विकासक ब्लूम (176 अब्ज पॅरामीटर्स, 46 भाषा आणि 13 प्रोग्रामिंग भाषांना समर्थन देतात), कोडजेन (22 प्रोग्रामिंग भाषांमध्ये कोड तयार करू शकतात) आणि जीएलएमसाठी समर्थन जोडण्याचे वचन देतात.

शेवटी हे लक्षात घेण्यासारखे आहे की कोड पायथॉनमध्ये लिहिलेला आहे, पायटॉर्च फ्रेमवर्क वापरतो आणि Apache 2.0 परवान्याअंतर्गत वितरित केला जातो.

साठी याबद्दल अधिक जाणून घेण्यात स्वारस्य आहे, आपण तपशील तपासू शकता पुढील लिंकवर


आपली टिप्पणी द्या

आपला ई-मेल पत्ता प्रकाशित केला जाणार नाही. आवश्यक फील्ड चिन्हांकित केले आहेत *

*

*

  1. डेटा जबाबदार: मिगुएल Áन्गल गॅटन
  2. डेटाचा उद्देशः नियंत्रण स्पॅम, टिप्पणी व्यवस्थापन.
  3. कायदे: आपली संमती
  4. डेटा संप्रेषण: कायदेशीर बंधन वगळता डेटा तृतीय पक्षास कळविला जाणार नाही.
  5. डेटा संग्रहण: ओकेन्टस नेटवर्क (EU) द्वारा होस्ट केलेला डेटाबेस
  6. अधिकारः कोणत्याही वेळी आपण आपली माहिती मर्यादित, पुनर्प्राप्त आणि हटवू शकता.