FlexGen, एक GPU पर AI बॉट चलाने के लिए एक इंजन

फ्लेक्सजेन

FlexGen एक इंजन है जिसे बड़े भाषा मॉडल की अनुमान संसाधन आवश्यकताओं को एक GPU में कम करने के उद्देश्य से बनाया गया है।

हाल ही में खबर सामने आई थी कि शोधकर्ताओं का एक समूह स्टैनफोर्ड विश्वविद्यालय, बर्कले में कैलिफोर्निया विश्वविद्यालय, ईटीएच ज्यूरिख, ग्रेजुएट स्कूल ऑफ इकोनॉमिक्स, कार्नेगी मेलॉन विश्वविद्यालय, साथ ही साथ यांडेक्स और मेटा ने इसका स्रोत कोड प्रकाशित किया है un बड़े भाषा मॉडल चलाने के लिए इंजन सीमित संसाधनों वाले सिस्टम में।

कोड नाम के साथ «FlexGen», एक ऐसी परियोजना है जिसका उद्देश्य महत्वपूर्ण रूप से कम करना है आवश्यकताओं एलएलएम निष्कर्ष संचालन के लिए संसाधन। GitHub पर पोस्ट किया गया, FlexGen को केवल Python और PyTorch की आवश्यकता होती है, लेकिन ज्यादातर इसका उपयोग NVIDIA Tesla T4 या GeForce RTX 3090 जैसे एकल GPU के साथ किया जा सकता है।

उदाहरण के इंजन ChatGPT और Copilot की याद दिलाने वाली कार्यक्षमता बनाने की क्षमता प्रदान करता है 175 जीबी वीडियो मेमोरी से लैस एक NVIDIA RTX175 गेमिंग ग्राफिक्स कार्ड के साथ एक नियमित कंप्यूटर पर 3090 बिलियन मापदंडों को कवर करने वाला एक पूर्व-प्रशिक्षित OPT-24B मॉडल चला रहा है।

यह उल्लेख किया गया है कि (एलएलएम) मॉडल चैटजीपीटी और कोपिलॉट जैसे उपकरणों के संचालन का समर्थन करते हैं। ये बड़े मॉडल हैं जो अरबों मापदंडों का उपयोग करते हैं और बड़ी मात्रा में डेटा पर प्रशिक्षित होते हैं।

एलएलएम निष्कर्ष कार्यों के लिए उच्च कम्प्यूटेशनल और मेमोरी आवश्यकताओं को आम तौर पर उच्च अंत त्वरक के उपयोग की आवश्यकता होती है।

हमें खुशी है कि जनता FlexGen को लेकर वास्तव में उत्साहित है। हालांकि, हमारा काम अभी भी तैयारी में है और अभी तक सार्वजनिक रिलीज/घोषणा के लिए तैयार नहीं है। इस परियोजना पर शुरुआती प्रतिक्रिया से, हमने महसूस किया कि इस रीडमे के शुरुआती संस्करण और हमारे दस्तावेज़ FlexGen के उद्देश्य पर अस्पष्ट थे। यह एलएलएम की संसाधन आवश्यकताओं को कम करने का एक प्रारंभिक प्रयास है, लेकिन इसकी कई सीमाएँ भी हैं और पर्याप्त संसाधन उपलब्ध होने पर उपयोग के मामलों को बदलने का इरादा नहीं है।

एलएलएम अनुमान एक ऐसी प्रक्रिया है जिसमें एक भाषा मॉडल का उपयोग इनपुट पाठ के बारे में भविष्यवाणियां उत्पन्न करने के लिए किया जाता है: इसमें एक भाषा मॉडल का उपयोग करना शामिल होता है, जैसे कि जीपीटी (जेनरेटिव प्रीट्रेन ट्रांसफॉर्मर) जैसे जनरेटिव मॉडल, जो कि सबसे अधिक संभावना है, के बारे में भविष्यवाणियां करने के लिए घटित होना। एक विशिष्ट इनपुट कैप्चर किए गए पाठ के बाद प्रतिक्रिया के रूप में प्रदान किया जाए।

FlexGen के बारे में

पैकेज में बॉट्स बनाने के लिए एक नमूना स्क्रिप्ट शामिल है। जो उपयोगकर्ता को अनुमति देता है सार्वजनिक रूप से उपलब्ध भाषा मॉडलों में से एक को डाउनलोड करें और तुरंत चैट करना शुरू करें।

आधार के रूप में, फेसबुक द्वारा प्रकाशित एक बड़े भाषा मॉडल का उपयोग करने का प्रस्ताव है, जो बुककॉर्पस संग्रह (10 हजार पुस्तकें), सीसी-स्टोरीज़, पाइल (ओपनसबटाइटल, विकिपीडिया, डीएम गणित, हैकरन्यूज़, आदि), Pushshift.io पर प्रशिक्षित है। (Reddit डेटा पर आधारित)) और CCNewsV2 (समाचार संग्रह)।

मॉडल में लगभग 180 बिलियन टोकन (800 जीबी डेटा) शामिल हैं। मॉडल को प्रशिक्षित करने में 33 एनवीडिया ए992 100 जीबी जीपीयू के साथ क्लस्टर को चलाने में 80 दिन लगे।

OPT-175B को सिंगल NVIDIA T4 GPU (16GB) के साथ सिस्टम पर चलाने वाले FlexGen इंजन ने पहले पेश किए गए समाधानों की तुलना में 100 गुना तेज प्रदर्शन किया, जिससे बड़े भाषा मॉडल का उपयोग अधिक किफायती हो गया और उन्हें विशेष त्वरक के बिना सिस्टम पर चलने की अनुमति मिली।

उसी समय, FlexGen कई GPU की उपस्थिति में गणनाओं को समानांतर करने के लिए स्केल कर सकता है। मॉडल के आकार को कम करने के लिए, एक अतिरिक्त पैरामीटर संपीड़न योजना और मॉडल कैशिंग तंत्र का उपयोग किया जाता है।

वर्तमान में, FlexGen केवल ऑप्ट भाषा मॉडल का समर्थन करता है, लेकिन भविष्य में, डेवलपर्स BLOOM (176 बिलियन पैरामीटर, 46 भाषाओं और 13 प्रोग्रामिंग भाषाओं का समर्थन करते हैं), CodeGen (22 प्रोग्रामिंग भाषाओं में कोड उत्पन्न कर सकते हैं), और GLM के लिए समर्थन जोड़ने का भी वादा करते हैं।

अंत में यह उल्लेखनीय है कि कोड पायथन में लिखा गया है, PyTorch फ्रेमवर्क का उपयोग करता है और Apache 2.0 लाइसेंस के तहत वितरित किया जाता है।

के लिए इसके बारे में और जानने में दिलचस्पी है, आप विवरण की जांच कर सकते हैं निम्नलिखित लिंक में


अपनी टिप्पणी दर्ज करें

आपका ईमेल पता प्रकाशित नहीं किया जाएगा। आवश्यक फ़ील्ड के साथ चिह्नित कर रहे हैं *

*

*

  1. डेटा के लिए जिम्मेदार: मिगुएल elngel Gatón
  2. डेटा का उद्देश्य: नियंत्रण स्पैम, टिप्पणी प्रबंधन।
  3. वैधता: आपकी सहमति
  4. डेटा का संचार: डेटा को कानूनी बाध्यता को छोड़कर तीसरे पक्ष को संचार नहीं किया जाएगा।
  5. डेटा संग्रहण: ऑकेंटस नेटवर्क्स (EU) द्वारा होस्ट किया गया डेटाबेस
  6. अधिकार: किसी भी समय आप अपनी जानकारी को सीमित, पुनर्प्राप्त और हटा सकते हैं।