आर्टिफिशियल इंटेलिजेंस मॉडल के लिए Google से एक खुला स्रोत ढांचा, आरएलडी

L गूगल के शोधकर्ताओं ने किया खुलासा उनके एक नए ढांचे के विकास के बारे में समाचार जो हजारों मशीनों तक एआई मॉडल प्रशिक्षण का विस्तार करता है। परिणाम कहा जाता है बीज आरएल (स्केलेबल कुशल गहन सुदृढीकरण सीखना)।

यह वह जगह है एक आशाजनक विकास क्योंकि मुझे करना चाहिए प्रति सेकंड लाखों छवियों के लिए कृत्रिम बुद्धिमत्ता एल्गोरिदम को प्रशिक्षित करने की अनुमति दें और इस प्रशिक्षण की लागत को 80% तक कम करें, Google ने एक शोध पत्र में कहा।

इस प्रकार की कमी से स्टार्टअप्स के लिए समान अवसर उपलब्ध कराने में मदद मिल सकती है। जो अब तक AI के क्षेत्र में Google जैसी प्रमुख कंपनियों से प्रतिस्पर्धा नहीं कर पाए हैं। क्लाउड में परिष्कृत मशीन लर्निंग मॉडल के प्रशिक्षण की लागत आश्चर्यजनक रूप से अधिक है। Google ने SEED RL के खुले स्रोत को औपचारिक रूप दिया है, जिसका उद्देश्य सुदृढीकरण सीखने की लागत/प्रदर्शन अनुपात को अनुकूलित करना है।

सुदृढीकरण सीखना एक बहुत ही उपयोग के मामले में विशिष्ट दृष्टिकोण है जहां एजेंट अन्वेषण के माध्यम से अपने पर्यावरण के बारे में सीखते हैं और सबसे अधिक पुरस्कार प्राप्त करने के लिए अपने कार्यों को अनुकूलित करते हैं।

"सीड आरएल: स्केलेबल एंड एफिशिएंट डीप-आरएल विथ एक्सेलरेटेड सेंट्रल इंट्रेंस" में, हम एक आरएल एजेंट प्रस्तुत करते हैं जो हजारों मशीनों को स्केल करता है, प्रति सेकंड लाखों फ्रेम पर प्रशिक्षण सक्षम करता है और कम्प्यूटेशनल दक्षता में उल्लेखनीय सुधार करता है। यह एक नवीन वास्तुकला के साथ हासिल किया गया है जो मॉडल अनुमान को केंद्रीकृत करके और एक तेज़ संचार परत पेश करके पैमाने पर त्वरक (जीपीयू या टीपीयू) का लाभ उठाता है।

हम Google रिसर्च फुटबॉल, आर्केड लर्निंग एनवायरनमेंट और डीपमाइंड लैब जैसे लोकप्रिय आरएल बेंचमार्क के मुकाबले SEED RL के प्रदर्शन को प्रदर्शित करते हैं और दिखाते हैं कि बड़े मॉडल का उपयोग करके, डेटा दक्षता को बढ़ाया जा सकता है। कोड को GPU के साथ Google क्लाउड पर चलाने के लिए उदाहरणों के साथ Github पर खोल दिया गया है।

SEED RL TensorFlow 2.0 फ्रेमवर्क पर आधारित है y ग्राफ़िक्स प्रोसेसिंग इकाइयों के संयोजन का उपयोग करके काम करता है और मॉडल अनुमान को केंद्रीकृत करने के लिए टेंसर प्रसंस्करण इकाइयाँ। अनुमान एक शिक्षण घटक का उपयोग करके केंद्रीय रूप से किया जाता है जो मॉडल को प्रशिक्षित करता है।

लक्ष्य मॉडल के चर और स्थिति की जानकारी स्थानीय रूप से संग्रहीत की जाती है और प्रक्रिया के प्रत्येक चरण में छात्र को उन पर फीडबैक भेजा जाता है। SEED RL विलंबता को कम करने के लिए ओपन सोर्स यूनिवर्सल RPC फ्रेमवर्क पर आधारित नेटवर्क लाइब्रेरी का भी उपयोग करता है।

L Google शोधकर्ताओं ने कहा है कि सीखने का घटक बीज आरएल द्वारा हजारों कोर तक स्केल कर सकता है, जबकि पर्यावरण पर कार्रवाई करने और अगली कार्रवाई की भविष्यवाणी करने के लिए मॉडल पर एक अनुमान चलाने के बीच पुनरावृत्ति करने वाले अभिनेताओं की संख्या को हजारों मशीनों में बढ़ाया जा सकता है।

Google ने SEED RL की प्रभावशीलता का मूल्यांकन लोकप्रिय आर्केड सीखने के माहौल, Google रिसर्च फुटबॉल वातावरण और विभिन्न डीपमाइंड लैब वातावरण से तुलना करके किया। परिणाम बताते हैं कि वे 2,4 मिलियन मॉडल पर प्रशिक्षण करते हुए Google रिसर्च फुटबॉल कार्य को हल करने में कामयाब रहे। 64 क्लाउड टेंसर प्रोसेसिंग यूनिट चिप्स का उपयोग करके फ्रेम प्रति सेकंड।

गूगल ने कहा, यह पिछले बॉक्स की तुलना में लगभग 80 गुना तेज है।

"यह एक महत्वपूर्ण समय गति में तब्दील हो जाता है, क्योंकि त्वरक सीपीयू की तुलना में प्रति ऑपरेशन बहुत सस्ते होते हैं, प्रयोगों की लागत नाटकीय रूप से कम हो जाती है।" हमारा मानना ​​​​है कि SEED RL और प्रस्तुत परिणाम दर्शाते हैं कि सुदृढीकरण सीखने ने त्वरक उपयोग के मामले में एक बार फिर से गहन शिक्षण के साथ पकड़ बना ली है," Google रिसर्च के रिसर्च इंजीनियर लेसे एस्पेहोल्ट लिखते हैं।

आधुनिक त्वरक में उपयोग के लिए अनुकूलित आर्किटेक्चर के साथ, डेटा दक्षता बढ़ाने के प्रयास में मॉडल का आकार बढ़ाना स्वाभाविक है।

Google ने कहा कि SEED RL कोड खुला स्रोत था और Github पर उपलब्ध था, साथ ही उदाहरण भी दिखाते हैं कि इसे ग्राफ़िक्स प्रोसेसिंग इकाइयों के साथ Google क्लाउड पर कैसे कार्यान्वित किया जाए।

अंत में, जो लोग इस नए ढांचे में रुचि रखते हैं, वे निम्नलिखित लिंक पर जा सकते हैं जहां वे इसके बारे में अधिक जानकारी पा सकते हैं। लिंक यह है 

Fuente: https://ai.googleblog.com/


अपनी टिप्पणी दर्ज करें

आपका ईमेल पता प्रकाशित नहीं किया जाएगा। आवश्यक फ़ील्ड के साथ चिह्नित कर रहे हैं *

*

*

  1. डेटा के लिए जिम्मेदार: मिगुएल elngel Gatón
  2. डेटा का उद्देश्य: नियंत्रण स्पैम, टिप्पणी प्रबंधन।
  3. वैधता: आपकी सहमति
  4. डेटा का संचार: डेटा को कानूनी बाध्यता को छोड़कर तीसरे पक्ष को संचार नहीं किया जाएगा।
  5. डेटा संग्रहण: ऑकेंटस नेटवर्क्स (EU) द्वारा होस्ट किया गया डेटाबेस
  6. अधिकार: किसी भी समय आप अपनी जानकारी को सीमित, पुनर्प्राप्त और हटा सकते हैं।