BlazingSQL ने डाटा प्रोसेसिंग को गति देने के लिए GPUS के उपयोग के लिए अपना सोर्स कोड जारी किया है

एक नया ओपन सोर्स प्रोजेक्ट एनालिटिक्स को अगले स्तर पर ले जाना चाहता है और वह है पीछे के लोग BlazingSQL ने हाल ही में घोषणा की कि उसने अपने SQL इंजन के लिए स्रोत कोड जारी किया है, जिसका उपयोग डाटा प्रोसेसिंग को तेज करने के लिए जीपीयू में किया जाता है। BlazingSQL एक पूर्ण DBMS नहीं है, लेकिन यह अपाचे स्पार्क के कार्यों में तुलनीय बड़े डेटा सेटों का विश्लेषण और प्रक्रिया करने के लिए एक इंजन के रूप में तैनात है।

जो लोग BlazingSQL से अपरिचित हैं, उनके लिए यह जानना चाहिए यह RAPIDS इकोसिस्टम पर बनाया गया एक GPU त्वरित SQL इंजन है जीपीयू पर एंड-टू-एंड एनालिटिक्स और डेटा साइंस पाइपलाइन चलाने के लिए ओपन सोर्स सॉफ्टवेयर लाइब्रेरी का एक सेट है।

टीम के अनुसार, BlazingSQL खर्च, जटिलता और धीमी गति को संबोधित करने के लिए बनाया गया था जो बड़ी विधानसभाओं में काम करते समय उपयोगकर्ताओं का सामना करते हैं आंकड़े का। BlazingSQL सारणीबद्ध स्वरूपों (जैसे लॉग्स, नेटफ्लो आंकड़े इत्यादि) में संग्रहीत बड़े डेटा सेट (गीगाबाइट के दसियों) पर व्यक्तिगत विश्लेषणात्मक प्रश्नों के प्रदर्शन के लिए उपयुक्त है।

GPU के साथ काम करने के लिए, RAPIDS पुस्तकालयों का एक सेट ab उपयोग किया जाता हैकुछ ने NVIDIA की भागीदारी के साथ विकसित किया, जिससे आप डेटा प्रोसेसिंग और विश्लेषण एप्लिकेशन बना सकते हैं जो पूरी तरह से जीपीयू साइड पर चलते हैं (निम्न स्तर के CUDA प्राइमेटिव और समानांतर गणना का उपयोग करने के लिए एक पायथन इंटरफ़ेस प्रदान किया गया है)।

BlazingSQL एपीआई के बजाय SQL का उपयोग करने की क्षमता प्रदान करता है RAPIDS द्वारा प्रयुक्त cuUDF डेटा प्रोसेसिंग (अपाचे एरो पर आधारित)। BlazingSQL एक अतिरिक्त परत है जो cuDF के शीर्ष पर चलती है और डिस्क से डेटा पढ़ने के लिए cuIO लाइब्रेरी का उपयोग करती है।

SQL प्रश्न हैं क्यूयूडीएफ फ़ंक्शन कॉल में अनुवाद करें, जो डेटा को जीपीयू पर लोड करने की अनुमति देता है और उन पर मर्ज, एग्रीगेट और फ़िल्टर ऑपरेशन करें। वितरित GPUs के हजारों का वितरण विन्यास का निर्माण का समर्थन करता है।

का प्रयोग SQL RAPIDS को प्रोसेसर लिखे बिना मौजूदा विश्लेषणात्मक प्रणालियों के साथ एकीकृत करने की अनुमति देता है RAPIDS के सभी भागों के साथ पूर्ण संगतता बनाए रखते हुए, अतिरिक्त DBMS में डेटा के मध्यवर्ती लोडिंग का सहारा लिए बिना, SQL में मौजूदा कार्यक्षमता का अनुवाद, और cDDF स्तर पर प्रदर्शन सुनिश्चित करना। विश्लेषण और मशीन सीखने के कार्यों को हल करने के लिए XGBoost और cuML पुस्तकालयों के साथ एकीकरण के लिए समर्थन शामिल है।

ब्लेज़िंगएसक्यूएल CSV और Apache Parquet स्वरूपों में समतल फ़ाइलों से क्वेरी चला सकते हैं एचडीएसएफ और एडब्ल्यूएस एस 3 जैसे नेटवर्क और क्लाउड सिस्टम पर स्थित, सीधे परिणाम को जीपीयू मेमोरी में स्थानांतरित कर देता है।

GPU और तेज वीडियो मेमोरी के उपयोग पर समानांतर संचालन के लिए धन्यवाद, BlazingSQL में क्वेरी निष्पादन अपाचे स्पार्क की तुलना में 20 गुना अधिक तेज है।

BlazingSQL डेटा के साथ काम करना बहुत सरल करता है - सैकड़ों cuDF फ़ंक्शन कॉल के बजाय, आप इसे एकल SQL क्वेरी के साथ कर सकते हैं।

BlazingSQL के सीईओ रोड्रिगो अराम्बुरु ने एक बाद के ब्लॉग में लिखा है, "ब्लेज़्ज़क्यूसी ने न केवल अविश्वसनीय रूप से तेज़, वितरित SQL जीपीयू इंजन के साथ इन ग्राहकों की चिंताओं को संबोधित किया है।" "कोड की कुछ ही पंक्तियों के साथ, ब्लेज़्ज़क्यूएल आपके कच्चे डेटा को क्वेरी कर सकता है, जहाँ भी यह रहता है, और आपके मौजूदा RAPIDS और एनालिटिक्स स्टैक के साथ इंटरॉपर्ट करता है।"

BlazingSQL उपयोगकर्ताओं को एंटरप्राइज़ डेटा झील डेटा सेट को GPU मेमोरी में सीधे GPU DataFrame (GDF) के रूप में क्वेरी करने में सक्षम बनाता है। जीडीएफ एक परियोजना है जो GPU अनुप्रयोगों के बीच अंतर के लिए समर्थन प्रदान करती है। यह एक सामान्य GPU मेमोरी डेटा लेयर को भी परिभाषित करता है।

"अपाचे एरो को जीपीयू पर ले जाकर और डैस्क के साथ एकीकृत करके, ब्लेज़्ज़कॉन्ग ओपन सोर्स कार्यक्षमता का विस्तार करेगा और फास्ट-पुस्तक डेटा विज्ञान पारिस्थितिकी तंत्र में इंटरऑपरेबिलिटी की अगली लहर चलाएगा।"

जो रुचि रखते हैं, उनके लिए यह जानना चाहिए कोड उपयोगकर्ताओं के लिए एक अजगर इंटरफ़ेस के साथ C ++ में लिखा गया है और खुला स्रोत अपाचे 2.0 लाइसेंस के तहत है।

लिंक यह है


अपनी टिप्पणी दर्ज करें

आपका ईमेल पता प्रकाशित नहीं किया जाएगा। आवश्यक फ़ील्ड के साथ चिह्नित कर रहे हैं *

*

*

  1. डेटा के लिए जिम्मेदार: मिगुएल elngel Gatón
  2. डेटा का उद्देश्य: नियंत्रण स्पैम, टिप्पणी प्रबंधन।
  3. वैधता: आपकी सहमति
  4. डेटा का संचार: डेटा को कानूनी बाध्यता को छोड़कर तीसरे पक्ष को संचार नहीं किया जाएगा।
  5. डेटा संग्रहण: ऑकेंटस नेटवर्क्स (EU) द्वारा होस्ट किया गया डेटाबेस
  6. अधिकार: किसी भी समय आप अपनी जानकारी को सीमित, पुनर्प्राप्त और हटा सकते हैं।