Yandex ने YTsaurus का सोर्स कोड जारी किया

YTsaurus

YTsaurus MapReduce मॉडल के समर्थन के साथ बड़े डेटा के लिए एक वितरित भंडारण और प्रसंस्करण मंच है।

कुछ दिनों पहले यांडेक्स का अनावरण किया एक के माध्यम से घोषणा की YTsauru प्लेटफॉर्म के सोर्स कोड का उद्घाटन, जिसका उपयोग बड़ी मात्रा में डेटा के वितरित भंडारण और प्रसंस्करण के लिए किया जाता है, जो MapReduce प्रतिमान, SQL क्वेरी इंजन, वितरित फ़ाइल सिस्टम और कुंजी-मूल्य प्रारूप में NoSQL स्टोरेज का उपयोग करके डेटा हेरफेर का समर्थन करता है।

YTsaurus उपयोग किया गया यैंडेक्स इन्फ्रास्ट्रक्चर पर सुपरकंप्यूटर की कंप्यूटिंग शक्ति का कुशलता से उपयोग करने के लिए कंपनी का प्लेटफ़ॉर्म 10 से अधिक नोड्स के समूहों को स्केल कर सकता है, जिसमें एक लाख प्रोसेसर और हजारों जीपीयू (मशीन सीखने के कार्यों के लिए) शामिल हैं।

भौतिक सर्वर पर चलने वाले पृथक कंटेनरों को क्लस्टर इकाइयों के रूप में उपयोग किया जा सकता है। भंडारण में हार्ड ड्राइव, एसएसडी, एनवीएमई और रैम जैसे विभिन्न मीडिया पर स्थित एक्साबाइट डेटा हो सकता है।

क्लस्टर डायनेमिक जोड़ और नोड्स को हटाने, अतिरेक (विफलता का कोई एकल बिंदु नहीं), स्वचालित प्रतिकृति, सक्रिय क्लस्टर सॉफ़्टवेयर अपग्रेड और नोड विफलता के मामले में स्वचालित अतिरेक पुनर्प्राप्ति का समर्थन करता है।

तीन प्रकार के क्लस्टर समर्थित हैं: कंप्यूट क्लस्टर्स (MapReduce ऑपरेशंस का उपयोग करके बड़े डेटा के बड़े पैमाने पर समानांतर प्रसंस्करण के लिए), पिवट टेबल और की-वैल्यू स्टोरेज के लिए क्लस्टर और भौगोलिक रूप से वितरित क्लस्टर।

एक प्लेटफ़ॉर्म-आधारित सेवा दसियों हज़ार उपयोगकर्ताओं के लिए डेटा को संग्रहीत और संसाधित करने का साधन प्रदान कर सकती है। Yandex में विशिष्ट YTsaurus अनुप्रयोगों में विज्ञापन नेटवर्क उपयोगकर्ताओं के बारे में जानकारी संग्रहीत करना, मशीन लर्निंग मॉडल का प्रशिक्षण देना, खोज इंडेक्स बनाना और Yandex टैक्सी जैसी सेवाओं के लिए डेटा वेयरहाउस बनाना शामिल है। , भोजन, लावका और डिलीवरी

बुनियादी उपयोग के मामलों में इसका उल्लेख है:

  • प्रचय संसाधन: MapReduce और SPYT (Apache Spark YTsaurus में डेटा पर एक कंप्यूटिंग इंजन के रूप में) संरचित और अर्ध-संरचित डेटा के प्रसंस्करण के लिए: रिकॉर्ड या वित्तीय लेनदेन।
  • तदर्थ विश्लेषण: एक अलग एनालिटिक्स सिस्टम में डेटा कॉपी किए बिना CHYT (YTsaurus कंप्यूट नोड्स पर क्लिकहाउस सर्वर का एक समूह) के माध्यम से तेज़ क्वेरी। विज़ुअलाइज़ेशन के लिए BI को जोड़ने की क्षमता के साथ ODBC और JDBC।
  • ओएलटीपी कार्य: की-वैल्यू स्टोरेज के साथ रियल-टाइम ट्रांजैक्शनल काम: उदाहरण के लिए, यूजर प्रोफाइल स्टोरेज, ऐड डिस्प्ले या स्ट्रीम प्रोसेसिंग।
  • मशीन लर्निंग: अरबों पैरामीटर वाले मॉडलों को प्रशिक्षित करने के लिए जीपीयू क्लस्टर प्रबंधित करें।
  • मेटा सूचना भंडारण: वितरित तालों की मेटाइनफॉर्मेशन और विश्वसनीय सेवा का लेन-देन भंडारण।
  • विशिष्ट उपकरणों का उपयोग करके बहु-स्तरीय डेटा प्रोसेसिंग के लिए डेटा वेयरहाउस और ETL का निर्माण: Apache Spark, SQL, MapReduce।

जबकि वास्तुकला के मुख्य तत्वों की ओर से निम्नलिखित का उल्लेख किया गया है:

  • वितरित फ़ाइल सिस्टम और सरू दोष-सहिष्णु ट्री-आधारित मेटाइनफॉर्मेशन स्टोरेज।
  • MapReduce मॉडल के साथ-साथ उन्नत बुनियादी संचालन के समर्थन के साथ वितरित कंप्यूटिंग के लिए समयबद्धक।
  • आईटी संचालन की क्षैतिज मापनीयता।
  • कंप्यूटिंग संसाधनों का अलगाव और कुछ कंप्यूटिंग संसाधनों (सीपीयू, जीपीयू, रैम) को अलग-अलग अनुपात में आवंटित करने की संभावना।
  • OLTP संग्रहण बनाने के लिए PivotTables, MVCC-आधारित संग्रहण के लिए समर्थन, लेन-देन, समाप्ति के बाद डेटा को हटाने की क्षमता, और PivotTables पर डेटा प्रोसेसिंग स्ट्रीमिंग के लिए संदेश कतारें।
  • प्रोग्रामिंग भाषाओं सी ++, पायथन, जावा, गो के लिए एपीआई और पुस्तकालय।
  • उपयोगकर्ताओं और व्यवस्थापकों के लिए एक वेब इंटरफ़ेस जो ट्री-लाइक स्टोरेज के माध्यम से नेविगेशन का समर्थन करता है।

अंत में यदि आप इसके बारे में अधिक जानने में रुचि रखते हैं, आपको पता होना चाहिए कि प्रोजेक्ट का कोड C/C++ में लिखा गया है और Apache 2.0 लाइसेंस के तहत खुला है। में विवरण देख सकते हैं निम्नलिखित लिंक।

El गिटहब भंडार YTsaurus के लिए सर्वर कोड, k8s द्वारा उपयोग किया जाने वाला परिनियोजन ढांचा, सिस्टम के लिए एक वेब इंटरफ़ेस और C++, Java, Go और Python जैसी लोकप्रिय प्रोग्रामिंग भाषाओं के लिए क्लाइंट SDK शामिल हैं। 


अपनी टिप्पणी दर्ज करें

आपका ईमेल पता प्रकाशित नहीं किया जाएगा। आवश्यक फ़ील्ड के साथ चिह्नित कर रहे हैं *

*

*

  1. डेटा के लिए जिम्मेदार: मिगुएल elngel Gatón
  2. डेटा का उद्देश्य: नियंत्रण स्पैम, टिप्पणी प्रबंधन।
  3. वैधता: आपकी सहमति
  4. डेटा का संचार: डेटा को कानूनी बाध्यता को छोड़कर तीसरे पक्ष को संचार नहीं किया जाएगा।
  5. डेटा संग्रहण: ऑकेंटस नेटवर्क्स (EU) द्वारा होस्ट किया गया डेटाबेस
  6. अधिकार: किसी भी समय आप अपनी जानकारी को सीमित, पुनर्प्राप्त और हटा सकते हैं।