नए OpenAI मॉडल पहले से ही वस्तुओं को अधिक कुशलता से आकर्षित और पहचानते हैं

OpenAI के शोधकर्ताओं ने दो तंत्रिका नेटवर्क विकसित किए हैं वे प्राकृतिक भाषा में उपयोगकर्ता द्वारा निर्देशित वस्तुओं को आकर्षित कर सकते हैं और उच्च सटीकता के साथ छवियों का वर्णन कर सकते हैं।

जिन परियोजनाओं को वे कुछ दिनों पहले ज्ञात हो गए उन कार्यों की श्रेणी को व्यापक बनाएं जो कृत्रिम बुद्धिमत्ता पर लागू किए जा सकते हैं, और सटीक परिणाम उत्पन्न करने के लिए इंजीनियरों द्वारा कम मैनुअल समायोजन की आवश्यकता वाले अधिक बहुमुखी मॉडल बनाने के एआई अनुसंधान समुदाय के लक्ष्य को आगे बढ़ा सकते हैं।

DALL E, पहला न्यूरल नेटवर्क है नया, GPT-3 प्राकृतिक भाषा प्रसंस्करण मॉडल का लघु संस्करण है यह OpenAI 2020 में शुरू हुआ। GPT-3, आज तक बनाए गए सबसे जटिल तंत्रिका नेटवर्क में से एक, सरल विवरणों से पाठ और यहां तक ​​कि सॉफ्टवेयर कोड भी उत्पन्न कर सकता है। DALL E उपयोगकर्ता द्वारा निर्देशित छवियों को आकर्षित करने की समान क्षमता लागू करता है।

मॉडल की उत्कृष्ट क्षमता वह है वर्णन के जवाब में भी चित्र बना सकते हैं यह पहली बार सामना करता है और एआई की व्याख्या करने के लिए सामान्य रूप से मुश्किल होता है।

OpenAI शोधकर्ताओं द्वारा परीक्षण के दौरान वे प्रदर्शित करने में सक्षम थे कि मॉडल चित्र सफलतापूर्वक उत्पन्न कर सकता है विवरण के जवाब में, इसके अलावा, मॉडल कई अलग-अलग शैलियों में छवियों को प्रस्तुत करने में सक्षम है।

शोधकर्ताओं ने डीपरीक्षण करने का निर्णय लिया गया कि AI कितना बहुमुखी है उसे अलग कठिनाई के कई अतिरिक्त कार्यों से निपटने के द्वारा।

प्रयोगों की एक श्रृंखला में, मॉडल अत्यधिक कुशल साबित हुआ, जिसमें कई कोणों से और संकल्प के विभिन्न स्तरों पर समान छवि उत्पन्न करने की क्षमता थी।

एक अन्य एआई परीक्षण ने यह भी दिखाया कि मॉडल उस छवि के व्यक्तिगत विवरणों को अनुकूलित करने के लिए पर्याप्त परिष्कृत है जो इसे उत्पन्न करने के लिए कहा जाता है।

OpenAI के शोधकर्ताओं ने एक ब्लॉग पोस्ट में लिखा है, "कई वस्तुओं, उनके गुणों और उनके स्थानिक संबंधों का एक साथ नियंत्रण एक नई चुनौती पेश करता है।" "उदाहरण के लिए, वाक्यांश पर विचार करें" एक लाल टोपी, पीले दस्ताने, एक नीली शर्ट और हरे रंग की पैंट में एक हाथी। " इस वाक्य की सही व्याख्या करने के लिए, DALL · E को न केवल पशु के साथ प्रत्येक परिधान की सही ढंग से रचना करनी चाहिए, बल्कि मिक्स किए बिना संघों (टोपी, लाल), (दस्ताने, पीला), (शर्ट, नीला) और (पैंट, हरा) का निर्माण करना चाहिए उन्हें «।

अन्य तंत्रिका नेटवर्क हाल ही में विस्तृत OpenAI, क्लिप, मौजूदा छवियों में वस्तुओं को पहचानने पर केंद्रित है इसके बजाय नए ड्राइंग।

और हालांकि पहले से ही कंप्यूटर विज़न मॉडल हैं जो छवियों को इस तरह से वर्गीकृत करते हैं, यह ध्यान रखना महत्वपूर्ण है कि उनमें से ज्यादातर केवल वस्तुओं के एक छोटे से सेट की पहचान कर सकते हैं जिसके लिए उन्हें विशेष रूप से प्रशिक्षित किया जाता है।

एक एआई जो वन्यजीव तस्वीरों में जानवरों को वर्गीकृत करता है, उदाहरण के लिए, सटीक परिणाम उत्पन्न करने के लिए बड़ी संख्या में वन्यजीव तस्वीरों पर प्रशिक्षित किया जाना है। क्या OpenAI से क्लिप को अलग करता है यह है कि यह एक वस्तु का विवरण बनाने में सक्षम है जो इसे पहले नहीं मिला है।

क्लिप की बहुमुखी प्रतिभा एक नए प्रशिक्षण दृष्टिकोण का फल है जिसे प्रयोगशाला ने मॉडल बनाने के लिए विकसित किया है।

प्रशिक्षण प्रक्रिया के लिए, OpenAI ने एक छवि डेटा सेट का उपयोग नहीं किया मैन्युअल रूप से तैयार किया गया है, लेकिन चित्र सार्वजनिक वेब और इसके संलग्न पाठ कैप्शन से प्राप्त किया गया। कैप्शन ने क्लिप को विभिन्न प्रकार की वस्तुओं, संघों के साथ जुड़े शब्दों के एक व्यापक शब्दकोश का निर्माण करने की अनुमति दी, जो तब वस्तुओं का वर्णन करने के लिए उपयोग कर सकते थे, जो पहले नहीं देखी थी।

क्लिप के पीछे शोधकर्ताओं ने विस्तृत जानकारी दी, "दीप लर्निंग को बड़ी मात्रा में डेटा की आवश्यकता होती है, और विज़न मॉडल को मैन्युअल रूप से लेबल किए गए डेटा सेटों पर प्रशिक्षित किया गया है, जो सीमित संख्या में पूर्व निर्धारित दृश्य अवधारणाओं के निर्माण के लिए महंगे हैं।" "बल्कि, CLIP पाठ और छवि जोड़े से सीखता है जो पहले से ही इंटरनेट पर सार्वजनिक रूप से उपलब्ध हैं।"

अंत में, यदि आप इसके बारे में अधिक जानना चाहते हैं OpenAI मॉडल के बारे में, आप विवरण देख सकते हैं निम्नलिखित लिंक में


अपनी टिप्पणी दर्ज करें

आपका ईमेल पता प्रकाशित नहीं किया जाएगा। आवश्यक फ़ील्ड के साथ चिह्नित कर रहे हैं *

*

*

  1. डेटा के लिए जिम्मेदार: मिगुएल elngel Gatón
  2. डेटा का उद्देश्य: नियंत्रण स्पैम, टिप्पणी प्रबंधन।
  3. वैधता: आपकी सहमति
  4. डेटा का संचार: डेटा को कानूनी बाध्यता को छोड़कर तीसरे पक्ष को संचार नहीं किया जाएगा।
  5. डेटा संग्रहण: ऑकेंटस नेटवर्क्स (EU) द्वारा होस्ट किया गया डेटाबेस
  6. अधिकार: किसी भी समय आप अपनी जानकारी को सीमित, पुनर्प्राप्त और हटा सकते हैं।