स्थिर प्रसार 2.0, छवियों को संश्लेषित और संशोधित करने में सक्षम एआई

स्थिर प्रसार 2.0

स्थिर प्रसार 2.0 के साथ उत्पन्न छवि

हाल ही में स्थिरता एआई, का अनावरण किया एक ब्लॉग पोस्ट के माध्यम से सिस्टम का दूसरा संस्करण स्वचालित शिक्षा स्थिर प्रसार, जो सुझाए गए टेम्पलेट या प्राकृतिक भाषा पाठ विवरण के आधार पर छवियों को संश्लेषित और संशोधित करने में सक्षम है।

स्थिर प्रसार है एक मशीन लर्निंग मॉडल स्थिरता एआई द्वारा विकसित प्राकृतिक भाषा विवरण से उच्च गुणवत्ता वाली डिजिटल छवियां उत्पन्न करने के लिए. मॉडल का उपयोग विभिन्न कार्यों के लिए किया जा सकता है, जैसे पाठ-निर्देशित छवि-से-छवि अनुवाद और छवि वृद्धि।

DALL-E जैसे प्रतिस्पर्धी मॉडलों के विपरीत, स्थिर प्रसार खुला स्रोत1 है और यह कृत्रिम रूप से उत्पन्न होने वाली छवियों को सीमित नहीं करता है। आलोचकों ने एआई की नैतिकता के बारे में चिंता जताई है, यह दावा करते हुए कि मॉडल का उपयोग डीपफेक बनाने के लिए किया जा सकता है।

LMU म्यूनिख में CompVis Group के रॉबिन रोम्बैच (स्थिरता AI) और पैट्रिक एस्सर (रनवे ML) की गतिशील टीम ने प्रोफेसर डॉ। ब्योर्न ओमर की अध्यक्षता में, Stable Diffusion V1 की मूल रिलीज़ का नेतृत्व किया। उन्होंने अव्यक्त प्रसार मॉडल के साथ अपने पिछले प्रयोगशाला कार्य का निर्माण किया और LAION और Eleuther AI से महत्वपूर्ण समर्थन प्राप्त किया। आप हमारे पिछले ब्लॉग पोस्ट में स्टेबल डिफ्यूजन V1 की मूल रिलीज़ के बारे में अधिक पढ़ सकते हैं। रॉबिन अब हमारी व्यापक टीम के साथ अगली पीढ़ी के मीडिया मॉडल बनाने के लिए स्थिरता एआई में कैथरीन क्रॉसन के साथ प्रयास कर रहे हैं।

स्थिर प्रसार 2.0 मूल V1 संस्करण की तुलना में कई बेहतरीन सुधार और सुविधाएँ प्रदान करता है।

स्थिर प्रसार 2.0 की मुख्य खबर

प्रस्तुत है इस नए संस्करण में टेक्स्ट डिस्क्रिप्शन पर आधारित एक नया इमेज सिंथेसिस मॉडल बनाया गया है "SD2.0-v", जो 768 × 768 के रिज़ॉल्यूशन वाली छवियों को बनाने का समर्थन करता है। पाठ विवरण के साथ 5 बिलियन छवियों के LAION-5850B संग्रह का उपयोग करके नए मॉडल को प्रशिक्षित किया गया था।

मॉडल स्टेबल डिफ्यूजन 1.5 मॉडल के समान मापदंडों के सेट का उपयोग करता है, लेकिन मौलिक रूप से भिन्न OpenCLIP-ViT/H एनकोडर के उपयोग के लिए संक्रमण से भिन्न होता है, जिससे परिणामी छवियों की गुणवत्ता में उल्लेखनीय सुधार करना संभव हो जाता है।

ए तैयार किया गया है SD2.0-बेस का सरलीकृत संस्करणशास्त्रीय शोर भविष्यवाणी मॉडल का उपयोग करके 256 × 256 छवियों पर प्रशिक्षित और 512 × 512 के संकल्प के साथ छवियों की पीढ़ी का समर्थन करना।

इसके अलावा, इस बात पर भी प्रकाश डाला गया है कि सुपरसैंपलिंग तकनीक का उपयोग करने की संभावना प्रदान की जाती है (सुपर रेज़ोल्यूशन) स्थानिक स्केलिंग और विस्तार पुनर्निर्माण एल्गोरिदम का उपयोग करके गुणवत्ता को कम किए बिना मूल छवि के संकल्प को बढ़ाने के लिए।

अन्य परिवर्तनों की कि इस नए संस्करण से बाहर खड़े हो जाओ:

  • प्रदान किया गया इमेज प्रोसेसिंग मॉडल (SD20-upscaler) 4x आवर्धन का समर्थन करता है, जिससे 2048 × 2048 के रिज़ॉल्यूशन वाली छवियां उत्पन्न की जा सकती हैं।
  • स्टेबल डिफ्यूजन 2.0 में एक अपस्केलर डिफ्यूजन मॉडल भी शामिल है जो 4 के कारक द्वारा छवि रिज़ॉल्यूशन में सुधार करता है।
  • SD2.0-गहराई2img मॉडल प्रस्तावित है, जो वस्तुओं की गहराई और स्थानिक व्यवस्था को ध्यान में रखता है। MiDaS प्रणाली का उपयोग एककोशिकीय गहराई का अनुमान लगाने के लिए किया जाता है।
  • नया टेक्स्ट-चालित इंटीरियर पेंट मॉडल, नए स्टेबल डिफ्यूजन 2.0 टेक्स्ट-टू-इमेज बेस पर फाइन-ट्यून किया गया
  • मॉडल आपको एक टेम्पलेट के रूप में दूसरी छवि का उपयोग करके नई छवियों को संश्लेषित करने की अनुमति देता है, जो मूल रूप से मूल से अलग हो सकती है, लेकिन समग्र संरचना और गहराई को बरकरार रखती है। उदाहरण के लिए, आप एक तस्वीर में एक व्यक्ति की मुद्रा का उपयोग उसी मुद्रा में एक और चरित्र बनाने के लिए कर सकते हैं।
  • छवियों को संशोधित करने के लिए अद्यतन मॉडल: एसडी 2.0-इनपेंटिंग, जो छवि के हिस्सों को बदलने और बदलने के लिए टेक्स्ट संकेतों का उपयोग करने की अनुमति देता है।
  • जीपीयू के साथ मुख्यधारा के सिस्टम पर उपयोग के लिए मॉडल को अनुकूलित किया गया है।

अंत में हाँ आप इसके बारे में अधिक जानने में रुचि रखते हैं, आपको पता होना चाहिए कि तंत्रिका नेटवर्क प्रशिक्षण और इमेजिंग टूल के लिए कोड Python में PyTorch फ्रेमवर्क का उपयोग करके लिखा गया है और MIT लाइसेंस के तहत जारी किया गया है।

पूर्व-प्रशिक्षित मॉडल क्रिएटिव एमएल ओपनरेल-एम अनुमेय लाइसेंस के तहत खुले हैं, जो व्यावसायिक उपयोग की अनुमति देता है।

Fuente: https://stability.ai


अपनी टिप्पणी दर्ज करें

आपका ईमेल पता प्रकाशित नहीं किया जाएगा। आवश्यक फ़ील्ड के साथ चिह्नित कर रहे हैं *

*

*

  1. डेटा के लिए जिम्मेदार: मिगुएल elngel Gatón
  2. डेटा का उद्देश्य: नियंत्रण स्पैम, टिप्पणी प्रबंधन।
  3. वैधता: आपकी सहमति
  4. डेटा का संचार: डेटा को कानूनी बाध्यता को छोड़कर तीसरे पक्ष को संचार नहीं किया जाएगा।
  5. डेटा संग्रहण: ऑकेंटस नेटवर्क्स (EU) द्वारा होस्ट किया गया डेटाबेस
  6. अधिकार: किसी भी समय आप अपनी जानकारी को सीमित, पुनर्प्राप्त और हटा सकते हैं।