स्थिर प्रसार 2.0, एक AI जे प्रतिमा संश्लेषित आणि सुधारित करण्यास सक्षम आहे

स्थिर प्रसार 2.0

स्थिर प्रसार 2.0 सह व्युत्पन्न केलेली प्रतिमा

अलीकडे स्थिरता AI, अनावरण ब्लॉग पोस्ट द्वारे प्रणालीची दुसरी आवृत्ती स्वयंचलित शिक्षण स्थिर प्रसार, जे सूचित टेम्पलेट किंवा नैसर्गिक भाषेतील मजकूर वर्णनाच्या आधारे प्रतिमा संश्लेषित आणि सुधारित करण्यास सक्षम आहे.

स्थिर प्रसार आहे मशीन लर्निंग मॉडेल स्थिरता AI द्वारे विकसित नैसर्गिक भाषेतील वर्णनांमधून उच्च-गुणवत्तेच्या डिजिटल प्रतिमा तयार करण्यासाठी. मॉडेलचा वापर वेगवेगळ्या कामांसाठी केला जाऊ शकतो, जसे की मजकूर-मार्गदर्शित प्रतिमा-ते-प्रतिमा भाषांतरे तयार करणे आणि प्रतिमा सुधारणे.

DALL-E सारख्या प्रतिस्पर्धी मॉडेल्सच्या विपरीत, स्टेबल डिफ्यूजन हे ओपन सोर्स१ आहे आणि ते तयार केलेल्या प्रतिमा कृत्रिमरित्या मर्यादित करत नाही. समीक्षकांनी AI च्या नैतिकतेबद्दल चिंता व्यक्त केली आहे, असा दावा केला आहे की मॉडेलचा वापर डीपफेक तयार करण्यासाठी केला जाऊ शकतो.

रॉबिन रॉम्बॅच (स्टेबिलिटी AI) आणि पॅट्रिक एस्सर (रनवे एमएल) यांच्या डायनॅमिक टीमने एलएमयू म्युनिक येथील कॉम्पविस ग्रुपचे प्रो. डॉ. ब्योर्न ओमर यांच्या नेतृत्वाखाली, स्टेबल डिफ्यूजन V1 च्या मूळ प्रकाशनाचे नेतृत्व केले. त्यांनी त्यांच्या पूर्वीच्या प्रयोगशाळेच्या कामावर सुप्त प्रसार मॉडेलसह तयार केले आणि LAION आणि Eleuther AI कडून गंभीर समर्थन मिळवले. तुम्ही आमच्या मागील ब्लॉग पोस्टमध्ये स्थिर प्रसार V1 च्या मूळ प्रकाशनाबद्दल अधिक वाचू शकता. रॉबिन आता स्टॅबिलिटी AI येथे कॅथरीन क्रॉसन सोबत आमच्या व्यापक टीमसह मीडिया मॉडेल्सची पुढची पिढी तयार करण्यासाठी प्रयत्नांचे नेतृत्व करत आहे.

स्टेबल डिफ्यूजन 2.0 मूळ V1 आवृत्तीच्या तुलनेत अनेक उत्तम सुधारणा आणि वैशिष्ट्ये ऑफर करते.

स्थिर प्रसार 2.0 च्या मुख्य बातम्या

या नवीन आवृत्तीमध्ये सादर केले आहे मजकूर वर्णनावर आधारित नवीन प्रतिमा संश्लेषण मॉडेल तयार केले गेले आहे "SD2.0-v", जे 768×768 च्या रिझोल्यूशनसह प्रतिमा निर्माण करण्यास समर्थन देते. नवीन मॉडेलला मजकूर वर्णनासह 5 अब्ज प्रतिमांचा LAION-5850B संग्रह वापरून प्रशिक्षण देण्यात आले.

मॉडेल स्थिर प्रसार 1.5 मॉडेल प्रमाणेच पॅरामीटर्सचा संच वापरते, परंतु मूलभूतपणे भिन्न OpenCLIP-ViT/H एन्कोडरच्या वापरासाठी संक्रमणाद्वारे भिन्न आहे, ज्यामुळे परिणामी प्रतिमांच्या गुणवत्तेत लक्षणीय सुधारणा करणे शक्य झाले.

ए तयार केले आहे SD2.0-base ची सरलीकृत आवृत्ती, शास्त्रीय नॉइज प्रेडिक्शन मॉडेल वापरून 256×256 प्रतिमांवर प्रशिक्षित आणि 512×512 च्या रिझोल्यूशनसह प्रतिमा तयार करण्यास समर्थन दिले.

याशिवाय, असेही अधोरेखित केले आहे सुपरसॅम्पलिंग तंत्रज्ञान वापरण्याची शक्यता प्रदान केली आहे (सुपर रिझोल्यूशन) स्पेसियल स्केलिंग आणि तपशील पुनर्रचना अल्गोरिदम वापरून गुणवत्ता कमी न करता मूळ प्रतिमेचे रिझोल्यूशन वाढवण्यासाठी.

इतर बदलांपैकी जे या नवीन आवृत्तीत उभे आहे:

  • प्रदान केलेले इमेज प्रोसेसिंग मॉडेल (SD20-upscaler) 4x मोठेपणाचे समर्थन करते, ज्यामुळे 2048×2048 रिझोल्यूशन असलेल्या प्रतिमा तयार करता येतात.
  • स्थिर प्रसार 2.0 मध्ये एक अपस्केलर डिफ्यूजन मॉडेल देखील समाविष्ट आहे जे 4 च्या घटकाने प्रतिमा रिझोल्यूशन सुधारते.
  • SD2.0-depth2img मॉडेल प्रस्तावित आहे, जे वस्तूंची खोली आणि अवकाशीय व्यवस्था विचारात घेते. MiDaS प्रणालीचा वापर मोनोक्युलर खोलीचा अंदाज घेण्यासाठी केला जातो.
  • नवीन मजकूर-चालित इंटीरियर पेंट मॉडेल, नवीन स्टेबल डिफ्यूजन 2.0 टेक्स्ट-टू-इमेज बेसवर छान-ट्यून केलेले
  • मॉडेल आपल्याला टेम्पलेट म्हणून दुसरी प्रतिमा वापरून नवीन प्रतिमा संश्लेषित करण्यास अनुमती देते, जी मूळपेक्षा पूर्णपणे भिन्न असू शकते, परंतु एकूण रचना आणि खोली राखून ठेवते. उदाहरणार्थ, तुम्ही फोटोमधील एखाद्या व्यक्तीची पोझ वापरून त्याच पोझमध्ये दुसरे पात्र बनवू शकता.
  • प्रतिमा सुधारित करण्यासाठी अद्ययावत मॉडेल: SD 2.0-इनपेंटिंग, जे प्रतिमेचे भाग बदलण्यासाठी आणि बदलण्यासाठी मजकूर संकेत वापरण्याची परवानगी देते.
  • GPU सह मेनस्ट्रीम सिस्टमवर वापरण्यासाठी मॉडेल्स ऑप्टिमाइझ केली गेली आहेत.

शेवटी होय तुम्हाला त्याबद्दल अधिक जाणून घेण्यात स्वारस्य आहे, तुम्हाला माहित असले पाहिजे की न्यूरल नेटवर्क प्रशिक्षण आणि इमेजिंग टूल्सचा कोड PyTorch फ्रेमवर्क वापरून Python मध्ये लिहिलेला आहे आणि MIT परवान्याअंतर्गत जारी केला आहे.

पूर्व-प्रशिक्षित मॉडेल क्रिएटिव्ह एमएल ओपनरेल-एम परवानग्या अंतर्गत खुले आहेत, जे व्यावसायिक वापरास परवानगी देतात.

स्त्रोत: https://stability.ai


आपली टिप्पणी द्या

आपला ई-मेल पत्ता प्रकाशित केला जाणार नाही. आवश्यक फील्ड चिन्हांकित केले आहेत *

*

*

  1. डेटा जबाबदार: मिगुएल Áन्गल गॅटन
  2. डेटाचा उद्देशः नियंत्रण स्पॅम, टिप्पणी व्यवस्थापन.
  3. कायदे: आपली संमती
  4. डेटा संप्रेषण: कायदेशीर बंधन वगळता डेटा तृतीय पक्षास कळविला जाणार नाही.
  5. डेटा संग्रहण: ओकेन्टस नेटवर्क (EU) द्वारा होस्ट केलेला डेटाबेस
  6. अधिकारः कोणत्याही वेळी आपण आपली माहिती मर्यादित, पुनर्प्राप्त आणि हटवू शकता.