Stable Diffusion 2.0، هڪ AI جيڪو تصويرن کي ترتيب ڏيڻ ۽ تبديل ڪرڻ جي قابل آهي

مستحڪم ڊفيوشن 2.0

Stable Diffusion 2.0 سان ٺاهيل تصوير

تازو استحڪام AI، ظاهر ڪيو ويو هڪ بلاگ پوسٽ ذريعي سسٽم جو ٻيو ايڊيشن مشين جي سکيا مستحڪم پکيڙ، جيڪو تجويز ڪيل ٽيمپليٽ يا قدرتي ٻولي جي متن جي وضاحت جي بنياد تي تصويرن کي ترتيب ڏيڻ ۽ تبديل ڪرڻ جي قابل آهي.

مستحڪم ڊفيوشن آهي هڪ مشين سکيا ماڊل Stability AI پاران ٺاهيل قدرتي ٻولي جي وضاحتن مان اعليٰ معيار جون ڊجيٽل تصويرون ٺاهڻ لاءِ. ماڊل مختلف ڪمن لاءِ استعمال ٿي سگھي ٿو، جيئن ٽيڪسٽ گائيڊ تصويري کان تصويري ترجمي ٺاهڻ ۽ تصوير کي وڌائڻ.

مقابلي واري ماڊل جي برعڪس جهڙوڪ DALL-E، اسٽيبل ڊفيوشن اوپن سورس 1 آهي ۽ مصنوعي طور تي انهن تصويرن کي محدود نٿو ڪري جيڪا اها ٺاهي ٿي. نقادن AI جي اخلاقيات بابت خدشات پيدا ڪيا آهن، دعوي ڪئي آهي ته ماڊل ڊيپ فيڪس ٺاهڻ لاءِ استعمال ٿي سگهي ٿو.

Robin Rombach (Stability AI) ۽ Patrick Esser (Runway ML) جي متحرڪ ٽيم LMU ميونخ ۾ CompVis گروپ جي پروفيسر ڊاڪٽر بيجورن اومر جي سربراهي ۾، اسٽيبل ڊفيوشن V1 جي اصل رليز جي اڳواڻي ڪئي. انهن پنهنجي پوئين ليبارٽري ڪم تي لڪير ڊفيوژن ماڊلز سان ٺاهيو ۽ LAION ۽ Eleuther AI کان نازڪ مدد حاصل ڪئي. توهان اسان جي پوئين بلاگ پوسٽ ۾ اسٽيبل ڊفيوژن V1 جي اصل رليز بابت وڌيڪ پڙهي سگهو ٿا. رابن هاڻي اسان جي وسيع ٽيم سان گڏ ميڊيا ماڊلز جي ايندڙ نسل کي ٺاهڻ لاءِ اسٽيبلٽي AI تي ڪيٿرائن ڪروسن سان گڏ ڪوشش جي اڳواڻي ڪري رهيو آهي.

Stable Diffusion 2.0 پيش ڪري ٿو ڪيتريون ئي وڏيون واڌايون ۽ خاصيتون اصل V1 ورزن جي مقابلي ۾.

اسٽيبل ڊفيوژن 2.0 جي مکيه خبر

ھن نئين نسخي ۾ پيش ڪيو ويو آھي متن جي وضاحت جي بنياد تي هڪ نئين تصويري جوڙجڪ ماڊل ٺاهي وئي آهي "SD2.0-v"، جيڪو 768 × 768 جي ريزوليوشن سان تصويرون ٺاهڻ جي حمايت ڪري ٿو. نئين ماڊل کي 5 بلين تصويرن جي LAION-5850B مجموعي کي استعمال ڪندي تربيت ڏني وئي متن جي وضاحت سان.

ماڊل استعمال ڪري ٿو ساڳيو پيٽرولر جو سيٽ Stable Diffusion 1.5 ماڊل، پر بنيادي طور تي مختلف OpenCLIP-ViT/H انڪوڊر جي استعمال جي منتقلي کان مختلف آهي، جنهن اهو ممڪن ڪيو ته نتيجن جي تصويرن جي معيار کي بهتر بڻائڻ.

الف تيار ڪيو ويو آهي SD2.0-base جو آسان نسخو256 × 256 تصويرن تي تربيت ڪئي وئي ڪلاسيڪل شور جي اڳڪٿي واري ماڊل کي استعمال ڪندي ۽ 512 × 512 جي ريزوليوشن سان تصويرن جي نسل کي سپورٽ ڪندي.

ان کان علاوه اهو به نمايان آهي ته supersampling ٽيڪنالاجي استعمال ڪرڻ جو امڪان مهيا ڪيو ويو آهي (سپر ريزوليوشن) اصل تصوير جي ريزوليوشن کي وڌائڻ لاءِ معيار کي گھٽائڻ کان سواءِ، اسپيٽل اسڪيلنگ ۽ تفصيلي تعميراتي الگورتھم استعمال ڪندي.

ٻين تبديلين جا انهي نئين ورزن کان ٻاهر نڪتو

  • مهيا ڪيل تصويري پروسيسنگ ماڊل (SD20-upscaler) 4x ميگنيفڪيشن کي سپورٽ ڪري ٿو، جيڪا 2048×2048 جي ريزوليوشن سان تصويرن کي پيدا ڪرڻ جي اجازت ڏئي ٿي.
  • Stable Diffusion 2.0 ۾ هڪ Upscaler Diffusion ماڊل پڻ شامل آهي جيڪو 4 جي فيڪٽر ذريعي تصويري ريزوليوشن کي بهتر بڻائي ٿو.
  • SD2.0-depth2img ماڊل پيش ڪيو ويو آهي، جيڪو شيون جي کوٽائي ۽ فضائي ترتيب کي حساب ۾ رکي ٿو. MiDaS سسٽم monocular جي کوٽائي جو اندازو لڳائڻ لاء استعمال ڪيو ويندو آهي.
  • نئون متن تي هلندڙ اندروني رنگ جو ماڊل، نئين اسٽيبل ڊفيوشن 2.0 ٽيڪسٽ کان تصويري بنياد تي ٺيڪ ٺهيو
  • ماڊل توهان کي نئين تصويرن کي هڪ ٽيمپليٽ جي طور تي استعمال ڪندي نئين تصويرن کي ترتيب ڏيڻ جي اجازت ڏئي ٿو، جيڪا بنيادي طور تي اصل کان مختلف ٿي سگهي ٿي، پر مجموعي ساخت ۽ کوٽائي برقرار رکي ٿي. مثال طور، توهان هڪ تصوير ۾ هڪ شخص جي پوز استعمال ڪري سگهو ٿا ساڳئي پوز ۾ ٻيو ڪردار ٺاهي.
  • تصويرون تبديل ڪرڻ لاءِ اپڊيٽ ٿيل ماڊل: SD 2.0-inpainting، جيڪا تصوير جي حصن کي تبديل ڪرڻ ۽ تبديل ڪرڻ لاءِ ٽيڪسٽ اشارن کي استعمال ڪرڻ جي اجازت ڏئي ٿي.
  • ماڊلز کي GPU سان مين اسٽريم سسٽم تي استعمال لاءِ بهتر ڪيو ويو آهي.

آخرڪار ها توھان ان بابت وڌيڪ ڄاڻڻ ۾ دلچسپي رکو ٿا، توهان کي ڄاڻڻ گهرجي ته نيورل نيٽ ورڪ ٽريننگ ۽ اميجنگ ٽولز جو ڪوڊ Python ۾ PyTorch فريم ورڪ استعمال ڪندي لکيو ويو آهي ۽ MIT لائسنس تحت جاري ڪيو ويو آهي.

اڳ-تربيت ٿيل ماڊل تخليقي ML OpenRAIL-M اجازت واري لائسنس تحت کليل آهن، جيڪي تجارتي استعمال جي اجازت ڏين ٿيون.

ذريعو: https://stability.ai


مضمون جو مواد اسان جي اصولن تي عمل ڪري ٿو ايڊيٽوريل اخلاقيات. غلطي ڪلڪ ڪرڻ جي رپورٽ لاءِ هتي.

تبصرو ڪرڻ جو پهريون

پنهنجي راءِ ڏيو

پنهنجي اي ميل ايڊريس شايع نه ڪيو ويندو. گهري شعبن سان لڳل آهن *

*

*

  1. ڊيٽا جو ذميوار: Miguel Ángel Gatón
  2. ڊيٽا جو مقصد: ڪنٽرول سپيم ، تبصرو جي انتظام.
  3. سازش: توهان جي رضامندي
  4. ڊيٽا جي ابلاغ: ڊيٽا کي قانوني ذميواري کانسواءِ ٽئين پارٽين تائين رسائي نه ڏني ويندي.
  5. ڊيٽا اسٽوريج: ڊيٽابيس اويسينٽس نيٽورڪ (اي يو) پاران ميزباني ڪيل
  6. حق: ڪنهن به وقت توهان پنهنجي معلومات کي محدود ، ٻيهر ۽ ختم ڪري سگهو ٿا.