Stable Diffusion 2.0 ، ذكاء اصطناعي قادر على تركيب وتعديل الصور

الانتشار المستقر 2.0

تم إنشاء الصورة باستخدام Stable Diffusion 2.0

مؤخرا كشف النقاب عن الاستقرار AI عبر منشور مدونة الإصدار الثاني من النظام التعلم التلقائي انتشار مستقر، وهو قادر على توليف الصور وتعديلها بناءً على قالب مقترح أو وصف نص بلغة طبيعية.

الانتشار المستقر هو نموذج التعلم الآلي تم تطويره بواسطة Stability AI لإنشاء صور رقمية عالية الجودة من أوصاف اللغة الطبيعية. يمكن استخدام النموذج في مهام مختلفة ، مثل إنشاء ترجمات موجهة من صورة إلى صورة وتحسين الصورة.

على عكس النماذج المنافسة مثل DALL-E ، فإن Stable Diffusion هو مفتوح المصدر 1 ولا يحد بشكل مصطنع من الصور التي ينتجها. أثار النقاد مخاوف بشأن أخلاقيات الذكاء الاصطناعي ، مدعين أنه يمكن استخدام النموذج لإنشاء صور مزيفة.

قاد الفريق الديناميكي لـ Robin Rombach (Stability AI) و Patrick Esser (Runway ML) من CompVis Group في LMU Munich برئاسة الأستاذ الدكتور Björn Ommer الإصدار الأصلي من Stable Diffusion V1. لقد بنوا على عملهم المخبري السابق مع نماذج الانتشار الكامنة واكتسبوا دعمًا حاسمًا من LAION و Eleuther AI. يمكنك قراءة المزيد حول الإصدار الأصلي من Stable Diffusion V1 في منشور المدونة السابق. يقود Robin الآن الجهد مع Katherine Crowson في Stability AI لإنشاء الجيل التالي من نماذج الوسائط مع فريقنا الأوسع.

يوفر Stable Diffusion 2.0 عددًا من التحسينات والميزات الرائعة مقارنة بإصدار V1 الأصلي.

المستجدات الرئيسية للانتشار المستقر 2.0

في هذا الإصدار الجديد الذي تم تقديمه تم إنشاء نموذج تركيب صورة جديد يعتمد على وصف النص "SD2.0-v" الذي يدعم توليد الصور بدقة 768 × 768. تم تدريب النموذج الجديد باستخدام مجموعة LAION-5B المؤلفة من 5850 مليار صورة بأوصاف نصية.

يستخدم النموذج نفس مجموعة المعلمات مثل نموذج Stable Diffusion 1.5 ، ولكنه يختلف عن طريق الانتقال إلى استخدام مشفر OpenCLIP-ViT / H مختلف تمامًا ، مما جعل من الممكن تحسين جودة الصور الناتجة بشكل كبير.

تم تحضير أ نسخة مبسطة من SD2.0-base، تم تدريبه على 256 × 256 صورة باستخدام نموذج التنبؤ الكلاسيكي بالضوضاء ودعم توليد الصور بدقة 512 × 512.

بالإضافة إلى ذلك ، تم إبراز ذلك أيضًا يتم توفير إمكانية استخدام تقنية أخذ العينات الفائقة (دقة فائقة) لزيادة دقة الصورة الأصلية دون تقليل الجودة ، باستخدام القياس المكاني وخوارزميات إعادة البناء التفصيلية.

من التغييرات الأخرى التي تتميز عن هذا الإصدار الجديد:

  • يدعم نموذج معالجة الصور المقدم (SD20-upscaler) تكبير 4x ، مما يسمح بإنشاء صور بدقة 2048 × 2048.
  • يتضمن Stable Diffusion 2.0 أيضًا نموذج Upscaler Diffusion الذي يعمل على تحسين دقة الصورة بمعامل 4.
  • تم اقتراح نموذج SD2.0-deep2img ، والذي يأخذ في الاعتبار العمق والترتيب المكاني للأشياء. يستخدم نظام MiDaS لتقدير العمق الأحادي.
  • نموذج طلاء داخلي جديد يحركه النص ، تم ضبطه بدقة على قاعدة النص إلى الصورة الجديدة Stable Diffusion 2.0
  • يتيح لك النموذج توليف صور جديدة باستخدام صورة أخرى كقالب ، والتي قد تكون مختلفة جذريًا عن الصورة الأصلية ، ولكنها تحتفظ بالتركيب العام والعمق. على سبيل المثال ، يمكنك استخدام وضع الشخص في صورة ما لتشكيل شخصية أخرى في نفس الوضع.
  • نموذج محدث لتعديل الصور: SD 2.0-inpainting ، والذي يسمح باستخدام تلميحات نصية لاستبدال وتغيير أجزاء من الصورة.
  • تم تحسين النماذج للاستخدام على الأنظمة السائدة باستخدام وحدة معالجة الرسومات.

نعم في النهاية أنت مهتم بمعرفة المزيد عنها، يجب أن تعلم أن الكود الخاص بأدوات التدريب والتصوير للشبكة العصبية مكتوب بلغة Python باستخدام إطار عمل PyTorch وتم إصداره بموجب ترخيص MIT.

النماذج المدربة مسبقًا مفتوحة بموجب ترخيص Creative ML OpenRAIL-M المسموح به ، والذي يسمح بالاستخدام التجاري.

مصدر: https://stability.ai


اترك تعليقك

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها ب *

*

*

  1. المسؤول عن البيانات: ميغيل أنخيل جاتون
  2. الغرض من البيانات: التحكم في الرسائل الاقتحامية ، وإدارة التعليقات.
  3. الشرعية: موافقتك
  4. توصيل البيانات: لن يتم إرسال البيانات إلى أطراف ثالثة إلا بموجب التزام قانوني.
  5. تخزين البيانات: قاعدة البيانات التي تستضيفها شركة Occentus Networks (الاتحاد الأوروبي)
  6. الحقوق: يمكنك في أي وقت تقييد معلوماتك واستعادتها وحذفها.