Görüntüleri sentezleyebilen ve değiştirebilen bir yapay zeka olan Stable Difüzyon 2.0

Kararlı Difüzyon 2.0

Stable Difusion 2.0 ile oluşturulan görüntü

geçenlerde Kararlılık Yapay Zekası tanıtıldı bir blog yazısı aracılığıyla sistemin ikinci versiyonu makine öğrenme Kararlı Difüzyon, görüntüleri önerilen bir şablona veya doğal dildeki bir metin açıklamasına göre sentezleme ve değiştirme yeteneğine sahiptir.

Kararlı Difüzyon bir makine öğrenimi modeli Stability AI tarafından geliştirildi doğal dil açıklamalarından yüksek kaliteli dijital görüntüler oluşturmak için. Model, metin kılavuzlu görüntüden görüntüye çeviriler oluşturmak ve görüntü geliştirme gibi farklı görevler için kullanılabilir.

DALL-E gibi rakip modellerin aksine, Stable Difüzyon açık kaynaklıdır1 ve ürettiği görüntüleri yapay olarak sınırlamaz. Eleştirmenler, modelin derin sahtekarlıklar oluşturmak için kullanılabileceğini iddia ederek yapay zekanın etiğiyle ilgili endişelerini dile getirdiler.

Prof. Dr. Björn Ommer başkanlığındaki LMU Münih'teki CompVis Group'tan Robin Rombach (Stability AI) ve Patrick Esser'den (Runway ML) oluşan dinamik ekip, Stable Diffusion V1'in orijinal sürümünü yönetti. Gizli difüzyon modelleriyle önceki laboratuvar çalışmalarını temel aldılar ve LAION ile Eleuther AI'dan kritik destek aldılar. Önceki blog yazımızda Stable Diffusion V1'in orijinal sürümü hakkında daha fazla bilgi edinebilirsiniz. Robin şu anda Stability AI'da Katherine Crowson ile birlikte daha geniş ekibimizle yeni nesil medya modellerini yaratma çabalarına liderlik ediyor.

Stable Diffusion 2.0, orijinal V1 sürümüne kıyasla bir dizi harika iyileştirme ve özellik sunar.

Kararlı Difüzyon 2.0 ile ilgili ana haberler

Sunulan bu yeni versiyonda metin açıklamasına dayalı yeni bir görüntü sentez modeli oluşturuldu 2.0×768 çözünürlüklü görüntülerin oluşturulmasını destekleyen "SD768-v". Yeni model, metin açıklamalarıyla birlikte 5 milyar görüntüden oluşan LAION-5850B koleksiyonu kullanılarak eğitildi.

Model, Stable Diffusion 1.5 modeliyle aynı parametre setini kullanır, ancak temelde farklı bir OpenCLIP-ViT/H kodlayıcı kullanımına geçişle farklılık gösterir, bu da elde edilen görüntülerin kalitesini önemli ölçüde iyileştirmeyi mümkün kılar.

bir hazırlandı SD2.0 tabanının basitleştirilmiş versiyonu, klasik gürültü tahmin modeli kullanılarak 256×256 görüntüler üzerinde eğitilmiş ve 512×512 çözünürlüklü görüntülerin oluşturulmasını desteklemiştir.

Bunun yanında ayrıca vurgulanmaktadır. süper örnekleme teknolojisini kullanma imkanı sağlanır (Süper Çözünürlük) uzamsal ölçeklendirme ve ayrıntılı yeniden yapılandırma algoritmalarını kullanarak kaliteyi düşürmeden orijinal görüntünün çözünürlüğünü artırmak için.

Diğer değişikliklerden bu yeni sürümden öne çıkan:

  • Sağlanan görüntü işleme modeli (SD20-upscaler), 4x büyütmeyi destekleyerek 2048×2048 çözünürlüğe sahip görüntülerin oluşturulmasına olanak tanır.
  • Stable Diffusion 2.0 ayrıca görüntü çözünürlüğünü 4 kat artıran bir Yükseltmeli Difüzyon modeli içerir.
  • Nesnelerin derinliğini ve uzamsal düzenlemesini hesaba katan SD2.0-Derinlik2img modeli önerilmiştir. MiDaS sistemi, monoküler derinliği tahmin etmek için kullanılır.
  • Yeni Stable Diffusion 2.0 metinden görüntüye taban üzerinde ince ayarı yapılmış yeni metin odaklı iç boya modeli
  • Model, orijinalinden kökten farklı olabilecek ancak genel kompozisyonu ve derinliği koruyan başka bir görüntüyü şablon olarak kullanarak yeni görüntüleri sentezlemenize olanak tanır. Örneğin bir fotoğraftaki kişinin pozunu aynı pozda başka bir karakter oluşturmak için kullanabilirsiniz.
  • Görüntüleri değiştirmek için güncellenmiş model: Görüntünün parçalarını değiştirmek ve değiştirmek için metin ipuçlarının kullanılmasına izin veren SD 2.0-inpainting.
  • Modeller, GPU'lu ana sistemlerde kullanım için optimize edilmiştir.

Sonunda evet onun hakkında daha fazla bilgi edinmekle ilgileniyorsunuz, sinir ağı eğitim ve görüntüleme araçlarının kodunun PyTorch çerçevesi kullanılarak Python'da yazıldığını ve MIT lisansı altında yayınlandığını bilmelisiniz.

Önceden eğitilmiş modeller, ticari kullanıma izin veren Creative ML OpenRAIL-M müsamahalı lisansı altında açıktır.

kaynak: https://stability.ai


Yorumunuzu bırakın

E-posta hesabınız yayınlanmayacak. Gerekli alanlar ile işaretlenmiştir *

*

*

  1. Verilerden sorumlu: Miguel Ángel Gatón
  2. Verilerin amacı: Kontrol SPAM, yorum yönetimi.
  3. Meşruiyet: Onayınız
  4. Verilerin iletilmesi: Veriler, yasal zorunluluk dışında üçüncü kişilere iletilmeyecektir.
  5. Veri depolama: Occentus Networks (AB) tarafından barındırılan veritabanı
  6. Haklar: Bilgilerinizi istediğiniz zaman sınırlayabilir, kurtarabilir ve silebilirsiniz.