Stable Diffusion 2.0, eine KI, die Bilder synthetisieren und modifizieren kann

Stalldiffusion 2.0

Bild erzeugt mit Stable Diffusion 2.0

Vor kurzem Stabilitäts-KI, enthüllt über einen Blogbeitrag die zweite Auflage des Systems automatisches Lernen Stable Diffusion , das in der Lage ist, Bilder basierend auf einer vorgeschlagenen Vorlage oder einer Textbeschreibung in natürlicher Sprache zu synthetisieren und zu modifizieren.

Stabile Diffusion ist ein maschinelles Lernmodell entwickelt von Stability AI um hochwertige digitale Bilder aus Beschreibungen in natürlicher Sprache zu generieren. Das Modell kann für verschiedene Aufgaben verwendet werden, wie z. B. das Generieren von textgeführten Bild-zu-Bild-Übersetzungen und die Bildverbesserung.

Im Gegensatz zu konkurrierenden Modellen wie DALL-E ist Stable Diffusion Open Source1 und schränkt die erzeugten Bilder nicht künstlich ein. Kritiker haben Bedenken hinsichtlich der Ethik der KI geäußert und behauptet, dass das Modell zur Erstellung von Deepfakes verwendet werden kann.

Das dynamische Team von Robin Rombach (Stability AI) und Patrick Esser (Runway ML) von der CompVis Group an der LMU München unter der Leitung von Prof. Dr. Björn Ommer leitete die ursprüngliche Veröffentlichung von Stable Diffusion V1. Sie bauten auf ihrer früheren Laborarbeit mit latenten Diffusionsmodellen auf und erhielten entscheidende Unterstützung von LAION und Eleuther AI. Sie können mehr über die ursprüngliche Version von Stable Diffusion V1 in unserem vorherigen Blogbeitrag lesen. Robin leitet nun die Bemühungen mit Katherine Crowson bei Stability AI, um mit unserem breiteren Team die nächste Generation von Medienmodellen zu entwickeln.

Stable Diffusion 2.0 bietet eine Reihe großartiger Verbesserungen und Funktionen im Vergleich zur ursprünglichen V1-Version.

Die wichtigsten Neuigkeiten von Stable Diffusion 2.0

In dieser neuen Version wird das vorgestellt ein neues Bildsynthesemodell basierend auf einer Textbeschreibung wurde erstellt „SD2.0-v“, das die Generierung von Bildern mit einer Auflösung von 768×768 unterstützt. Das neue Modell wurde mit der LAION-5B-Sammlung von 5850 Milliarden Bildern mit Textbeschreibungen trainiert.

Das Modell verwendet denselben Parametersatz wie das Stable Diffusion 1.5-Modell, unterscheidet sich jedoch durch den Übergang zur Verwendung eines grundlegend anderen OpenCLIP-ViT/H-Encoders, wodurch die Qualität der resultierenden Bilder erheblich verbessert werden konnte.

A ist vorbereitet vereinfachte Version der SD2.0-Basis, trainiert auf 256 × 256 Bildern unter Verwendung des klassischen Rauschvorhersagemodells und Unterstützung der Generierung von Bildern mit einer Auflösung von 512 × 512.

Darüber hinaus wird auch hervorgehoben, dass die Möglichkeit der Nutzung der Supersampling-Technologie ist gegeben (Super Resolution), um die Auflösung des Originalbilds zu erhöhen, ohne die Qualität zu beeinträchtigen, indem räumliche Skalierungs- und Detailrekonstruktionsalgorithmen verwendet werden.

Von den anderen Änderungen das hebt sich von dieser neuen Version ab:

  • Das bereitgestellte Bildverarbeitungsmodell (SD20-Upscaler) unterstützt eine 4-fache Vergrößerung, sodass Bilder mit einer Auflösung von 2048 × 2048 erzeugt werden können.
  • Stable Diffusion 2.0 enthält auch ein Upscaler Diffusion-Modell, das die Bildauflösung um den Faktor 4 verbessert.
  • Das Modell SD2.0-depth2img wird vorgeschlagen, das die Tiefe und die räumliche Anordnung von Objekten berücksichtigt. Das MiDaS-System wird verwendet, um die monokulare Tiefe zu schätzen.
  • Neues textgesteuertes Innenfarbenmodell, fein abgestimmt auf der neuen Stable Diffusion 2.0-Text-zu-Bild-Basis
  • Das Modell ermöglicht es Ihnen, neue Bilder zu synthetisieren, indem Sie ein anderes Bild als Vorlage verwenden, das sich möglicherweise radikal vom Original unterscheidet, aber die Gesamtkomposition und -tiefe beibehält. Sie können beispielsweise die Pose einer Person auf einem Foto verwenden, um eine andere Figur in derselben Pose zu formen.
  • Aktualisiertes Modell zum Ändern von Bildern: SD 2.0-inpainting, das die Verwendung von Texthinweisen zum Ersetzen und Ändern von Teilen des Bildes ermöglicht.
  • Die Modelle wurden für den Einsatz auf Mainstream-Systemen mit GPU optimiert.

Endlich ja Sie möchten mehr darüber erfahren, sollten Sie wissen, dass der Code für die Trainings- und Imaging-Tools für neuronale Netzwerke in Python unter Verwendung des PyTorch-Frameworks geschrieben und unter der MIT-Lizenz veröffentlicht wurde.

Vortrainierte Modelle sind unter der freizügigen Creative ML OpenRAIL-M-Lizenz verfügbar, die eine kommerzielle Nutzung erlaubt.

Quelle: https://stability.ai


Hinterlasse einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert mit *

*

*

  1. Verantwortlich für die Daten: Miguel Ángel Gatón
  2. Zweck der Daten: Kontrolle von SPAM, Kommentarverwaltung.
  3. Legitimation: Ihre Zustimmung
  4. Übermittlung der Daten: Die Daten werden nur durch gesetzliche Verpflichtung an Dritte weitergegeben.
  5. Datenspeicherung: Von Occentus Networks (EU) gehostete Datenbank
  6. Rechte: Sie können Ihre Informationen jederzeit einschränken, wiederherstellen und löschen.