画像合成・加工AI「Stable Diffusion 2.0」

安定拡散 2.0

Stable Diffusion 2.0 で生成された画像

最近 スタビリティAI、発表 ブログ投稿経由 システムの第 XNUMX 版 自動学習 安定拡散、提案されたテンプレートまたは自然言語のテキスト説明に基づいて画像を合成および変更できます。

安定拡散は 機械学習モデル スタビリティAIが開発 自然言語の記述から高品質のデジタル画像を生成する. このモデルは、テキスト ガイドによる画像から画像への変換や画像強調の生成など、さまざまなタスクに使用できます。

DALL-E などの競合モデルとは異なり、Stable Diffusion はオープン ソース 1 であり、生成される画像を人為的に制限しません。 批評家は、モデルがディープフェイクの作成に使用できると主張して、AI の倫理について懸念を表明しています。

Björn Ommer 博士が率いる LMU ミュンヘンの CompVis グループの Robin Rombach (Stability AI) と Patrick Esser (Runway ML) のダイナミックなチームが、Stable Diffusion V1 の最初のリリースを主導しました。 彼らは潜在拡散モデルを使用して以前のラボでの作業を構築し、LAION と Eleuther AI から重要なサポートを得ました。 Stable Diffusion V1 のオリジナル リリースの詳細については、以前のブログ投稿をご覧ください。 Robin は現在、Stability AI で Katherine Crowson と共に取り組みを主導し、幅広いチームで次世代のメディア モデルを作成しています。

Stable Diffusion 2.0 は、元の V1 バージョンと比較して、多くの大幅な改善と機能を提供します。

Stable Diffusion 2.0の主なニュース

提示されるこの新しいバージョンでは テキスト記述に基づく新しい画像合成モデルが作成されました 解像度2.0×768の画像生成に対応した「SD768-v」。 新しいモデルは、テキスト説明付きの 5 億 5850 万枚の画像の LAION-XNUMXB コレクションを使用してトレーニングされました。

このモデルは、Stable Diffusion 1.5 モデルと同じパラメーター セットを使用しますが、根本的に異なる OpenCLIP-ViT/H エンコーダーの使用への移行によって異なり、結果の画像の品質を大幅に向上させることができました。

Aが用意されています SD2.0ベースの簡易版、古典的なノイズ予測モデルを使用して 256×256 画像でトレーニングされ、512×512 の解像度の画像の生成をサポートします。

これに加えて、次のことも強調されています スーパーサンプリング技術を使用する可能性が提供されます (超解像) 空間スケーリングと詳細再構成アルゴリズムを使用して、品質を低下させることなく元の画像の解像度を上げます。

その他の変更点 この新しいバージョンから際立っている:

  • 付属の画像処理モデル(SD20アップスケーラー)は4倍拡大に対応しており、解像度2048×2048の画像を生成できます。
  • Stable Diffusion 2.0 には、画像の解像度を 4 倍に向上させる Upscaler Diffusion モデルも含まれています。
  • オブジェクトの奥行きと空間配置を考慮した SD2.0-depth2img モデルが提案されています。 MiDaS システムは、単眼深度の推定に使用されます。
  • 新しい Stable Diffusion 2.0 テキストから画像へのベースで微調整された、新しいテキスト主導のインテリア ペイント モデル
  • このモデルを使用すると、別の画像をテンプレートとして使用して新しい画像を合成できます。元の画像とは根本的に異なる場合がありますが、全体的な構成と深さは保持されます。 たとえば、写真に写っている人物のポーズを使用して、同じポーズで別のキャラクターを形成できます。
  • 画像を変更するための更新されたモデル: SD 2.0-inpainting により、テキスト ヒントを使用して画像の一部を置換および変更できます。
  • モデルは、GPU を備えたメインストリーム システムで使用するために最適化されています。

最後にはい あなたはそれについてもっと知りたいです、ニューラル ネットワークのトレーニングおよびイメージング ツールのコードは、PyTorch フレームワークを使用して Python で記述され、MIT ライセンスの下でリリースされていることを知っておく必要があります。

事前トレーニング済みのモデルは、Creative ML OpenRAIL-M permissive ライセンスの下で公開されており、商用利用が許可されています。

出典 https://stability.ai


コメントを残す

あなたのメールアドレスが公開されることはありません。 必須フィールドには付いています *

*

*

  1. データの責任者:MiguelÁngelGatón
  2. データの目的:SPAMの制御、コメント管理。
  3. 正当化:あなたの同意
  4. データの伝達:法的義務がある場合を除き、データが第三者に伝達されることはありません。
  5. データストレージ:Occentus Networks(EU)がホストするデータベース
  6. 権利:いつでも情報を制限、回復、削除できます。