Stable Diffusion 2.0,一種能夠合成和修改圖像的AI

穩定擴散2.0

使用 Stable Diffusion 2.0 生成的圖像

最近 穩定性 AI,亮相 通過博客文章 第二版系統 自動學習 穩定擴散,它能夠根據建議的模板或自然語言文本描述來合成和修改圖像。

穩定擴散是 機器學習模型 由 Stability AI 開發 從自然語言描述中生成高質量的數字圖像. 該模型可用於不同的任務,例如生成文本引導的圖像到圖像的翻譯和圖像增強。

與 DALL-E 等競爭模型不同,Stable Diffusion 是開源的1,不會人為地限制它生成的圖像。 批評者對 AI 的倫理提出了擔憂,聲稱該模型可用於創建 deepfakes。

來自 LMU Munich CompVis Group 的 Robin Rombach(Stability AI)和 Patrick Esser(Runway ML)充滿活力的團隊由 Björn Ommer 教授領導,領導了 Stable Diffusion V1 的最初發布。 他們以之前的潛在擴散模型實驗室工作為基礎,並獲得了 LAION 和 Eleuther AI 的重要支持。 您可以在我們之前的博文中閱讀有關 Stable Diffusion V1 原始版本的更多信息。 Robin 現在與 Stability AI 的 Katherine Crowson 一起領導工作,與我們更廣泛的團隊一起創建下一代媒體模型。

與原始 V2.0 版本相比,Stable Diffusion 1 提供了許多重大改進和功能。

Stable Diffusion 2.0 主要消息

在這個新版本中 已創建基於文本描述的新圖像合成模型 “SD2.0-v”,支持生成分辨率為768×768的圖像。 新模型是使用 LAION-5B 收集的 5850 億張帶有文本描述的圖像進行訓練的。

該模型使用與 Stable Diffusion 1.5 模型相同的一組參數,但不同之處在於過渡到使用根本不同的 OpenCLIP-ViT/H 編碼器,這使得顯著提高生成圖像的質量成為可能。

已經準備了一個 簡化版SD2.0-base,使用經典噪聲預測模型對 256×256 圖像進行訓練,並支持生成分辨率為 512×512 的圖像。

除此之外,還要強調的是 提供了使用超級採樣技術的可能性 (超分辨率)在不降低質量的情況下提高原始圖像的分辨率,使用空間縮放和細節重建算法。

其他變化 從這個新版本中脫穎而出:

  • 提供的圖像處理模型(SD20-upscaler)支持4倍放大,可以生成分辨率為2048×2048的圖像。
  • Stable Diffusion 2.0 還包括一個 Upscaler Diffusion 模型,可將圖像分辨率提高 4 倍。
  • 提出了SD2.0-depth2img模型,該模型兼顧了物體的深度和空間排列。 MiDaS 系統用於估計單眼深度。
  • 新的文本驅動的室內塗料模型,在新的 Stable Diffusion 2.0 文本到圖像基礎上進行了微調
  • 該模型允許您使用另一幅圖像作為模板合成新圖像,這可能與原始圖像完全不同,但保留了整體構圖和深度。 例如,您可以使用照片中人物的姿勢來組成具有相同姿勢的另一個角色。
  • 修改圖像的更新模型:SD 2.0-inpainting,它允許使用文本提示來替換和更改圖像的部分。
  • 這些模型已針對在帶有 GPU 的主流系統上使用進行了優化。

最後是 您有興趣了解更多信息,您應該知道神經網絡訓練和成像工具的代碼是使用 PyTorch 框架用 Python 編寫的,並在 MIT 許可下發布。

預訓練模型在 Creative ML OpenRAIL-M 許可下開放,允許商業使用。

來源: https://stability.ai


發表您的評論

您的電子郵件地址將不會被發表。 必填字段標有 *

*

*

  1. 負責數據:MiguelÁngelGatón
  2. 數據用途:控制垃圾郵件,註釋管理。
  3. 合法性:您的同意
  4. 數據通訊:除非有法律義務,否則不會將數據傳達給第三方。
  5. 數據存儲:Occentus Networks(EU)託管的數據庫
  6. 權利:您可以隨時限制,恢復和刪除您的信息。