最近 穩定性 AI,亮相 通過博客文章 第二版系統 自動學習 穩定擴散,它能夠根據建議的模板或自然語言文本描述來合成和修改圖像。
穩定擴散是 機器學習模型 由 Stability AI 開發 從自然語言描述中生成高質量的數字圖像. 該模型可用於不同的任務,例如生成文本引導的圖像到圖像的翻譯和圖像增強。
與 DALL-E 等競爭模型不同,Stable Diffusion 是開源的1,不會人為地限制它生成的圖像。 批評者對 AI 的倫理提出了擔憂,聲稱該模型可用於創建 deepfakes。
來自 LMU Munich CompVis Group 的 Robin Rombach(Stability AI)和 Patrick Esser(Runway ML)充滿活力的團隊由 Björn Ommer 教授領導,領導了 Stable Diffusion V1 的最初發布。 他們以之前的潛在擴散模型實驗室工作為基礎,並獲得了 LAION 和 Eleuther AI 的重要支持。 您可以在我們之前的博文中閱讀有關 Stable Diffusion V1 原始版本的更多信息。 Robin 現在與 Stability AI 的 Katherine Crowson 一起領導工作,與我們更廣泛的團隊一起創建下一代媒體模型。
與原始 V2.0 版本相比,Stable Diffusion 1 提供了許多重大改進和功能。
Stable Diffusion 2.0 主要消息
在這個新版本中 已創建基於文本描述的新圖像合成模型 “SD2.0-v”,支持生成分辨率為768×768的圖像。 新模型是使用 LAION-5B 收集的 5850 億張帶有文本描述的圖像進行訓練的。
該模型使用與 Stable Diffusion 1.5 模型相同的一組參數,但不同之處在於過渡到使用根本不同的 OpenCLIP-ViT/H 編碼器,這使得顯著提高生成圖像的質量成為可能。
已經準備了一個 簡化版SD2.0-base,使用經典噪聲預測模型對 256×256 圖像進行訓練,並支持生成分辨率為 512×512 的圖像。
除此之外,還要強調的是 提供了使用超級採樣技術的可能性 (超分辨率)在不降低質量的情況下提高原始圖像的分辨率,使用空間縮放和細節重建算法。
其他變化 從這個新版本中脫穎而出:
- 提供的圖像處理模型(SD20-upscaler)支持4倍放大,可以生成分辨率為2048×2048的圖像。
- Stable Diffusion 2.0 還包括一個 Upscaler Diffusion 模型,可將圖像分辨率提高 4 倍。
- 提出了SD2.0-depth2img模型,該模型兼顧了物體的深度和空間排列。 MiDaS 系統用於估計單眼深度。
- 新的文本驅動的室內塗料模型,在新的 Stable Diffusion 2.0 文本到圖像基礎上進行了微調
- 該模型允許您使用另一幅圖像作為模板合成新圖像,這可能與原始圖像完全不同,但保留了整體構圖和深度。 例如,您可以使用照片中人物的姿勢來組成具有相同姿勢的另一個角色。
- 修改圖像的更新模型:SD 2.0-inpainting,它允許使用文本提示來替換和更改圖像的部分。
- 這些模型已針對在帶有 GPU 的主流系統上使用進行了優化。
最後是 您有興趣了解更多信息,您應該知道神經網絡訓練和成像工具的代碼是使用 PyTorch 框架用 Python 編寫的,並在 MIT 許可下發布。
預訓練模型在 Creative ML OpenRAIL-M 許可下開放,允許商業使用。