Stable Diffusion 2.0，能夠合成和修改影像的AI

使用 Stable Diffusion 2.0 生成的圖像

最近 穩定性 AI，亮相 通過博客文章 第二版系統 自動學習 穩定擴散，它能夠根據建議的模板或自然語言文本描述來合成和修改圖像。

穩定擴散是 機器學習模型 由 Stability AI 開發 從自然語言描述中生成高質量的數字圖像. 該模型可用於不同的任務，例如生成文本引導的圖像到圖像的翻譯和圖像增強。

與 DALL-E 等競爭模型不同，Stable Diffusion 是開源的1，不會人為地限制它生成的圖像。批評者對 AI 的倫理提出了擔憂，聲稱該模型可用於創建 deepfakes。

來自 LMU Munich CompVis Group 的 Robin Rombach（Stability AI）和 Patrick Esser（Runway ML）充滿活力的團隊由 Björn Ommer 教授領導，領導了 Stable Diffusion V1 的最初發布。他們以之前的潛在擴散模型實驗室工作為基礎，並獲得了 LAION 和 Eleuther AI 的重要支持。您可以在我們之前的博文中閱讀有關 Stable Diffusion V1 原始版本的更多信息。 Robin 現在與 Stability AI 的 Katherine Crowson 一起領導工作，與我們更廣泛的團隊一起創建下一代媒體模型。

與原始 V2.0 版本相比，Stable Diffusion 1 提供了許多重大改進和功能。

Stable Diffusion 2.0 主要消息

在這個新版本中 已創建基於文本描述的新圖像合成模型 “SD2.0-v”，支持生成分辨率為768×768的圖像。新模型是使用 LAION-5B 收集的 5850 億張帶有文本描述的圖像進行訓練的。

該模型使用與 Stable Diffusion 1.5 模型相同的一組參數，但不同之處在於過渡到使用根本不同的 OpenCLIP-ViT/H 編碼器，這使得顯著提高生成圖像的質量成為可能。

已經準備了一個 簡化版SD2.0-base，使用經典噪聲預測模型對 256×256 圖像進行訓練，並支持生成分辨率為 512×512 的圖像。

除此之外，還要強調的是 提供了使用超級採樣技術的可能性 （超分辨率）在不降低質量的情況下提高原始圖像的分辨率，使用空間縮放和細節重建算法。

其他變化 從這個新版本中脫穎而出：

提供的圖像處理模型（SD20-upscaler）支持4倍放大，可以生成分辨率為2048×2048的圖像。
Stable Diffusion 2.0 還包括一個 Upscaler Diffusion 模型，可將圖像分辨率提高 4 倍。
提出了SD2.0-depth2img模型，該模型兼顧了物體的深度和空間排列。 MiDaS 系統用於估計單眼深度。
新的文本驅動的室內塗料模型，在新的 Stable Diffusion 2.0 文本到圖像基礎上進行了微調
該模型允許您使用另一幅圖像作為模板合成新圖像，這可能與原始圖像完全不同，但保留了整體構圖和深度。例如，您可以使用照片中人物的姿勢來組成具有相同姿勢的另一個角色。
修改圖像的更新模型：SD 2.0-inpainting，它允許使用文本提示來替換和更改圖像的部分。
這些模型已針對在帶有 GPU 的主流系統上使用進行了優化。

最後是 您有興趣了解更多信息，您應該知道神經網絡訓練和成像工具的代碼是使用 PyTorch 框架用 Python 編寫的，並在 MIT 許可下發布。

預訓練模型在 Creative ML OpenRAIL-M 許可下開放，允許商業使用。

來源： https://stability.ai

DesdeLinux

Stable Diffusion 2.0，一種能夠合成和修改圖像的AI

Stable Diffusion 2.0 主要消息

發表您的評論取消回复

Stable Diffusion 2.0 主要消息

發表您的評論 取消回复

發表您的評論取消回复