Stable Diffusion 2.0，能够合成和修改图像的AI

使用 Stable Diffusion 2.0 生成的图像

最近 稳定性 AI，亮相 通过博客文章 第二版系统 机器学习 稳定扩散，它能够根据建议的模板或自然语言文本描述来合成和修改图像。

稳定扩散是 机器学习模型 由 Stability AI 开发 从自然语言描述中生成高质量的数字图像. 该模型可用于不同的任务，例如生成文本引导的图像到图像的翻译和图像增强。

与 DALL-E 等竞争模型不同，Stable Diffusion 是开源的1，不会人为地限制它生成的图像。批评者对 AI 的伦理提出了担忧，声称该模型可用于创建 deepfakes。

来自 LMU Munich CompVis Group 的 Robin Rombach（Stability AI）和 Patrick Esser（Runway ML）充满活力的团队由 Björn Ommer 教授领导，领导了 Stable Diffusion V1 的最初发布。他们以之前的潜在扩散模型实验室工作为基础，并获得了 LAION 和 Eleuther AI 的重要支持。您可以在我们之前的博文中阅读有关 Stable Diffusion V1 原始版本的更多信息。 Robin 现在与 Stability AI 的 Katherine Crowson 一起领导工作，与我们更广泛的团队一起创建下一代媒体模型。

与原始 V2.0 版本相比，Stable Diffusion 1 提供了许多重大改进和功能。

Stable Diffusion 2.0 主要消息

在这个新版本中 已创建基于文本描述的新图像合成模型 “SD2.0-v”，支持生成分辨率为768×768的图像。新模型是使用 LAION-5B 收集的 5850 亿张带有文本描述的图像进行训练的。

该模型使用与 Stable Diffusion 1.5 模型相同的一组参数，但不同之处在于过渡到使用完全不同的 OpenCLIP-ViT/H 编码器，这使得显着提高生成图像的质量成为可能。

A已准备好 简化版SD2.0-base，使用经典噪声预测模型对 256×256 图像进行训练，并支持生成分辨率为 512×512 的图像。

除此之外，还要强调的是 提供了使用超级采样技术的可能性 （超分辨率）在不降低质量的情况下提高原始图像的分辨率，使用空间缩放和细节重建算法。

其他变化 从这个新版本中脱颖而出：

提供的图像处理模型（SD20-upscaler）支持4倍放大，可以生成分辨率为2048×2048的图像。
Stable Diffusion 2.0 还包括一个 Upscaler Diffusion 模型，可将图像分辨率提高 4 倍。
提出了SD2.0-depth2img模型，该模型兼顾了物体的深度和空间排列。 MiDaS 系统用于估计单眼深度。
新的文本驱动的室内涂料模型，在新的 Stable Diffusion 2.0 文本到图像基础上进行了微调
该模型允许您使用另一幅图像作为模板合成新图像，这可能与原始图像完全不同，但保留了整体构图和深度。例如，您可以使用照片中人物的姿势来组成具有相同姿势的另一个角色。
修改图像的更新模型：SD 2.0-inpainting，它允许使用文本提示来替换和更改图像的部分。
这些模型已针对在带有 GPU 的主流系统上使用进行了优化。

最后是 您有兴趣了解更多信息，您应该知道神经网络训练和成像工具的代码是使用 PyTorch 框架用 Python 编写的，并在 MIT 许可下发布。

预训练模型在 Creative ML OpenRAIL-M 许可下开放，允许商业使用。

数据来源： https://stability.ai

DesdeLinux

Stable Diffusion 2.0，一种能够合成和修改图像的AI

Stable Diffusion 2.0 主要消息

发表您的评论取消回复

Stable Diffusion 2.0 主要消息

发表您的评论 取消回复

发表您的评论取消回复