Stable Diffusion 2.0,一种能够合成和修改图像的AI

稳定扩散2.0

使用 Stable Diffusion 2.0 生成的图像

最近 稳定性 AI,亮相 通过博客文章 第二版系统 机器学习 稳定扩散,它能够根据建议的模板或自然语言文本描述来合成和修改图像。

稳定扩散是 机器学习模型 由 Stability AI 开发 从自然语言描述中生成高质量的数字图像. 该模型可用于不同的任务,例如生成文本引导的图像到图像的翻译和图像增强。

与 DALL-E 等竞争模型不同,Stable Diffusion 是开源的1,不会人为地限制它生成的图像。 批评者对 AI 的伦理提出了担忧,声称该模型可用于创建 deepfakes。

来自 LMU Munich CompVis Group 的 Robin Rombach(Stability AI)和 Patrick Esser(Runway ML)充满活力的团队由 Björn Ommer 教授领导,领导了 Stable Diffusion V1 的最初发布。 他们以之前的潜在扩散模型实验室工作为基础,并获得了 LAION 和 Eleuther AI 的重要支持。 您可以在我们之前的博文中阅读有关 Stable Diffusion V1 原始版本的更多信息。 Robin 现在与 Stability AI 的 Katherine Crowson 一起领导工作,与我们更广泛的团队一起创建下一代媒体模型。

与原始 V2.0 版本相比,Stable Diffusion 1 提供了许多重大改进和功能。

Stable Diffusion 2.0 主要消息

在这个新版本中 已创建基于文本描述的新图像合成模型 “SD2.0-v”,支持生成分辨率为768×768的图像。 新模型是使用 LAION-5B 收集的 5850 亿张带有文本描述的图像进行训练的。

该模型使用与 Stable Diffusion 1.5 模型相同的一组参数,但不同之处在于过渡到使用完全不同的 OpenCLIP-ViT/H 编码器,这使得显着提高生成图像的质量成为可能。

A已准备好 简化版SD2.0-base,使用经典噪声预测模型对 256×256 图像进行训练,并支持生成分辨率为 512×512 的图像。

除此之外,还要强调的是 提供了使用超级采样技术的可能性 (超分辨率)在不降低质量的情况下提高原始图像的分辨率,使用空间缩放和细节重建算法。

其他变化 从这个新版本中脱颖而出:

  • 提供的图像处理模型(SD20-upscaler)支持4倍放大,可以生成分辨率为2048×2048的图像。
  • Stable Diffusion 2.0 还包括一个 Upscaler Diffusion 模型,可将图像分辨率提高 4 倍。
  • 提出了SD2.0-depth2img模型,该模型兼顾了物体的深度和空间排列。 MiDaS 系统用于估计单眼深度。
  • 新的文本驱动的室内涂料模型,在新的 Stable Diffusion 2.0 文本到图像基础上进行了微调
  • 该模型允许您使用另一幅图像作为模板合成新图像,这可能与原始图像完全不同,但保留了整体构图和深度。 例如,您可以使用照片中人物的姿势来组成具有相同姿势的另一个角色。
  • 修改图像的更新模型:SD 2.0-inpainting,它允许使用文本提示来替换和更改图像的部分。
  • 这些模型已针对在带有 GPU 的主流系统上使用进行了优化。

最后是 您有兴趣了解更多信息,您应该知道神经网络训练和成像工具的代码是使用 PyTorch 框架用 Python 编写的,并在 MIT 许可下发布。

预训练模型在 Creative ML OpenRAIL-M 许可下开放,允许商业使用。

数据来源: https://stability.ai


发表您的评论

您的电子邮件地址将不会被发表。 必填字段标有 *

*

*

  1. 负责数据:MiguelÁngelGatón
  2. 数据用途:控制垃圾邮件,注释管理。
  3. 合法性:您的同意
  4. 数据通讯:除非有法律义务,否则不会将数据传达给第三方。
  5. 数据存储:Occentus Networks(EU)托管的数据库
  6. 权利:您可以随时限制,恢复和删除您的信息。