Stable Diffusion 2.0, AI, способен да синтезира и модифицира изображения

Стабилна дифузия 2.0

Изображение, генерирано със Stable Diffusion 2.0

наскоро AI за стабилност, представен чрез публикация в блога второто издание на системата автоматично обучение Стабилна дифузия, който е в състояние да синтезира и модифицира изображения въз основа на предложен шаблон или текстово описание на естествен език.

Стабилна дифузия е модел на машинно обучение разработен от Stability AI за генериране на висококачествени цифрови изображения от описания на естествен език. Моделът може да се използва за различни задачи, като например генериране на управлявани от текст преводи от изображение към изображение и подобряване на изображението.

За разлика от конкурентни модели като DALL-E, Stable Diffusion е с отворен код1 и не ограничава изкуствено изображенията, които създава. Критиците изразиха загриженост относно етиката на AI, твърдейки, че моделът може да се използва за създаване на дълбоки фалшификати.

Динамичният екип на Робин Ромбах (Stability AI) и Патрик Есер (Runway ML) от CompVis Group в LMU Мюнхен, ръководен от проф. д-р Бьорн Омер, ръководи оригиналното издание на Stable Diffusion V1. Те надграждаха предишната си лабораторна работа с модели на латентна дифузия и получиха критична подкрепа от LAION и Eleuther AI. Можете да прочетете повече за оригиналното издание на Stable Diffusion V1 в предишната ни публикация в блога. Сега Робин ръководи усилията с Катрин Кроусън в Stability AI за създаване на следващото поколение медийни модели с нашия по-широк екип.

Stable Diffusion 2.0 предлага редица страхотни подобрения и функции в сравнение с оригиналната версия V1.

Основни новости на Stable Diffusion 2.0

В тази нова версия, която е представена е създаден нов модел за синтез на изображение, базиран на текстово описание "SD2.0-v", който поддържа генериране на изображения с резолюция 768×768. Новият модел беше обучен с помощта на колекцията LAION-5B от 5850 милиарда изображения с текстови описания.

Моделът използва същия набор от параметри като модела Stable Diffusion 1.5, но се различава от прехода към използването на фундаментално различен OpenCLIP-ViT/H енкодер, което направи възможно значително подобряване на качеството на получените изображения.

А е подготвена опростена версия на SD2.0-база, обучен на 256 × 256 изображения, използвайки класическия модел за предсказване на шум и поддържайки генерирането на изображения с разделителна способност 512 × 512.

В допълнение към това се подчертава и това осигурена е възможност за използване на технология за суперсемплиране (Супер разделителна способност), за да увеличи разделителната способност на оригиналното изображение, без да намалява качеството, като използва пространствено мащабиране и алгоритми за реконструкция на детайли.

От останалите промени които се открояват от тази нова версия:

  • Предоставеният модел за обработка на изображения (SD20-upscaler) поддържа 4x увеличение, което позволява генерирането на изображения с разделителна способност 2048×2048.
  • Stable Diffusion 2.0 също включва модел Upscaler Diffusion, който подобрява разделителната способност на изображението с коефициент 4.
  • Предложен е моделът SD2.0-depth2img, който отчита дълбочината и пространственото разположение на обектите. Системата MiDaS се използва за оценка на монокулярната дълбочина.
  • Нов управляван от текст модел интериорна боя, фино настроен на новата база за текст към изображение Stable Diffusion 2.0
  • Моделът ви позволява да синтезирате нови изображения, като използвате друго изображение като шаблон, което може да бъде коренно различно от оригинала, но запазва цялостната композиция и дълбочина. Например, можете да използвате позата на човек на снимка, за да оформите друг герой в същата поза.
  • Актуализиран модел за модифициране на изображения: SD 2.0-inpainting, който позволява използването на текстови съвети за замяна и промяна на части от изображението.
  • Моделите са оптимизирани за използване на масови системи с GPU.

Накрая да вие се интересувате да научите повече за това, трябва да знаете, че кодът за инструментите за обучение и изображения на невронни мрежи е написан на Python с помощта на рамката PyTorch и е издаден под лиценза на MIT.

Предварително обучените модели са отворени под разрешителния лиценз Creative ML OpenRAIL-M, който позволява търговска употреба.

Fuente: https://stability.ai


Оставете вашия коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

*

*

  1. Отговорен за данните: Мигел Анхел Гатон
  2. Предназначение на данните: Контрол на СПАМ, управление на коментари.
  3. Легитимация: Вашето съгласие
  4. Съобщаване на данните: Данните няма да бъдат съобщени на трети страни, освен по законово задължение.
  5. Съхранение на данни: База данни, хоствана от Occentus Networks (ЕС)
  6. Права: По всяко време можете да ограничите, възстановите и изтриете информацията си.