Stable Diffusion 2.0, штучний інтелект, здатний синтезувати та змінювати зображення

Стабільна дифузія 2.0

Зображення створено за допомогою Stable Diffusion 2.0

Останнім часом ШІ стабільності, представлено через допис у блозі друга редакція системи автоматичне навчання Стабільна дифузія, який здатний синтезувати та змінювати зображення на основі запропонованого шаблону або текстового опису природною мовою.

Стабільна дифузія модель машинного навчання розроблено Stability AI створювати високоякісні цифрові зображення з описів природною мовою. Цю модель можна використовувати для різних завдань, наприклад для створення текстових перекладів із зображення в зображення та покращення зображення.

На відміну від конкуруючих моделей, таких як DALL-E, Stable Diffusion є відкритим вихідним кодом1 і не обмежує штучно зображення, які створює. Критики висловили занепокоєння щодо етики ШІ, стверджуючи, що модель може бути використана для створення глибоких фейків.

Динамічна команда Робіна Ромбаха (Stability AI) і Патріка Ессера (Runway ML) із групи CompVis LMU Мюнхена на чолі з професором доктором Бйорном Оммером очолила оригінальний випуск Stable Diffusion V1. Вони ґрунтувалися на своїй попередній лабораторній роботі з моделями прихованої дифузії та отримали критичну підтримку від LAION та Eleuther AI. Ви можете прочитати більше про оригінальний випуск Stable Diffusion V1 у нашій попередній публікації в блозі. Зараз Робін разом із Кетрін Кроусон у Stability AI очолює роботу зі створення медіа-моделей наступного покоління разом із нашою більшою командою.

Stable Diffusion 2.0 пропонує низку чудових покращень і функцій порівняно з оригінальною версією V1.

Головні новини Stable Diffusion 2.0

У цій новій версії, яка представлена створено нову модель синтезу зображення на основі текстового опису «SD2.0-v», який підтримує генерацію зображень з роздільністю 768×768. Нова модель була навчена за допомогою колекції LAION-5B з 5850 мільярдів зображень з текстовими описами.

Модель використовує той же набір параметрів, що і модель Stable Diffusion 1.5, але відрізняється переходом на використання принципово іншого кодера OpenCLIP-ViT/H, що дозволило істотно підвищити якість одержуваних зображень.

А підготовлено спрощена версія SD2.0-base, навчений на зображеннях 256×256 з використанням класичної моделі прогнозування шуму та підтримки генерації зображень із роздільною здатністю 512×512.

На додаток до цього також наголошується, що передбачена можливість використання технології суперсемплінгу (Суперроздільна здатність), щоб збільшити роздільну здатність вихідного зображення без зниження якості за допомогою просторового масштабування та алгоритмів реконструкції деталей.

З інших змін що виділяються з цієї нової версії:

  • Надана модель обробки зображень (SD20-upscaler) підтримує 4-кратне збільшення, що дозволяє створювати зображення з роздільною здатністю 2048×2048.
  • Stable Diffusion 2.0 також включає модель Upscaler Diffusion, яка покращує роздільну здатність зображення в 4 рази.
  • Запропоновано модель SD2.0-depth2img, яка враховує глибину та просторове розташування об'єктів. Для оцінки глибини монокуляра використовується система MiDaS.
  • Нова текстова модель фарби для інтер’єру, налаштована на новій основі Stable Diffusion 2.0 для перетворення тексту в зображення
  • Модель дозволяє синтезувати нові зображення, використовуючи інше зображення як шаблон, який може кардинально відрізнятися від оригіналу, але зберігає загальну композицію та глибину. Наприклад, ви можете використовувати позу людини на фотографії, щоб сформувати іншого персонажа в тій же позі.
  • Оновлена ​​модель для модифікації зображень: SD 2.0-inpainting, що дозволяє використовувати текстові підказки для заміни та зміни частин зображення.
  • Ці моделі були оптимізовані для використання в основних системах із графічним процесором.

Нарешті так вам цікаво дізнатися більше про це, вам слід знати, що код для інструментів навчання нейронної мережі та створення зображень написаний на Python за допомогою фреймворку PyTorch і випущений за ліцензією MIT.

Попередньо навчені моделі відкриті відповідно до дозвільної ліцензії Creative ML OpenRAIL-M, яка дозволяє комерційне використання.

Фуенте: https://stability.ai


Залиште свій коментар

Ваша електронна адреса не буде опублікований. Обов'язкові для заповнення поля позначені *

*

*

  1. Відповідальний за дані: Мігель Анхель Гатон
  2. Призначення даних: Контроль спаму, управління коментарями.
  3. Легітимація: Ваша згода
  4. Передача даних: Дані не передаватимуться третім особам, за винятком юридичних зобов’язань.
  5. Зберігання даних: База даних, розміщена в мережі Occentus Networks (ЄС)
  6. Права: Ви можете будь-коли обмежити, відновити та видалити свою інформацію.