Stable Diffusion 2.0, sztuczna inteligencja zdolna do syntezy i modyfikowania obrazów

Stabilna dyfuzja 2.0

Obraz wygenerowany za pomocą Stable Diffusion 2.0

Ostatnio Odsłonięto sztuczną inteligencję stabilności za pośrednictwem wpisu na blogu druga edycja systemu uczenie maszynowe Stabilna dyfuzja, który jest w stanie syntetyzować i modyfikować obrazy na podstawie sugerowanego szablonu lub opisu tekstu w języku naturalnym.

Stabilna dyfuzja jest model uczenia maszynowego opracowany przez Stability AI do generowania wysokiej jakości obrazów cyfrowych z opisów w języku naturalnym. Model może być używany do różnych zadań, takich jak generowanie tłumaczeń obrazu na obraz z przewodnikiem tekstowym i ulepszanie obrazu.

W przeciwieństwie do konkurencyjnych modeli, takich jak DALL-E, Stable Diffusion jest oprogramowaniem typu open source1 i nie ogranicza sztucznie tworzonych obrazów. Krytycy wyrazili obawy co do etyki sztucznej inteligencji, twierdząc, że model ten można wykorzystać do tworzenia deepfake'ów.

Dynamiczny zespół Robina Rombacha (Stability AI) i Patricka Essera (Runway ML) z CompVis Group w LMU Monachium, kierowany przez prof. dr Björna Ommera, poprowadził oryginalne wydanie Stable Diffusion V1. Oparli się na swojej poprzedniej pracy laboratoryjnej z modelami dyfuzji utajonej i uzyskali krytyczne wsparcie od LAION i Eleuther AI. Możesz przeczytać więcej o oryginalnym wydaniu Stable Diffusion V1 w naszym poprzednim poście na blogu. Robin wraz z Katherine Crowson w Stability AI kieruje teraz pracami nad stworzeniem nowej generacji modeli mediów z naszym szerszym zespołem.

Stable Diffusion 2.0 oferuje szereg świetnych ulepszeń i funkcji w porównaniu do oryginalnej wersji V1.

Główne nowości w Stable Diffusion 2.0

W tej nowej wersji, która jest prezentowana stworzono nowy model syntezy obrazu na podstawie opisu tekstowego „SD2.0-v”, który obsługuje generowanie obrazów o rozdzielczości 768×768. Nowy model został przeszkolony przy użyciu kolekcji LAION-5B zawierającej 5850 miliarda obrazów z opisami tekstowymi.

Model wykorzystuje ten sam zestaw parametrów co model Stable Diffusion 1.5, ale różni się przejściem na zastosowanie zasadniczo innego enkodera OpenCLIP-ViT/H, co umożliwiło znaczną poprawę jakości otrzymywanych obrazów.

A został przygotowany uproszczona wersja bazy SD2.0, wytrenowany na obrazach 256×256 przy użyciu klasycznego modelu przewidywania szumów i wspierający generowanie obrazów o rozdzielczości 512×512.

Oprócz tego podkreśla się również, że przewidziana jest możliwość wykorzystania technologii supersamplingu (Super Resolution) w celu zwiększenia rozdzielczości oryginalnego obrazu bez obniżania jakości, przy użyciu algorytmów skalowania przestrzennego i rekonstrukcji szczegółów.

Z innych zmian które wyróżniają się na tle nowej wersji:

  • Dostarczony model przetwarzania obrazu (SD20-upscaler) obsługuje powiększenie 4x, co pozwala na generowanie obrazów o rozdzielczości 2048×2048.
  • Stable Diffusion 2.0 zawiera również model Upscaler Diffusion, który czterokrotnie poprawia rozdzielczość obrazu.
  • Zaproponowano model SD2.0-depth2img, który uwzględnia głębokość i rozmieszczenie przestrzenne obiektów. System MiDaS służy do oszacowania głębokości monokularowej.
  • Nowy oparty na tekście model malowania wnętrz, dopracowany w oparciu o nową bazę przetwarzania tekstu na obraz w Stable Diffusion 2.0
  • Model umożliwia syntezę nowych obrazów przy użyciu innego obrazu jako szablonu, który może radykalnie różnić się od oryginału, ale zachowuje ogólną kompozycję i głębię. Na przykład możesz użyć pozy osoby na zdjęciu, aby stworzyć inną postać w tej samej pozie.
  • Zaktualizowany model modyfikowania obrazów: SD 2.0-inpainting, który umożliwia używanie podpowiedzi tekstowych do zastępowania i zmieniania części obrazu.
  • Modele zostały zoptymalizowane do użytku w głównych systemach z procesorem graficznym.

Wreszcie tak chcesz dowiedzieć się więcej na ten temat, powinieneś wiedzieć, że kod narzędzi do uczenia i obrazowania sieci neuronowych jest napisany w Pythonie przy użyciu frameworka PyTorch i wydany na licencji MIT.

Wstępnie wytrenowane modele są otwarte w ramach licencji zezwalającej Creative ML OpenRAIL-M, która umożliwia wykorzystanie komercyjne.

źródło: https://stability.ai


Zostaw swój komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

*

*

  1. Odpowiedzialny za dane: Miguel Ángel Gatón
  2. Cel danych: kontrola spamu, zarządzanie komentarzami.
  3. Legitymacja: Twoja zgoda
  4. Przekazywanie danych: Dane nie będą przekazywane stronom trzecim, z wyjątkiem obowiązku prawnego.
  5. Przechowywanie danych: baza danych hostowana przez Occentus Networks (UE)
  6. Prawa: w dowolnym momencie możesz ograniczyć, odzyskać i usunąć swoje dane.