Ostatnio Odsłonięto sztuczną inteligencję stabilności za pośrednictwem wpisu na blogu druga edycja systemu uczenie maszynowe Stabilna dyfuzja, który jest w stanie syntetyzować i modyfikować obrazy na podstawie sugerowanego szablonu lub opisu tekstu w języku naturalnym.
Stabilna dyfuzja jest model uczenia maszynowego opracowany przez Stability AI do generowania wysokiej jakości obrazów cyfrowych z opisów w języku naturalnym. Model może być używany do różnych zadań, takich jak generowanie tłumaczeń obrazu na obraz z przewodnikiem tekstowym i ulepszanie obrazu.
W przeciwieństwie do konkurencyjnych modeli, takich jak DALL-E, Stable Diffusion jest oprogramowaniem typu open source1 i nie ogranicza sztucznie tworzonych obrazów. Krytycy wyrazili obawy co do etyki sztucznej inteligencji, twierdząc, że model ten można wykorzystać do tworzenia deepfake'ów.
Dynamiczny zespół Robina Rombacha (Stability AI) i Patricka Essera (Runway ML) z CompVis Group w LMU Monachium, kierowany przez prof. dr Björna Ommera, poprowadził oryginalne wydanie Stable Diffusion V1. Oparli się na swojej poprzedniej pracy laboratoryjnej z modelami dyfuzji utajonej i uzyskali krytyczne wsparcie od LAION i Eleuther AI. Możesz przeczytać więcej o oryginalnym wydaniu Stable Diffusion V1 w naszym poprzednim poście na blogu. Robin wraz z Katherine Crowson w Stability AI kieruje teraz pracami nad stworzeniem nowej generacji modeli mediów z naszym szerszym zespołem.
Stable Diffusion 2.0 oferuje szereg świetnych ulepszeń i funkcji w porównaniu do oryginalnej wersji V1.
Główne nowości w Stable Diffusion 2.0
W tej nowej wersji, która jest prezentowana stworzono nowy model syntezy obrazu na podstawie opisu tekstowego „SD2.0-v”, który obsługuje generowanie obrazów o rozdzielczości 768×768. Nowy model został przeszkolony przy użyciu kolekcji LAION-5B zawierającej 5850 miliarda obrazów z opisami tekstowymi.
Model wykorzystuje ten sam zestaw parametrów co model Stable Diffusion 1.5, ale różni się przejściem na zastosowanie zasadniczo innego enkodera OpenCLIP-ViT/H, co umożliwiło znaczną poprawę jakości otrzymywanych obrazów.
A został przygotowany uproszczona wersja bazy SD2.0, wytrenowany na obrazach 256×256 przy użyciu klasycznego modelu przewidywania szumów i wspierający generowanie obrazów o rozdzielczości 512×512.
Oprócz tego podkreśla się również, że przewidziana jest możliwość wykorzystania technologii supersamplingu (Super Resolution) w celu zwiększenia rozdzielczości oryginalnego obrazu bez obniżania jakości, przy użyciu algorytmów skalowania przestrzennego i rekonstrukcji szczegółów.
Z innych zmian które wyróżniają się na tle nowej wersji:
- Dostarczony model przetwarzania obrazu (SD20-upscaler) obsługuje powiększenie 4x, co pozwala na generowanie obrazów o rozdzielczości 2048×2048.
- Stable Diffusion 2.0 zawiera również model Upscaler Diffusion, który czterokrotnie poprawia rozdzielczość obrazu.
- Zaproponowano model SD2.0-depth2img, który uwzględnia głębokość i rozmieszczenie przestrzenne obiektów. System MiDaS służy do oszacowania głębokości monokularowej.
- Nowy oparty na tekście model malowania wnętrz, dopracowany w oparciu o nową bazę przetwarzania tekstu na obraz w Stable Diffusion 2.0
- Model umożliwia syntezę nowych obrazów przy użyciu innego obrazu jako szablonu, który może radykalnie różnić się od oryginału, ale zachowuje ogólną kompozycję i głębię. Na przykład możesz użyć pozy osoby na zdjęciu, aby stworzyć inną postać w tej samej pozie.
- Zaktualizowany model modyfikowania obrazów: SD 2.0-inpainting, który umożliwia używanie podpowiedzi tekstowych do zastępowania i zmieniania części obrazu.
- Modele zostały zoptymalizowane do użytku w głównych systemach z procesorem graficznym.
Wreszcie tak chcesz dowiedzieć się więcej na ten temat, powinieneś wiedzieć, że kod narzędzi do uczenia i obrazowania sieci neuronowych jest napisany w Pythonie przy użyciu frameworka PyTorch i wydany na licencji MIT.
Wstępnie wytrenowane modele są otwarte w ramach licencji zezwalającej Creative ML OpenRAIL-M, która umożliwia wykorzystanie komercyjne.
źródło: https://stability.ai