Faz pouco Estabilidade AI, revelada por meio de uma postagem no blog a segunda edição do sistema aprendizado automático Difusão Estável, que é capaz de sintetizar e modificar imagens com base em um modelo sugerido ou em uma descrição de texto em linguagem natural.
A difusão estável é um modelo de aprendizado de máquina desenvolvido pela Stability AI para gerar imagens digitais de alta qualidade a partir de descrições em linguagem natural. O modelo pode ser usado para diferentes tarefas, como gerar traduções de imagem para imagem guiadas por texto e aprimoramento de imagem.
Ao contrário de modelos concorrentes como o DALL-E, o Stable Diffusion é de código aberto1 e não limita artificialmente as imagens que produz. Os críticos levantaram preocupações sobre a ética da IA, alegando que o modelo pode ser usado para criar deepfakes.
A equipe dinâmica de Robin Rombach (estabilidade AI) e Patrick Esser (Runway ML) do grupo CompVis na LMU Munich chefiada pelo Prof. Dr. Björn Ommer, liderou o lançamento original do Stable Diffusion V1. Eles desenvolveram seu trabalho de laboratório anterior com modelos de difusão latente e obtiveram suporte crítico de LAION e Eleuther AI. Você pode ler mais sobre o lançamento original do Stable Diffusion V1 em nosso post de blog anterior. Robin agora está liderando o esforço com Katherine Crowson na Stability AI para criar a próxima geração de modelos de mídia com nossa equipe mais ampla.
O Stable Diffusion 2.0 oferece uma série de grandes melhorias e recursos em comparação com a versão V1 original.
Principais novidades do Stable Diffusion 2.0
Nesta nova versão que é apresentada um novo modelo de síntese de imagem baseado na descrição de texto foi criado "SD2.0-v", que suporta a geração de imagens com resolução de 768×768. O novo modelo foi treinado usando a coleção LAION-5B de 5850 bilhões de imagens com descrições de texto.
O modelo usa o mesmo conjunto de parâmetros do modelo Stable Diffusion 1.5, mas difere pela transição para o uso de um codificador OpenCLIP-ViT/H fundamentalmente diferente, o que possibilitou melhorar significativamente a qualidade das imagens resultantes.
A foi preparado versão simplificada do SD2.0-base, treinado em imagens 256×256 usando o modelo clássico de previsão de ruído e suportando a geração de imagens com resolução de 512×512.
Além disso, destaca-se também que a possibilidade de usar a tecnologia de supersampling é fornecida (Super Resolução) para aumentar a resolução da imagem original sem reduzir a qualidade, usando escala espacial e algoritmos de reconstrução de detalhes.
Das outras mudanças que se destacam nesta nova versão:
- O modelo de processamento de imagem fornecido (SD20-upscaler) suporta ampliação de 4x, permitindo a geração de imagens com resolução de 2048×2048.
- Stable Diffusion 2.0 também inclui um modelo Upscaler Diffusion que melhora a resolução da imagem por um fator de 4.
- É proposto o modelo SD2.0-depth2img, que leva em conta a profundidade e a disposição espacial dos objetos. O sistema MiDaS é usado para estimar a profundidade monocular.
- Novo modelo de pintura interior baseado em texto, ajustado na nova base de texto para imagem Stable Diffusion 2.0
- O modelo permite sintetizar novas imagens usando outra imagem como modelo, que pode ser radicalmente diferente da original, mas mantém a composição geral e a profundidade. Por exemplo, você pode usar a pose de uma pessoa em uma foto para formar outro personagem na mesma pose.
- Modelo atualizado para modificar imagens: SD 2.0-inpainting, que permite usar dicas de texto para substituir e alterar partes da imagem.
- Os modelos foram otimizados para uso em sistemas convencionais com uma GPU.
Enfim sim você está interessado em saber mais sobre isso, você deve saber que o código para as ferramentas de imagem e treinamento de rede neural é escrito em Python usando a estrutura PyTorch e lançado sob a licença do MIT.
Os modelos pré-treinados estão abertos sob a licença permissiva Creative ML OpenRAIL-M, que permite o uso comercial.
fonte: https://stability.ai