Stable Diffusion 2.0, uma IA capaz de sintetizar e modificar imagens

Difusão estável 2.0

Imagem gerada com Stable Diffusion 2.0

Faz pouco Estabilidade AI, revelada por meio de uma postagem no blog a segunda edição do sistema aprendizado automático Difusão Estável, que é capaz de sintetizar e modificar imagens com base em um modelo sugerido ou em uma descrição de texto em linguagem natural.

A difusão estável é um modelo de aprendizado de máquina desenvolvido pela Stability AI para gerar imagens digitais de alta qualidade a partir de descrições em linguagem natural. O modelo pode ser usado para diferentes tarefas, como gerar traduções de imagem para imagem guiadas por texto e aprimoramento de imagem.

Ao contrário de modelos concorrentes como o DALL-E, o Stable Diffusion é de código aberto1 e não limita artificialmente as imagens que produz. Os críticos levantaram preocupações sobre a ética da IA, alegando que o modelo pode ser usado para criar deepfakes.

A equipe dinâmica de Robin Rombach (estabilidade AI) e Patrick Esser (Runway ML) do grupo CompVis na LMU Munich chefiada pelo Prof. Dr. Björn Ommer, liderou o lançamento original do Stable Diffusion V1. Eles desenvolveram seu trabalho de laboratório anterior com modelos de difusão latente e obtiveram suporte crítico de LAION e Eleuther AI. Você pode ler mais sobre o lançamento original do Stable Diffusion V1 em nosso post de blog anterior. Robin agora está liderando o esforço com Katherine Crowson na Stability AI para criar a próxima geração de modelos de mídia com nossa equipe mais ampla.

O Stable Diffusion 2.0 oferece uma série de grandes melhorias e recursos em comparação com a versão V1 original.

Principais novidades do Stable Diffusion 2.0

Nesta nova versão que é apresentada um novo modelo de síntese de imagem baseado na descrição de texto foi criado "SD2.0-v", que suporta a geração de imagens com resolução de 768×768. O novo modelo foi treinado usando a coleção LAION-5B de 5850 bilhões de imagens com descrições de texto.

O modelo usa o mesmo conjunto de parâmetros do modelo Stable Diffusion 1.5, mas difere pela transição para o uso de um codificador OpenCLIP-ViT/H fundamentalmente diferente, o que possibilitou melhorar significativamente a qualidade das imagens resultantes.

A foi preparado versão simplificada do SD2.0-base, treinado em imagens 256×256 usando o modelo clássico de previsão de ruído e suportando a geração de imagens com resolução de 512×512.

Além disso, destaca-se também que a possibilidade de usar a tecnologia de supersampling é fornecida (Super Resolução) para aumentar a resolução da imagem original sem reduzir a qualidade, usando escala espacial e algoritmos de reconstrução de detalhes.

Das outras mudanças que se destacam nesta nova versão:

  • O modelo de processamento de imagem fornecido (SD20-upscaler) suporta ampliação de 4x, permitindo a geração de imagens com resolução de 2048×2048.
  • Stable Diffusion 2.0 também inclui um modelo Upscaler Diffusion que melhora a resolução da imagem por um fator de 4.
  • É proposto o modelo SD2.0-depth2img, que leva em conta a profundidade e a disposição espacial dos objetos. O sistema MiDaS é usado para estimar a profundidade monocular.
  • Novo modelo de pintura interior baseado em texto, ajustado na nova base de texto para imagem Stable Diffusion 2.0
  • O modelo permite sintetizar novas imagens usando outra imagem como modelo, que pode ser radicalmente diferente da original, mas mantém a composição geral e a profundidade. Por exemplo, você pode usar a pose de uma pessoa em uma foto para formar outro personagem na mesma pose.
  • Modelo atualizado para modificar imagens: SD 2.0-inpainting, que permite usar dicas de texto para substituir e alterar partes da imagem.
  • Os modelos foram otimizados para uso em sistemas convencionais com uma GPU.

Enfim sim você está interessado em saber mais sobre isso, você deve saber que o código para as ferramentas de imagem e treinamento de rede neural é escrito em Python usando a estrutura PyTorch e lançado sob a licença do MIT.

Os modelos pré-treinados estão abertos sob a licença permissiva Creative ML OpenRAIL-M, que permite o uso comercial.

fonte: https://stability.ai


Deixe um comentário

Seu endereço de email não será publicado. Campos obrigatórios são marcados com *

*

*

  1. Responsável pelos dados: Miguel Ángel Gatón
  2. Finalidade dos dados: Controle de SPAM, gerenciamento de comentários.
  3. Legitimação: Seu consentimento
  4. Comunicação de dados: Os dados não serão comunicados a terceiros, exceto por obrigação legal.
  5. Armazenamento de dados: banco de dados hospedado pela Occentus Networks (UE)
  6. Direitos: A qualquer momento você pode limitar, recuperar e excluir suas informações.