이미지 합성 및 수정이 가능한 AI, Stable Diffusion 2.0

안정적인 확산 2.0

Stable Diffusion 2.0으로 생성된 이미지

최근에 안정성 AI 공개 블로그 게시물을 통해 시스템의 두 번째 버전 기계 학습 안정적인 확산, 제안된 템플릿 또는 자연어 텍스트 설명을 기반으로 이미지를 합성하고 수정할 수 있습니다.

안정적인 확산은 기계 학습 모델 안정성 AI에서 개발 자연어 설명에서 고품질 디지털 이미지 생성. 이 모델은 텍스트 기반 이미지 대 이미지 번역 생성 및 이미지 향상과 같은 다양한 작업에 사용할 수 있습니다.

DALL-E와 같은 경쟁 모델과 달리 Stable Diffusion은 오픈 소스1이며 생성하는 이미지를 인위적으로 제한하지 않습니다. 비평가들은 모델이 딥페이크를 만드는 데 사용될 수 있다고 주장하면서 AI의 윤리에 대해 우려를 제기했습니다.

Björn Ommer 박사가 이끄는 LMU 뮌헨 CompVis 그룹의 Robin Rombach(Stability AI)와 Patrick Esser(Runway ML) 팀이 Stable Diffusion V1의 최초 출시를 이끌었습니다. 그들은 잠재 확산 모델을 사용하여 이전 연구실 작업을 기반으로 LAION 및 Eleuther AI로부터 중요한 지원을 받았습니다. 이전 블로그 게시물에서 Stable Diffusion V1의 원본 릴리스에 대해 자세히 알아볼 수 있습니다. Robin은 이제 Stability AI에서 Katherine Crowson과 함께 더 광범위한 팀과 함께 차세대 미디어 모델을 만들기 위한 노력을 주도하고 있습니다.

Stable Diffusion 2.0은 원래 V1 버전에 비해 많은 개선 사항과 기능을 제공합니다.

Stable Diffusion 2.0 주요 소식

제시된이 새 버전에서 텍스트 설명에 기반한 새로운 이미지 합성 모델이 만들어졌습니다. 2.0×768 해상도의 이미지 생성을 지원하는 "SD768-v". 새 모델은 텍스트 설명이 있는 5억 5850천만 개의 이미지로 구성된 LAION-XNUMXB 컬렉션을 사용하여 훈련되었습니다.

이 모델은 Stable Diffusion 1.5 모델과 동일한 매개변수 세트를 사용하지만 근본적으로 다른 OpenCLIP-ViT/H 인코더 사용으로 전환하여 결과 이미지의 품질을 크게 향상시킬 수 있다는 점이 다릅니다.

A 준비했습니다 SD2.0 기반의 간소화된 버전, 클래식 노이즈 예측 모델을 사용하여 256×256 이미지에서 학습하고 512×512 해상도의 이미지 생성을 지원합니다.

이 외에도 강조하고 있는 것은 슈퍼 샘플링 기술을 사용할 가능성이 제공됩니다. (슈퍼 해상도) 공간 스케일링 및 세부 재구성 알고리즘을 사용하여 품질 저하 없이 원본 이미지의 해상도를 높입니다.

다른 변경 사항 중 이 새 버전에서 눈에 띄는 :

  • 제공된 이미지 처리 모델(SD20-upscaler)은 4배 확대를 지원하여 2048×2048 해상도의 이미지를 생성할 수 있습니다.
  • Stable Diffusion 2.0에는 이미지 해상도를 4배 향상시키는 Upscaler Diffusion 모델도 포함되어 있습니다.
  • 개체의 깊이와 공간적 배열을 고려한 SD2.0-depth2img 모델이 제안됩니다. MiDaS 시스템은 단안 깊이를 추정하는 데 사용됩니다.
  • 새로운 Stable Diffusion 2.0 텍스트-이미지 베이스에서 미세 조정된 새로운 텍스트 기반 인테리어 페인트 모델
  • 이 모델을 사용하면 다른 이미지를 템플릿으로 사용하여 새 이미지를 합성할 수 있습니다. 이 이미지는 원본과 근본적으로 다를 수 있지만 전체 구성과 깊이는 유지됩니다. 예를 들어, 사진에 있는 사람의 포즈를 사용하여 동일한 포즈의 다른 캐릭터를 형성할 수 있습니다.
  • 이미지 수정을 위한 업데이트된 모델: SD 2.0-인페인팅, 텍스트 힌트를 사용하여 이미지의 일부를 대체하고 변경할 수 있습니다.
  • 이 모델은 GPU가 있는 주류 시스템에서 사용하도록 최적화되었습니다.

마지막으로 예 당신은 그것에 대해 더 알고 싶어, 신경망 훈련 및 이미징 도구에 대한 코드는 PyTorch 프레임워크를 사용하여 Python으로 작성되고 MIT 라이선스에 따라 릴리스된다는 점을 알아야 합니다.

사전 훈련된 모델은 상업적 사용을 허용하는 Creative ML OpenRAIL-M 허용 라이선스에 따라 공개됩니다.

출처 : https://stability.ai


코멘트를 남겨주세요

귀하의 이메일 주소는 공개되지 않습니다. 필수 필드가 표시되어 있습니다 *

*

*

  1. 데이터 책임자 : Miguel Ángel Gatón
  2. 데이터의 목적 : 스팸 제어, 댓글 관리.
  3. 합법성 : 귀하의 동의
  4. 데이터 전달 : 법적 의무에 의한 경우를 제외하고 데이터는 제 XNUMX 자에게 전달되지 않습니다.
  5. 데이터 저장소 : Occentus Networks (EU)에서 호스팅하는 데이터베이스
  6. 권리 : 귀하는 언제든지 귀하의 정보를 제한, 복구 및 삭제할 수 있습니다.