Stable Diffusion 2.0, một AI có khả năng tổng hợp và chỉnh sửa hình ảnh

Khuếch tán ổn định 2.0

Hình ảnh được tạo bằng Khuếch tán ổn định 2.0

Gần đây Ổn định AI, công bố qua một bài đăng trên blog phiên bản thứ hai của hệ thống học máy Khuếch tán ổn định, có khả năng tổng hợp và chỉnh sửa hình ảnh dựa trên mẫu gợi ý hoặc văn bản mô tả bằng ngôn ngữ tự nhiên.

Khuếch Tán Ổn Định bây giờ là một mô hình học máy được phát triển bởi Ổn định AI để tạo hình ảnh kỹ thuật số chất lượng cao từ các mô tả ngôn ngữ tự nhiên. Mô hình này có thể được sử dụng cho các tác vụ khác nhau, chẳng hạn như tạo các bản dịch từ hình ảnh sang hình ảnh được hướng dẫn bằng văn bản và nâng cao hình ảnh.

Không giống như các mô hình cạnh tranh như DALL-E, Khuếch tán ổn định là mã nguồn mở1 và không giới hạn hình ảnh mà nó tạo ra một cách giả tạo. Các nhà phê bình đã đưa ra những lo ngại về đạo đức của AI, cho rằng mô hình này có thể được sử dụng để tạo ra các tác phẩm sâu.

Nhóm năng động của Robin Rombach (Trí tuệ nhân tạo ổn định) và Patrick Esser (Runway ML) từ Tập đoàn CompVis tại LMU Munich do Giáo sư Tiến sĩ Björn Ommer đứng đầu, đã dẫn đầu phiên bản đầu tiên của Stable Diffusion V1. Họ đã xây dựng dựa trên công việc trong phòng thí nghiệm trước đây của mình với các mô hình khuếch tán tiềm ẩn và nhận được sự hỗ trợ quan trọng từ LAION và Eleuther AI. Bạn có thể đọc thêm về bản phát hành đầu tiên của Stable Diffusion V1 trong bài đăng trên blog trước đây của chúng tôi. Robin hiện đang dẫn đầu nỗ lực cùng với Katherine Crowson tại Stability AI để tạo ra thế hệ mô hình truyền thông tiếp theo với nhóm rộng lớn hơn của chúng tôi.

Stable Diffusion 2.0 cung cấp một số cải tiến và tính năng tuyệt vời so với phiên bản V1 gốc.

Tin chính của Stable Diffusion 2.0

Trong phiên bản mới này được trình bày một mô hình tổng hợp hình ảnh mới dựa trên mô tả văn bản đã được tạo "SD2.0-v", hỗ trợ tạo ảnh có độ phân giải 768×768. Mô hình mới được đào tạo bằng cách sử dụng bộ sưu tập LAION-5B gồm 5850 tỷ hình ảnh với các mô tả văn bản.

Mô hình này sử dụng cùng một bộ tham số như mô hình Khuếch tán ổn định 1.5, nhưng khác ở chỗ chuyển sang sử dụng bộ mã hóa OpenCLIP-ViT/H khác về cơ bản, giúp cải thiện đáng kể chất lượng của hình ảnh thu được.

A đã được chuẩn bị phiên bản đơn giản hóa của SD2.0-base, được đào tạo trên hình ảnh 256×256 bằng cách sử dụng mô hình dự đoán nhiễu cổ điển và hỗ trợ tạo hình ảnh có độ phân giải 512×512.

Ngoài ra, nó cũng được nhấn mạnh rằng khả năng sử dụng công nghệ siêu lấy mẫu được cung cấp (Siêu phân giải) để tăng độ phân giải của ảnh gốc mà không làm giảm chất lượng, sử dụng thuật toán tái tạo chi tiết và chia tỷ lệ không gian.

Những thay đổi khác nổi bật so với phiên bản mới này:

  • Mô hình xử lý hình ảnh được cung cấp (SD20-upscaler) hỗ trợ độ phóng đại 4 lần, cho phép tạo ra hình ảnh có độ phân giải 2048×2048.
  • Stable Diffusion 2.0 cũng bao gồm một mô hình Upscaler Diffusion giúp cải thiện độ phân giải hình ảnh lên gấp 4 lần.
  • Mô hình SD2.0-depth2img được đề xuất, có tính đến độ sâu và sự sắp xếp không gian của các đối tượng. Hệ thống MiDaS được sử dụng để ước tính độ sâu bằng một mắt.
  • Mẫu sơn nội thất hướng văn bản mới, được tinh chỉnh trên cơ sở chuyển văn bản thành hình ảnh Stable Diffusion 2.0 mới
  • Mô hình này cho phép bạn tổng hợp các hình ảnh mới bằng cách sử dụng một hình ảnh khác làm mẫu, hình ảnh này có thể hoàn toàn khác với hình ảnh gốc, nhưng vẫn giữ được bố cục và độ sâu tổng thể. Ví dụ: bạn có thể sử dụng tư thế của một người trong ảnh để tạo thành một nhân vật khác trong cùng một tư thế.
  • Mô hình cập nhật để sửa đổi hình ảnh: SD 2.0-inpainting, cho phép sử dụng các gợi ý văn bản để thay thế và thay đổi các phần của hình ảnh.
  • Các mô hình đã được tối ưu hóa để sử dụng trên các hệ thống chính có GPU.

Cuối cùng là có bạn muốn biết thêm về nó, bạn nên biết rằng mã cho các công cụ hình ảnh và đào tạo mạng thần kinh được viết bằng Python sử dụng khung PyTorch và được phát hành theo giấy phép MIT.

Các mô hình được đào tạo trước được mở theo giấy phép cho phép Creative ML OpenRAIL-M, cho phép sử dụng thương mại.

Fuente: https://stability.ai


Để lại bình luận của bạn

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

*

*

  1. Chịu trách nhiệm về dữ liệu: Miguel Ángel Gatón
  2. Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
  3. Hợp pháp: Sự đồng ý của bạn
  4. Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
  5. Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
  6. Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.