Stable Diffusion 2.0 ซึ่งเป็น AI ที่สามารถสังเคราะห์และปรับแต่งรูปภาพได้

การแพร่กระจายที่เสถียร 2.0

ภาพที่สร้างด้วย Stable Diffusion 2.0

เมื่อเร็ว ๆ นี้ เปิดตัว AI ความเสถียร ผ่านบล็อกโพสต์ รุ่นที่สองของระบบ การเรียนรู้ของเครื่อง การแพร่กระจายที่เสถียรซึ่งสามารถสังเคราะห์และแก้ไขรูปภาพตามเทมเพลตที่แนะนำหรือคำอธิบายข้อความภาษาธรรมชาติ

การแพร่กระจายที่เสถียรคือ โมเดลแมชชีนเลิร์นนิง พัฒนาโดย Stability AI เพื่อสร้างภาพดิจิทัลคุณภาพสูงจากคำอธิบายภาษาธรรมชาติ. สามารถใช้โมเดลสำหรับงานต่างๆ ได้ เช่น การสร้างการแปลแบบภาพต่อภาพโดยใช้ข้อความนำทาง และการปรับปรุงภาพ

Stable Diffusion แตกต่างจากรุ่นคู่แข่งเช่น DALL-E เป็นโอเพ่นซอร์ส1 และไม่จำกัดภาพที่สร้างขึ้น นักวิจารณ์ได้หยิบยกข้อกังวลเกี่ยวกับจริยธรรมของ AI โดยอ้างว่าโมเดลสามารถใช้เพื่อสร้างของปลอมได้

ทีมงานแบบไดนามิกของ Robin Rombach (Stability AI) และ Patrick Esser (Runway ML) จาก CompVis Group ที่ LMU Munich นำโดย Prof. Dr. Björn Ommer เป็นผู้นำในการเปิดตัว Stable Diffusion V1 รุ่นดั้งเดิม พวกเขาสร้างจากงานในห้องปฏิบัติการก่อนหน้านี้ด้วยแบบจำลองการแพร่กระจายแฝง และได้รับการสนับสนุนที่สำคัญจาก LAION และ Eleuther AI คุณสามารถอ่านเพิ่มเติมเกี่ยวกับรุ่นดั้งเดิมของ Stable Diffusion V1 ได้ในบล็อกโพสต์ก่อนหน้าของเรา ขณะนี้ Robin เป็นผู้นำความพยายามร่วมกับ Katherine Crowson ที่ Stability AI เพื่อสร้างโมเดลสื่อเจเนอเรชันถัดไปร่วมกับทีมที่กว้างขึ้นของเรา

Stable Diffusion 2.0 มีการปรับปรุงและฟีเจอร์ที่ยอดเยี่ยมมากมายเมื่อเทียบกับเวอร์ชัน V1 ดั้งเดิม

ข่าวหลักของ Stable Diffusion 2.0

ในเวอร์ชั่นใหม่ที่นำเสนอนี้ มีการสร้างแบบจำลองการสังเคราะห์รูปภาพใหม่ตามคำอธิบายข้อความ "SD2.0-v" ซึ่งรองรับการสร้างภาพที่มีความละเอียด 768×768 โมเดลใหม่นี้ได้รับการฝึกฝนโดยใช้คอลเล็กชัน LAION-5B จำนวน 5850 พันล้านภาพพร้อมคำอธิบายข้อความ

โมเดลใช้ชุดพารามิเตอร์เดียวกันกับโมเดล Stable Diffusion 1.5 แต่ต่างกันที่การเปลี่ยนไปใช้ตัวเข้ารหัส OpenCLIP-ViT/H ที่แตกต่างกันโดยพื้นฐาน ซึ่งทำให้สามารถปรับปรุงคุณภาพของภาพที่ได้อย่างมีนัยสำคัญ

ได้เตรียมไว้แล้ว รุ่นที่เรียบง่ายของฐาน SD2.0ได้รับการฝึกฝนบนภาพขนาด 256×256 โดยใช้แบบจำลองการทำนายสัญญาณรบกวนแบบคลาสสิก และรองรับการสร้างภาพที่มีความละเอียด 512×512

นอกจากนี้ ยังเน้นย้ำว่า มีความเป็นไปได้ในการใช้เทคโนโลยีการสุ่มตัวอย่างแบบซูเปอร์แซมปลิง (Super Resolution) เพื่อเพิ่มความละเอียดของภาพต้นฉบับโดยไม่ลดคุณภาพ โดยใช้การปรับขนาดเชิงพื้นที่และอัลกอริทึมการสร้างรายละเอียดใหม่

จากการเปลี่ยนแปลงอื่น ๆ ที่โดดเด่นกว่ารุ่นใหม่นี้:

  • โมเดลการประมวลผลภาพที่ให้มา (ตัวอัปสเกลเลอร์ SD20) รองรับกำลังขยาย 4 เท่า ทำให้สร้างภาพที่มีความละเอียด 2048×2048 ได้
  • Stable Diffusion 2.0 ยังมีโมเดล Upscaler Diffusion ที่ปรับปรุงความละเอียดของภาพถึง 4 เท่า
  • มีการเสนอแบบจำลอง SD2.0-ความลึก2img ซึ่งคำนึงถึงความลึกและการจัดเรียงเชิงพื้นที่ของวัตถุ ระบบ MiDaS ใช้เพื่อประเมินความลึกของตาข้างเดียว
  • โมเดลสีภายในที่ขับเคลื่อนด้วยข้อความใหม่ ปรับแต่งบนฐานข้อความเป็นรูปภาพ Stable Diffusion 2.0 ใหม่
  • แบบจำลองช่วยให้คุณสามารถสังเคราะห์ภาพใหม่โดยใช้ภาพอื่นเป็นแม่แบบ ซึ่งอาจแตกต่างจากต้นฉบับอย่างสิ้นเชิง แต่ยังคงองค์ประกอบโดยรวมและความลึกไว้ ตัวอย่างเช่น คุณสามารถใช้ท่าทางของบุคคลในรูปภาพเพื่อสร้างตัวละครอื่นในท่าทางเดียวกันได้
  • โมเดลที่อัปเดตสำหรับการแก้ไขรูปภาพ: SD 2.0-inpainting ซึ่งอนุญาตให้ใช้คำแนะนำข้อความเพื่อแทนที่และเปลี่ยนแปลงส่วนต่างๆ ของรูปภาพ
  • โมเดลเหล่านี้ได้รับการปรับให้เหมาะกับการใช้งานบนระบบทั่วไปด้วย GPU

สุดท้ายใช่ คุณสนใจที่จะทราบข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้คุณควรทราบว่าโค้ดสำหรับการฝึกอบรมโครงข่ายประสาทเทียมและเครื่องมือสร้างภาพนั้นเขียนด้วยภาษา Python โดยใช้เฟรมเวิร์ก PyTorch และเผยแพร่ภายใต้ใบอนุญาต MIT

โมเดลที่ผ่านการฝึกอบรมล่วงหน้าเปิดอยู่ภายใต้ใบอนุญาตอนุญาต Creative ML OpenRAIL-M ซึ่งอนุญาตให้ใช้ในเชิงพาณิชย์ได้

Fuente: https://stability.ai


แสดงความคิดเห็นของคุณ

อีเมล์ของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมายด้วย *

*

*

  1. ผู้รับผิดชอบข้อมูล: Miguel ÁngelGatón
  2. วัตถุประสงค์ของข้อมูล: ควบคุมสแปมการจัดการความคิดเห็น
  3. ถูกต้องตามกฎหมาย: ความยินยอมของคุณ
  4. การสื่อสารข้อมูล: ข้อมูลจะไม่ถูกสื่อสารไปยังบุคคลที่สามยกเว้นตามข้อผูกพันทางกฎหมาย
  5. การจัดเก็บข้อมูล: ฐานข้อมูลที่โฮสต์โดย Occentus Networks (EU)
  6. สิทธิ์: คุณสามารถ จำกัด กู้คืนและลบข้อมูลของคุณได้ตลอดเวลา