Stable Diffusion 2.0, AI המסוגל לסנתז ולשנות תמונות

דיפוזיה יציבה 2.0

תמונה שנוצרה עם Stable Diffusion 2.0

לאחרונה יציבות בינה מלאכותית, נחשפה באמצעות פוסט בבלוג המהדורה השנייה של המערכת למידה אוטומטית דיפוזיה יציבה, המסוגל לסנתז ולשנות תמונות על סמך תבנית מוצעת או תיאור טקסט בשפה טבעית.

דיפוזיה יציבה היא מודל למידת מכונה פותח על ידי Stability AI ליצור תמונות דיגיטליות באיכות גבוהה מתיאורי שפה טבעית. המודל יכול לשמש למשימות שונות, כגון יצירת תרגומי תמונה לתמונה מונחי טקסט ושיפור תמונה.

בניגוד לדגמים מתחרים כמו DALL-E, Stable Diffusion הוא קוד פתוח1 ואינו מגביל באופן מלאכותי את התמונות שהוא מייצר. מבקרים העלו חששות לגבי האתיקה של AI, וטענו שניתן להשתמש במודל ליצירת זיופים עמוקים.

הצוות הדינמי של רובין רומבך (Stability AI) ופטריק איסר (Runway ML) מקבוצת CompVis ב-LMU מינכן בראשות פרופ' ד"ר Björn Ommer, הוביל את השחרור המקורי של Stable Diffusion V1. הם בנו על עבודת המעבדה הקודמת שלהם עם מודלים של דיפוזיה סמויים וזכו לתמיכה קריטית מ-LAION ו-Eleuther AI. אתה יכול לקרוא עוד על המהדורה המקורית של Stable Diffusion V1 בפוסט הקודם שלנו בבלוג. רובין מוביל כעת את המאמץ עם קתרין קרוסון ב-Stability AI ליצור את הדור הבא של דגמי מדיה עם הצוות הרחב שלנו.

Stable Diffusion 2.0 מציע מספר שיפורים ותכונות נהדרות בהשוואה לגרסת V1 המקורית.

החדשות העיקריות של Stable Diffusion 2.0

בגרסה החדשה הזו שמוצגת נוצר מודל סינתזת תמונה חדש המבוסס על תיאור טקסט "SD2.0-v", התומך ביצירת תמונות ברזולוציה של 768×768. הדגם החדש הוכשר באמצעות אוסף LAION-5B של 5850 מיליארד תמונות עם תיאורי טקסט.

המודל משתמש באותה סט פרמטרים כמו דגם Stable Diffusion 1.5, אך נבדל במעבר לשימוש במקודד OpenCLIP-ViT/H שונה מהותית, מה שאיפשר לשפר משמעותית את איכות התמונות שהתקבלו.

א הוכנה גרסה פשוטה של ​​SD2.0-base, מאומן על תמונות 256×256 באמצעות מודל חיזוי הרעש הקלאסי ותומכת ביצירת תמונות ברזולוציה של 512×512.

בנוסף לכך, מודגש גם כי מסופקת האפשרות להשתמש בטכנולוגיית supersampling (Super Resolution) להגדלת הרזולוציה של התמונה המקורית מבלי להפחית את האיכות, תוך שימוש באלגוריתמים של קנה מידה מרחבי ושחזור פרטים.

משאר השינויים הבולטים מהגרסה החדשה הזו:

  • דגם עיבוד התמונה המסופק (SD20-upscaler) תומך בהגדלה פי 4, מה שמאפשר ליצור תמונות ברזולוציה של 2048×2048.
  • Stable Diffusion 2.0 כולל גם דגם Upscaler Diffusion המשפר את רזולוציית התמונה בפקטור של 4.
  • מוצע מודל SD2.0-depth2img, שלוקח בחשבון את העומק והסידור המרחבי של אובייקטים. מערכת MiDaS משמשת להערכת העומק המונוקולרי.
  • דגם צבע פנימי חדש מונע טקסט, מכוון עדין על הבסיס החדש של Stable Diffusion 2.0 טקסט לתמונה
  • המודל מאפשר לך לסנתז תמונות חדשות באמצעות תמונה אחרת כתבנית, אשר עשויה להיות שונה בתכלית מהמקור, אך שומרת על הקומפוזיציה והעומק הכוללים. לדוגמה, אתה יכול להשתמש בפוזה של אדם בתמונה כדי ליצור דמות אחרת באותה תנוחה.
  • דגם מעודכן לשינוי תמונות: SD 2.0-inpainting, המאפשר שימוש ברמזים לטקסט להחלפה ושינוי של חלקים בתמונה.
  • הדגמים עברו אופטימיזציה לשימוש במערכות מיינסטרים עם GPU.

סוף סוף כן אתה מעוניין לדעת יותר על זה, עליך לדעת שהקוד לכלי האימון וההדמיה של הרשת העצבית נכתב ב-Python באמצעות מסגרת PyTorch ומשוחרר תחת רישיון MIT.

דגמים שהוכשרו מראש פתוחים תחת הרישיון המתיר Creative ML OpenRAIL-M, המאפשר שימוש מסחרי.

מקור: https://stability.ai


היה הראשון להגיב

השאירו את התגובה שלכם

כתובת הדוא"ל שלך לא תפורסם. שדות חובה מסומנים *

*

*

  1. אחראי לנתונים: מיגל אנחל גטון
  2. מטרת הנתונים: בקרת ספאם, ניהול תגובות.
  3. לגיטימציה: הסכמתך
  4. מסירת הנתונים: הנתונים לא יועברו לצדדים שלישיים אלא בהתחייבות חוקית.
  5. אחסון נתונים: מסד נתונים המתארח על ידי Occentus Networks (EU)
  6. זכויות: בכל עת תוכל להגביל, לשחזר ולמחוק את המידע שלך.