Stable Diffusion 2.0, ένα AI ικανό να συνθέτει και να τροποποιεί εικόνες

Σταθερή Διάχυση 2.0

Η εικόνα δημιουργήθηκε με Stable Diffusion 2.0

Πρόσφατα Αποκαλύφθηκε το Stability AI μέσω ανάρτησης ιστολογίου η δεύτερη έκδοση του συστήματος αυτόματη μάθηση Σταθερή Διάχυση, το οποίο είναι ικανό να συνθέτει και να τροποποιεί εικόνες βάσει ενός προτεινόμενου προτύπου ή μιας περιγραφής κειμένου σε φυσική γλώσσα.

Η σταθερή διάχυση είναι ένα μοντέλο μηχανικής μάθησης που αναπτύχθηκε από την Stability AI για τη δημιουργία ψηφιακών εικόνων υψηλής ποιότητας από περιγραφές φυσικής γλώσσας. Το μοντέλο μπορεί να χρησιμοποιηθεί για διαφορετικές εργασίες, όπως η δημιουργία μεταφράσεων εικόνας σε εικόνα καθοδηγούμενη από κείμενο και βελτίωση εικόνας.

Σε αντίθεση με ανταγωνιστικά μοντέλα όπως το DALL-E, το Stable Diffusion είναι ανοιχτού κώδικα1 και δεν περιορίζει τεχνητά τις εικόνες που παράγει. Οι επικριτές έχουν εκφράσει ανησυχίες σχετικά με την ηθική της τεχνητής νοημοσύνης, υποστηρίζοντας ότι το μοντέλο μπορεί να χρησιμοποιηθεί για τη δημιουργία deepfakes.

Η δυναμική ομάδα του Robin Rombach (Stability AI) και του Patrick Esser (Runway ML) από τον Όμιλο CompVis στο LMU Munich με επικεφαλής τον καθηγητή Dr. Björn Ommer, ηγήθηκε της αρχικής κυκλοφορίας του Stable Diffusion V1. Βασίστηκαν στην προηγούμενη εργαστηριακή τους εργασία με μοντέλα λανθάνουσας διάχυσης και κέρδισαν κριτική υποστήριξη από το LAION και το Eleuther AI. Μπορείτε να διαβάσετε περισσότερα για την αρχική έκδοση του Stable Diffusion V1 στην προηγούμενη ανάρτησή μας στο ιστολόγιο. Η Robin ηγείται τώρα της προσπάθειας με την Katherine Crowson στο Stability AI για τη δημιουργία της επόμενης γενιάς μοντέλων πολυμέσων με την ευρύτερη ομάδα μας.

Το Stable Diffusion 2.0 προσφέρει μια σειρά από μεγάλες βελτιώσεις και δυνατότητες σε σύγκριση με την αρχική έκδοση V1.

Κύρια νέα του Stable Diffusion 2.0

Σε αυτήν τη νέα έκδοση που παρουσιάζεται έχει δημιουργηθεί ένα νέο μοντέλο σύνθεσης εικόνας που βασίζεται στην περιγραφή κειμένου "SD2.0-v", που υποστηρίζει τη δημιουργία εικόνων με ανάλυση 768×768. Το νέο μοντέλο εκπαιδεύτηκε χρησιμοποιώντας τη συλλογή LAION-5B 5850 δισεκατομμυρίων εικόνων με περιγραφές κειμένου.

Το μοντέλο χρησιμοποιεί το ίδιο σύνολο παραμέτρων με το μοντέλο Stable Diffusion 1.5, αλλά διαφέρει από τη μετάβαση στη χρήση ενός ουσιαστικά διαφορετικού κωδικοποιητή OpenCLIP-ViT/H, ο οποίος κατέστησε δυνατή τη σημαντική βελτίωση της ποιότητας των εικόνων που προέκυψαν.

Α έχει ετοιμαστεί απλοποιημένη έκδοση της βάσης SD2.0, εκπαιδευμένο σε εικόνες 256×256 χρησιμοποιώντας το κλασικό μοντέλο πρόβλεψης θορύβου και υποστηρίζοντας τη δημιουργία εικόνων με ανάλυση 512×512.

Πέραν αυτού, τονίζεται επίσης ότι παρέχεται η δυνατότητα χρήσης τεχνολογίας υπερδειγματοληψίας (Super Resolution) για αύξηση της ανάλυσης της αρχικής εικόνας χωρίς μείωση της ποιότητας, χρησιμοποιώντας αλγόριθμους χωρικής κλίμακας και ανακατασκευής λεπτομέρειας.

Από τις άλλες αλλαγές που ξεχωρίζουν από αυτήν τη νέα έκδοση:

  • Το παρεχόμενο μοντέλο επεξεργασίας εικόνας (SD20-upscaler) υποστηρίζει μεγέθυνση 4x, επιτρέποντας τη δημιουργία εικόνων με ανάλυση 2048×2048.
  • Το Stable Diffusion 2.0 περιλαμβάνει επίσης ένα μοντέλο Upscaler Diffusion που βελτιώνει την ανάλυση εικόνας κατά 4.
  • Προτείνεται το μοντέλο SD2.0-depth2img, το οποίο λαμβάνει υπόψη το βάθος και τη χωρική διάταξη των αντικειμένων. Το σύστημα MiDaS χρησιμοποιείται για την εκτίμηση του μονόφθαλμου βάθους.
  • Νέο μοντέλο εσωτερικής βαφής με βάση το κείμενο, προσαρμοσμένο στη νέα βάση κειμένου σε εικόνα Stable Diffusion 2.0
  • Το μοντέλο σάς επιτρέπει να συνθέσετε νέες εικόνες χρησιμοποιώντας μια άλλη εικόνα ως πρότυπο, η οποία μπορεί να διαφέρει ριζικά από την αρχική, αλλά διατηρεί τη συνολική σύνθεση και το βάθος. Για παράδειγμα, μπορείτε να χρησιμοποιήσετε τη πόζα ενός ατόμου σε μια φωτογραφία για να σχηματίσετε έναν άλλο χαρακτήρα στην ίδια πόζα.
  • Ενημερωμένο μοντέλο για την τροποποίηση εικόνων: SD 2.0-inpainting, που επιτρέπει τη χρήση υποδείξεων κειμένου για την αντικατάσταση και την αλλαγή τμημάτων της εικόνας.
  • Τα μοντέλα έχουν βελτιστοποιηθεί για χρήση σε mainstream συστήματα με GPU.

Τέλος ναι σας ενδιαφέρει να μπορείτε να μάθετε περισσότερα για αυτό, θα πρέπει να γνωρίζετε ότι ο κώδικας για τα εργαλεία εκπαίδευσης και απεικόνισης νευρωνικών δικτύων είναι γραμμένος σε Python χρησιμοποιώντας το πλαίσιο PyTorch και κυκλοφορεί με την άδεια MIT.

Τα προεκπαιδευμένα μοντέλα είναι ανοιχτά με την άδεια Creative ML OpenRAIL-M, η οποία επιτρέπει την εμπορική χρήση.

πηγή: https://stability.ai


Αφήστε το σχόλιό σας

Η διεύθυνση email σας δεν θα δημοσιευθεί. Τα υποχρεωτικά πεδία σημειώνονται με *

*

*

  1. Υπεύθυνος για τα δεδομένα: Miguel Ángel Gatón
  2. Σκοπός των δεδομένων: Έλεγχος SPAM, διαχείριση σχολίων.
  3. Νομιμοποίηση: Η συγκατάθεσή σας
  4. Κοινοποίηση των δεδομένων: Τα δεδομένα δεν θα κοινοποιούνται σε τρίτους, εκτός από νομική υποχρέωση.
  5. Αποθήκευση δεδομένων: Βάση δεδομένων που φιλοξενείται από τα δίκτυα Occentus (ΕΕ)
  6. Δικαιώματα: Ανά πάσα στιγμή μπορείτε να περιορίσετε, να ανακτήσετε και να διαγράψετε τις πληροφορίες σας.