Το LDM3D, το πρώτο μοντέλο διάχυσης της βιομηχανίας που προσφέρει χαρτογράφηση βάθους για τη δημιουργία τρισδιάστατων εικόνων με προβολή 3 μοιρών που είναι ζωντανές και καθηλωτικές.
Η Intel και η Blockade Labs κυκλοφόρησαν μέσω μιας ανάρτησης ιστολογίου πληροφορίες σχετικά με την κοινή τους ανάπτυξη ενός μοντέλου μηχανικής μάθησης που ονομάζεται "LDM3D» (Latent Diffusion Model for 3D) για τη δημιουργία εικόνων και χαρτών βάθους συνεργάτες που βασίζονται σε περιγραφές κειμένων φυσικής γλώσσας.
Το μοντέλο εκπαιδεύτηκε χρησιμοποιώντας το σύνολο ανοιχτών δεδομένων LAION-400M. Προετοιμάστηκε από την κοινότητα LAION (Large-Scale Artificial Intelligence Open Network), η οποία αναπτύσσει εργαλεία, μοντέλα και συλλογές δεδομένων για τη δημιουργία δωρεάν συστημάτων μηχανικής μάθησης. Η συλλογή LAION-400M περιλαμβάνει 400 εκατομμύρια εικόνες με περιγραφές κειμένου.
Εκτός από τις εικόνες και τις κειμενικές περιγραφές τους, Οι χάρτες βάθους χρησιμοποιούνται επίσης κατά την εκπαίδευση του μοντέλου LDM3D, που δημιουργείται για κάθε εικόνα χρησιμοποιώντας το σύστημα μηχανικής εκμάθησης DPT (Dense Prediction Transformer), το οποίο σας επιτρέπει να προβλέψετε το σχετικό βάθος κάθε pixel μιας επίπεδης εικόνας.
Η Intel Labs, σε συνεργασία με το Blockade Labs, παρουσίασε το Latent Diffusion Model for 3D (LDM3D), το πρώτο μοντέλο διάχυσης της βιομηχανίας που προσφέρει χαρτογράφηση βάθους για τη δημιουργία τρισδιάστατων εικόνων με εικόνες 3 μοιρών που είναι ζωντανές και καθηλωτικές.
Το LDM3D έχει τη δυνατότητα να φέρει επανάσταση στη δημιουργία περιεχομένου, στις εφαρμογές metaverse και στις ψηφιακές εμπειρίες, μεταμορφώνοντας ένα ευρύ φάσμα βιομηχανιών, από την ψυχαγωγία και τα παιχνίδια μέχρι την αρχιτεκτονική και το σχεδιασμό.
Σε σύγκριση με τις τεχνολογίες πρόβλεψης βάθους στη μετα-επεξεργασία, το μοντέλο LDM3D, αρχικά εκπαιδεύτηκε βαθιά, παρέχει πιο ακριβείς πληροφορίες βάθους στο στάδιο της γενιάς. Ένα άλλο πλεονέκτημα του μοντέλου είναι η δυνατότητα δημιουργίας δεδομένων βάθους χωρίς αύξηση του αριθμού των παραμέτρων: ο αριθμός των παραμέτρων στο μοντέλο LDM3D είναι περίπου ο ίδιος όπως στο πιο πρόσφατο μοντέλο σταθερής διάχυσης.
Να επιδείξει ικανότητες του μοντέλου Η εφαρμογή DepthFusion έχει ετοιμαστείΌτι σας επιτρέπει να δημιουργήσετε διαδραστικά περιβάλλοντα για προβολή σε λειτουργία 360 μοιρών από δισδιάστατες εικόνες RGB και χάρτες βάθους.
Το LDM3D επιτρέπει στους χρήστες να δημιουργούν μια εικόνα και έναν χάρτη βάθους από ένα δεδομένο μήνυμα κειμένου χρησιμοποιώντας σχεδόν τον ίδιο αριθμό παραμέτρων.
Το LDM3D είναι γραμμένο στο TouchDesigner, μια οπτική γλώσσα προγραμματισμού κατάλληλη για τη δημιουργία διαδραστικού περιεχομένου πολυμέσων σε πραγματικό χρόνο. Το μοντέλο LDM3D μπορεί επίσης να χρησιμοποιηθεί για τη δημιουργία και την τροποποίηση εικόνων με βάση ένα προτεινόμενο πρότυπο, την προβολή του αποτελέσματος σε μια σφαίρα για τη δημιουργία ενός περιβάλλοντος, τη δημιουργία εικόνων με βάση διαφορετικές θέσεις παρατηρητών και τη δημιουργία βίντεο με βάση την κίνηση της εικονικής κάμερας.
Η προτεινόμενη τεχνολογία υποτίθεται ότι έχει μεγάλες δυνατότητες δημιουργίας νέων μεθόδων της αλληλεπίδρασης των χρηστών, η οποία μπορεί να είναι περιζήτητη σε διάφορους κλάδους, από την ψυχαγωγία και τα παιχνίδια μέχρι την αρχιτεκτονική και το σχεδιασμό. Για παράδειγμα, το LDM3D μπορεί να χρησιμοποιηθεί για τη δημιουργία διαδραστικών μουσείων και περιβαλλόντων εικονικής πραγματικότητας που δημιουργούν λεπτομερή περιβάλλοντα βασισμένα σε επιθυμίες φυσικής γλώσσας.
Η ανάπτυξη μοιάζει με το σύστημα σύνθεσης εικόνας Stable Diffusion, αλλά επιτρέπει το σχηματισμό τρισδιάστατου οπτικού περιεχομένου, όπως σφαιρικές πανοραμικές εικόνες που μπορούν να προβληθούν σε λειτουργία 360 μοιρών. Από την πρακτική πλευρά, το μοντέλο μπορεί να χρησιμοποιηθεί σε παιχνίδια και συστήματα εικονικής πραγματικότητας για τον διαδραστικό σχηματισμό τρισδιάστατων περιβαλλόντων.
Το μοντέλο LDM3D εκπαιδεύεται σε έναν υπερυπολογιστή Intel AI με επεξεργαστές Intel® Xeon® και επιταχυντές Intel® Habana Gaudi® AI.
Για όσους ενδιαφέρονται για το έργο, θα πρέπει να το γνωρίζουν ένα έτοιμο προς χρήση μοντέλο προσφέρεται για δωρεάν λήψη για συστήματα μηχανικής μάθησης, τα οποία μπορεί να χρησιμοποιηθεί με PyTorch και κώδικα που έχει σχεδιαστεί για τη δημιουργία εικόνων χρησιμοποιώντας μοντέλα από το έργο Stable Diffusion.
αξίζει να αναφερθεί από το μοντέλο διανέμεται με την άδεια χρήσης Creative ML OpenRAIL-M, το οποίο επιτρέπει την εμπορική χρήση. Η διανομή με ανοιχτή άδεια επιτρέπει στους ενδιαφερόμενους ερευνητές και προγραμματιστές να βελτιώσουν το μοντέλο σύμφωνα με τις ανάγκες τους και να το βελτιστοποιήσουν για εξαιρετικά εξειδικευμένες εφαρμογές.
Τέλος, εάν ενδιαφέρεστε να μάθετε περισσότερα σχετικά, μπορείτε να συμβουλευτείτε τις λεπτομέρειες Στον ακόλουθο σύνδεσμο.