LDM3D，Intel 和 Blockade 的 3D 影像合成模型

LDM3D 是業界第一個提供深度映射的擴散模型，可創建具有 3 度視圖的生動且身臨其境的 360D 圖像。

英特爾和 Blockade 實驗室發布了 通過一篇博客文章介紹了他們聯合開發的機器學習模型“LDM3D»（3D 潛在擴散模型） 生成圖像和深度圖 基於自然語言文本描述的同事。

該模型使用 LAION-400M 開放數據集進行訓練。 由 LAION（大規模人工智能開放網絡）社區準備，該社區開發工具、模型和數據集合來構建免費的機器學習系統。 LAION-400M 集合包含 400 億張帶有文本描述的圖像。

除了圖像及其文字描述之外， 訓練 LDM3D 模型時也會使用深度圖， 使用 DPT（密集預測變換器）機器學習系統為每張圖像生成， 允許您預測每個像素的相對深度 的平面圖像。

英特爾實驗室與 Blockade Labs 合作推出了 3D 潛在擴散模型 (LDM3D)，這是業界第一個提供深度映射的擴散模型，可創建具有 3 度視圖的生動且身臨其境的 360D 圖像。

LDM3D 有潛力徹底改變內容創建、元宇宙應用程序和數字體驗，從而改變從娛樂和遊戲到建築和設計的各個行業。

與後處理中的深度預測技術相比，該模型 LDM3D， 最初經過深入訓練， 提供更準確的深度信息 在生成階段。該模型的另一個優點是能夠在不增加參數數量的情況下生成深度數據：LDM3D 模型中的參數數量與最新穩定擴散模型中的參數數量大致相同。

展示能力 模型的 DepthFusion應用程序已準備就緒該 允許您創建以 360 度模式觀看的交互式環境 來自二維 RGB 圖像和深度圖。

LDM3D 允許用戶使用幾乎相同數量的參數從給定的文本消息生成圖像和深度圖。

LDM3D是用TouchDesigner編寫的， 一種適合實時創建交互式多媒體內容的可視化編程語言。 LDM3D 模型還可用於根據建議的模板生成和修改圖像，將結果投影到球體上以創建環境，根據不同的觀察者位置生成圖像，並根據虛擬攝像機移動生成視頻。

所提出的技術應該具有創造新方法的巨大潛力 從娛樂和遊戲到建築和設計，各個行業都需要這種用戶交互。例如，LDM3D 可用於創建交互式博物館和虛擬現實環境，這些環境可根據自然語言需求生成詳細的環境。

發展歷程 類似於穩定擴散圖像合成系統，但允許形成三維視覺內容，例如可以以 360 度模式查看的球形全景圖像。在實用方面，該模型可用於遊戲和虛擬現實係統中，以交互形成三維環境。

LDM3D 模型在配備英特爾® 至強® 處理器和英特爾® Habana Gaudi® AI 加速器的英特爾 AI 超級計算機上進行訓練。

對於那些對該項目感興趣的人來說，他們應該知道 提供現成可用的模型免費下載 對於機器學習系統， 可以與 PyTorch 和旨在生成圖像的代碼一起使用 使用穩定擴散項目的模型。

值得一提比模型 在許可下分發 創意 ML OpenRAIL-M，其中 允許商業用途。在開放許可下分發允許感興趣的研究人員和開發人員根據他們的需求改進模型並針對高度專業化的應用程序進行優化。

最後，如果你有興趣了解更多，可以諮詢詳情在下面的鏈接中。

DesdeLinux

LDM3D，Intel 和 Blockade 的 3D 圖像合成模型

發表您的評論取消回复

發表您的評論 取消回复

發表您的評論取消回复