速遞|李飛飛 World Labs 推出首個 AI 系統—— 生成從圖片到可交互的 3D 場景
李飛飛創業的項目交出了第一個產品:一個能從單張照片生成類似游戲 3D 場景的 AI 系統。從效果是功能來看,比所謂的文生圖、文生視頻強了很多,而且還支持交互修改,是不是元宇宙的世界,就要來了?
李飛飛創立的 World Labs 推出了首個項目 —— 一個能從單張照片生成類似游戲?3D 場景的 AI 系統,其獨特性在于支持交互且可以修改。
World Labs 的系統能為場景提供交互效果和動畫,例如更改物體的顏色和動態調整背景燈光。
該系統屬于一個新興的 AI 類別——“世界模型”(World Models),許多此類模型可以模擬游戲和 3D 環境,但通常存在偽影和一致性問題。
初創公司 Decart 的 Minecraft 模擬世界模型 Oasis 分辨率較低,并且容易“忘記”關卡布局。
World Labs 在官方博客中提到,目前的大多數生成式 AI 工具生成的是 2D 內容,比如圖像或視頻,而生成 3D 內容則提升了控制力和一致性。
這將改變我們制作電影、游戲、模擬器以及其他物理世界數字表現形式的方式。
World Labs 的系統將圖片轉換為可交互和探索的 3D 場景。用戶可以通過使用箭頭鍵或 WASD 移動,然后單擊并拖動鼠標來探索這些 AI 生成的場景。
這些場景在瀏覽器中實時渲染,并配備可調的模擬景深效果(DoF)。
官網上提供了一個調節景深的滑塊,景深效果越強,背景物體就越模糊。
World Labs 的方法確保了生成的場景在生成后保持不變,并遵循基本的物理規律,具有一定的實體感和深度感。
World Labs?還支持模擬推拉變焦,同時調整攝像機的位置和視野:
World Labs 還提到,大多數生成模型預測的是像素,而預測 3D 場景則具有許多優勢:
- 持久的現實感:一旦生成了一個世界,它會保持穩定。如果你暫時離開視線,然后再回來,場景不會發生變化。這種持久性提供了更連貫的體驗,避免了傳統生成模型中場景不一致的情況。
- 實時控制:在生成場景后,用戶可以實時在場景中自由移動。例如,你可以停下來仔細觀察一朵花的細節,或者繞過一個角落,看看背后隱藏了什么。這種實時互動使場景更具沉浸感和探索性。
- 正確的幾何結構:World Labs 生成的世界遵循 3D 幾何的基本物理規則。這些場景具有實體感和深度感,與某些 AI 生成視頻的夢幻性質形成對比,更貼近現實體驗。
深度圖是將 3D 場景投影到二維空間的一種方式,它通過像素的顏色深淺來表達物體的遠近。
例如,離攝像機較近的像素可能被顯示為亮色,而較遠的像素則為暗色。這種方式直觀地展示了場景的三維空間結構,為開發者和用戶理解場景的深度和布局提供了重要工具。
通過這些特性,World Labs 的技術為生成式 AI 3D 場景奠定了堅實基礎,并大幅提升了內容的交互性、真實性和一致性。
最后,World Labs 還展示了一條視頻,作者 Brittani Natali 將 World Labs 的技術與 Midjourney、Runway、Suno、ElevenLabs、Blender 和 CapCut 等工具相結合的工作流程。
本文由人人都是產品經理作者【江天 Tim】,微信公眾號:【有新Newin】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
3D生成方面的創新還是第一次見噢,能完善到如此,厲害厲害。
World Labs 的技術在3D場景生成和交互性方面提供了顯著的優勢,特別是在持久性、實時控制和正確的幾何結構方面。