3個月估值10億,李飛飛空間智能首個模型誕生!一張圖生成3D世界,視頻游戲要變天
李飛飛的World Labs首個「空間智能」模型,剛剛誕生了!一張圖生成一個3D世界,網友驚呼:太瘋狂了,我們進入了下一輪革命,這就是視頻游戲、電影的未來。
AI生成3D世界成真了!
就在剛剛,AI教母李飛飛創立的World Labs首次官宣「空間智能」模型,一張圖,即可生成一個3D世界。
用李飛飛的話說,「無論怎樣理論化這個想法,都很難用語言描述一張照片或一句話生成3D場景的互動體驗?!?/p>
這是邁向空間智能的第一步。
交互傳送門:https://www.worldlabs.ai/blog#footnote1
所有場景都能在瀏覽器中實時渲染,還能實現可控的相機效果、可調節的模擬景深。
未來,游戲NPC的虛擬世界可以隨意切換,都是分分鐘生成的事情。
英偉達高級研究科學家、李飛飛高徒Jim Fan總結道,「GenAI正在創造越來越高維度的人類體驗快照。Stable Diffusion是2D快照;Sora是2D+時間維度的快照;而World Labs是3D、完全沉浸式的快照」。
今年4月,李飛飛被曝出開始自創業,專注于空間智能,新公司私下融資直接晉升10億美元獨角獸。直到9月,這家名為World Lab正式亮相,并在新一輪融資2.3億美金,得到了AI大牛Geoffrey Hinton、Jeff Dean、谷歌前CEO Eric Schmidt等人的鼎力支持。
World Labs創始人團隊,左起依次為Ben Mildenhall、Justin Johnson、Christoph Lassner和李飛飛
如今醞釀半年多,空間智能終見雛形。
網友們激動地表示,太瘋狂了,我們即將迎來一個像是80年代、90年代那樣的革命。這將讓許多人實現他們的創意,有望降低開發成本,幫助工作室的新知識產權更大膽冒險。
這就是視頻游戲、電影的未來。
VR從此有了更多可能性。
一、探索一個新世界
不論是Midjourney、FLUX,還是Runway、DreamMachine,我們熟知的大多數GenAI工具僅能制作圖像/視頻2D內容。
若是實現了在3D中生成,視頻的控制性、一致性能得到極大的改善。
這也就意味著,制作電影、游戲、模擬器等其他物理世界的數字表現形式,將會發生翻天覆地的變化。
World Labs成立開始的初衷便是,空間智能的AI對世界進行建模,還能3D時空中物體/地點/交互進行推理。
這次,他們首次展示了這個3D生成的世界。
如下,是在瀏覽器中進行的實時渲染演示(注:AI圖像均由FLUX 1.1 pro/Ideogram/Midjourney生成)。
輸入一張AI生成的古色古香的村莊圖像,然后就可以得到一個3D的世界。
提示:這是一個古色古香的村莊,鵝卵石鋪就的街道,茅草屋頂的小木屋,中央廣場上有一口石井,周圍是花壇
一座富麗堂皇的宮殿,AI把光與影都展現得淋漓盡致。
一幅AI生成的折紙類圖片,立刻活靈活現了起來。
又或者輸入一張博物館取景照片,誰又能想到這周圍是什么樣子的呢?
AI幫你設想出了一切,出入門,下一間相鄰的展館、展品…..
再比如這張實景圖,AI也能想象出周圍的世界。
二、相機效果
你還可以體現不同相機效果,場景生成后,會使用虛擬相機在瀏覽器中進行實時渲染。
通過對這個相機的精準控制,便可以實現藝術攝影特效。
比如模擬不同的景深,讓只有在相機特定距離范圍內的物體保持清晰:
還可以模擬滑動變焦(dolly zoom),通過同時調整相機的位置和視場角來實現這一效果:
三、3D特效
大多數生成式模型都是預測像素的。而預測3D場景有很多好處:
- 場景持久性:一旦生成了一個世界,它就會穩定存在。即使你轉開視線后再次觀看,場景也不會在你看不見時發生變化。
- 實時控制:生成場景后,你可以在其中實時移動。你可以仔細觀察花朵的細節,或是探頭查看角落后面有什么。
- 幾何精確性:這個生成的世界遵循基本的3D幾何物理規則。它們具有真實的立體感和空間深度,與某些AI生成視頻的虛幻效果形成鮮明對比。
可視化3D場景最簡單的方法是,就是使用深度圖(depth map)。在深度圖中,每個像素都會根據其到相機的距離來著色:
我們不僅可以利用3D場景結構來創建交互特效:
還可以創建自動運行的動態效果,為場景注入生命力:
名畫中的3D世界也可實時交互了。
四、走進梵高的露天咖啡館
現在,我們可以以全新的方式,體驗標志性的藝術作品了!
原畫中沒有任何東西,是由模型生成的。
下面,就讓我們走進從梵高、霍珀、修拉和康定斯基最喜歡的作品中生成的世界。
五、創意工作流
現在,3D世界生成可以十分自然地和其他AI工具組合在一起,創作者們可以使用已知的工具,獲得無比絲滑的全新體驗了。
首先,可以通過使用文本到圖像模型生成圖像,來從文本創建世界。
不同的模型都有自己的不同風格,而空間智能世界可以繼承這些風格。
下面就是使用不同的文本到圖像模型生成同一場景的四個變體, 它們使用的都是相同的提示。
提示:一間充滿朝氣的動漫風格青少年臥室,床上鋪著五顏六色的毯子,書桌上雜亂地擺著一臺電腦,墻上貼滿了海報,各種運動器材隨意地散落在房間里。一把吉他斜靠在墻邊,房間中央鋪著一塊帶有精美圖案的舒適地毯。窗外透進的陽光為整個房間營造出溫馨活力的青春氛圍。
現在,已經有一些創作者提前試用了。
比如Eric Solorio就使用這個模型,填補了自己創意工作流程中的空白,可以讓場景中的角色可以上陣,甚至還能指導攝像機精確移動。
Brittani Natail則將World Labs技術與Midjourney、Runway、Suno、ElevenLabs、Blender和CapCut等工具相結合,在生成的世界中精心設計了攝像機路徑。因此,得以在三部短片中喚起不同的情緒。
現在,候補名單已經開放了,話不多說了,趕快去申請吧。
六、空間智能,計算機視覺下一個前沿
此前,李飛飛在一次活動中,首次詳細揭秘了何謂「空間智能」:
視覺化為洞察,看見成為理解,理解導致行動。
她將人類智能歸結為兩大智能,一是語言智能,另一個便是空間智能。雖然語言智能備受關注,但空間智能將對AI產生重大的影響。
而在4月公開的TED演講中,李飛飛也分享了自己關于空間智能的更多思考,同時預示著World Labs的目標所在。
她表示,「所有空間智能的生物所具備的行動能力,是與生俱來的。因為,它能夠將感知與行動進行關聯」。
「如果想讓AI超越其自身當前的能力,我們需要的是,不僅僅能夠看到、會說話的AI,而是一個可以行動的AI」。
就連英偉達高級計算機科學家Jim Fan稱,「空間智能,是計算機視覺和實體智能體的下一個前沿」。
正如World Labs的官博所闡述的那樣,人類智能包含了諸多方面。
語言智能,可以讓我們通過語言與他們進行交流和聯系。而其中最為基礎的便是——空間智能,能夠讓我們理解,并與周圍世界進行互動。
此外,空間智能具備了極強的創造力,可以將我們腦海中的畫面,在現實中呈現。
正是有了空間智能,人類能夠推理、行動和發明。從簡單的沙堡到高聳的城市可視化設計,都離不開它。
在接受彭博最新采訪中,李飛飛表示,人類的空間智能,實際上經過了數百萬年的演化而來。
這是一種理解、推理、生成,甚至在一個3D世界中互動的能力。不論是你觀賞美麗的花朵,嘗試觸摸蝴蝶,還是建造一座城市,所有這些皆是空間智能的一部分。
不僅是人類,動物身上也可以看到這一點。
那么,如何讓計算機也能具備空間智能的能力呢?其實我們已經取得了巨大的進步,過去十年AI領域的發展相當振奮人心。
一句提示,AI生成圖像、視頻,真知還能講述故事。這些模型已經以全新的方式,重塑人類的工作和生活方式。
而我們僅是看到了GenAI革命前夜的第一章。
下一步,如何超越?
需要將這些能力,如何帶到3D領域。因為現實世界,就是3D的,同時人類空間智能是建立在非?!冈沟睦斫夂筒僮?D的能力之上的。
如今,單個圖像生成3D世界模型,讓我們對空間智能有了初步的理解。
參考資料:
https://x.com/DrJimFan/status/1863646433435586903
https://x.com/drfeifei/status/1863618536318345688
編輯:編輯部 HYZ
本文由人人都是產品經理作者【新智元】,微信公眾號:【新智元】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
AI生成游戲中的3D效果能降本增效的同時,還能提高用戶體驗,促進市場發展,一舉多得。