獨家專訪戴勃:被低估的Real to Sim和3D動態(tài)內(nèi)容生成的未來
在人工智能的浪潮中,生成式AI(AIGC)正成為研究的熱點,尤其在3D動態(tài)內(nèi)容生成和視頻生成領(lǐng)域。戴勃老師,作為這一領(lǐng)域的資深研究者,他的工作不僅推動了技術(shù)的發(fā)展,也為我們打開了新的視野。本文通過專訪戴勃老師,深入探討了Real to Sim、3D動態(tài)內(nèi)容生成以及視頻生成的未來,揭示了這些技術(shù)背后的科學規(guī)律和潛在的商業(yè)價值。
今天我們邀請到的嘉賓是上海人工智能實驗室的科學家戴勃老師。戴老師目前在上海人工智能實驗室領(lǐng)導內(nèi)容生成和數(shù)字化研究小組。2023年,戴老師參與發(fā)布的 AnimateDiff 在學術(shù)和產(chǎn)業(yè)應用領(lǐng)域都取得了廣泛關(guān)注,國內(nèi)大廠基于此發(fā)布了多項落地應用,目前 AnimateDiff 獲得萬枚 Github Star,Civitai 下載量破 8 萬次。
在訪談中,戴老師為我們分享了他是如何思考視頻生成技術(shù)和應用,以及生成式AI的研究邏輯和路線。戴老師還分享了他對于 Real to Sim to Real 閉環(huán)的看法,以及對構(gòu)建真實世界模擬器(World Simulator)的設想。Enjoy!
01. AI視頻“開源先鋒”,從 AnimateDiff 開始
SENSEAI: 請戴老師介紹一下自己和主要的研究方向吧!
戴老師:我 2014 年從上海交大 ACM 班畢業(yè)后去了香港中文大學 MMLab,學習和研究的方向一直是 AIGC 相關(guān),今年正好是我在 AIGC 這個研究領(lǐng)域的第十年。
在這一波生成式AI火爆之前,好幾年前就開始研究多模態(tài)圖像到語言描述的生成、場景圖像的生成,接著往高質(zhì)量動作的視頻理解探索,2020 年首次將生成式先驗引入了圖像修復和編輯領(lǐng)域,再到 2022 年我們首次把神經(jīng)輻射場(NeRF)做到了城市級別的重建和渲染。
去年我們的工作在文生動畫、3D、動作等方向也都取得了比較全面的進展,其中 AnimateDiff 大家可能更熟悉一些。AIGC的研究方向一部分是要盡可能的把三維動態(tài)內(nèi)容的重建和生成做好,在我看來 Build World Simulator 當前的關(guān)鍵是也是Real To Sim。
SENSEAI: 為什么 Animatediff 可以廣泛應用,您是怎么思考技術(shù)和應用的結(jié)合?
戴老師:AnimateDiff 算是已經(jīng)被證明的一次往產(chǎn)品應用上的嘗試,幾家頭部大廠也在用它的權(quán)重去微調(diào)。最近在 GitHub 上應該接近上萬 star 數(shù),Civitai 上的下載量也有近 8 萬次了。
AnimateDiff 更像是一個插件,可以與工作流中不同的部分比較好的耦合,所以它是源源不斷的在創(chuàng)造新的形態(tài)。一年多前文生圖社區(qū)火爆起來,從文生圖到把圖片動起來的用戶需求也就呼之欲出了。所以我們開源了 AnimateDiff,用戶無需特定調(diào)整就可以完成個性化文本到視頻動畫的制作。
從去年 7 月到 12 月發(fā)了三個版本,在 Fidelity (保真度)和 Controllability(可控性)上對模型進行了迭代。其實相關(guān)的工作還在繼續(xù),但得到更多的行業(yè)真實需求反饋后,對單純文生視頻的局限性有了比較清醒的認識,所以是一直在嘗試其他的一些辦法。
SENSEAI: 視頻生成是非?;馃岬闹黝},您認為技術(shù)路徑收斂還要解決哪些問題,如何理解視頻生成的技術(shù)路線和技術(shù)局限?
戴老師:首先,我相信文生視頻、包括最近也比較火的文生3D在巨大的關(guān)注下一定還會取得不錯的進展,但是在多長時間內(nèi)、多大程度上能滿足用戶或者行業(yè)的需求,我覺得還是要理性看待。
“可控性”是當前受到關(guān)注的焦點。語言文本的表達力是很有限的,設計更好的多模態(tài)人機交互的方式就很關(guān)鍵。
通過無比詳細的文本提示詞和不斷 scale up 的視頻模型,把原本視頻里的各種細節(jié)都囫圇個生成出來應該不是一個好方式。我會認為這個世界上的場景、人、物本就不是粘連在一起的,有相對獨立的結(jié)構(gòu)和特性,更何況還要這一切符合物理規(guī)律。
OpenAI在報告里稱“Scaling video generation models is a promising path towards building general purpose simulators of the physical world.” 其實 World Simulator 才是需要深入思考和提前布局的事情。
SENSEAI:后續(xù)在視頻生成上,您有怎樣的期待和研究興趣,視頻生成的交互和應用您如何暢想,您怎么理解視頻生成對自動駕駛和具身機器人的價值?
戴老師:雖然現(xiàn)在文生視頻很火,也沒必要去按照簡單粗暴的方式去follow。AnimateDiff 只是我們工作的一部分。
從世界模擬的層面來說,環(huán)境、人和物理規(guī)律是缺一不可的,所以在過去的幾年我們一直在做相應的工作。比如在場景環(huán)境方向,我們通過NeRF和Scaffold-GS把城市級實景三維重建做到了極高的訓練和渲染效率(書生·天際 LandMark),在人物和物理規(guī)律結(jié)合方向上,我們做了Controllable Motion Diffusion Model、Pedestrian Animation Controller in Driving Scenarios等物理感知交互(Physics-aware Interaction)相關(guān)的工作,同時通過與LLM結(jié)合等方式向更復雜的自然動態(tài)與仿真去做研究和工程嘗試。我們跟CMU、Nvidia、Stanford等一些頂尖的團隊,包括一些做自動駕駛、機器人相關(guān)的團隊在研究上也一直有深入的探索。但我們自己暫時還不想一步踏到具身智能中去。
SENSEAI: 您的研究里,有視頻生成,有3D生成,有世界模擬,能講講這背后的思路和終極目標嗎?
戴老師:其實我做研究的底層邏輯上,一直非常注重科學規(guī)律的指導,我們認為生成式AI的技術(shù)迭代與突破實際上是遵循 Fidelity-Scalability-Controllability-Accessibility (真實度-可擴展性-可控性-可用性)這樣的一個循環(huán)。
所以近一年的時間一直在想辦法解決“可控”和“可用”的問題,無論是用戶操作上的還是成本層面的。無論是視頻和3D生成,還是通過 Build World Simulator,都是為了更好的進行理解和仿真,利用 Real To Sim 與 Sim To Real 共同構(gòu)建整個虛實結(jié)合的閉環(huán)。
Fidelity-Scalability-Controllability-Accessibility
SENSEAI: 在您眼中,生成式AI有怎樣的特性和模式,transformer 和 scaling 是不是這一代技術(shù)的終極解法?
戴老師:就像我前邊講的,F(xiàn)idelity-Scalability-Controllability-Accessibility這樣的一個循環(huán)的科學規(guī)律,和我們在實際研究和應用中需要攻克的問題,構(gòu)成了一個螺旋上升的形態(tài),會經(jīng)歷多次的循環(huán)和迭代。
文本和語言只是多種模態(tài)中基礎(chǔ)的一部份,很難說因為今天文本相關(guān)的 Chat 解決的不錯了,就意味著生成式 AI 的技術(shù)路徑和需要解決的問題就大致如此了。我們所看到的問題也許只是冰山一角,所以還是可以多一些耐心。Transformer當然是非常棒的突破,充分的利用好一定是可以加速很多的工作。
至于Scaling Law,如果我現(xiàn)在有十萬張卡我愿意試一試,但我們經(jīng)常會說“沒有也行”,辦法總比困難多嘛。在一部分恰當?shù)牟襟E中利用好 Scaling Law 是比較理性的做法。
02.Real to Sim可能被低估了
SENSEAI:在具身智能領(lǐng)域,Sim to Real 是非常常見的,但您同時強調(diào)了 Real to Sim 的重要性,這套循環(huán)是怎么相互作用的?
戴老師:很顯然只關(guān)注Sim To Real還不夠。最近隨著具身智能的火熱,越來越多的人在討論仿真,仿真使得我們可以在虛擬環(huán)境中模擬人類期望在現(xiàn)實環(huán)境中進行的動作和行為,并將這個過程中獲取的數(shù)據(jù)、知識或者模型直接部署或使用到現(xiàn)實的應用和設備上,從而擺脫現(xiàn)實環(huán)境的種種限制,如安全性、隱私、事件發(fā)生頻率、成本、時間周期等問題。
那么實現(xiàn)仿真的關(guān)鍵,是先將虛擬環(huán)境和現(xiàn)實環(huán)境從形象、結(jié)構(gòu)和功能上完成對齊,這幾乎是一個當前很難回避的問題。更為強大的Real To Sim能力,能從根源上解決 Sim To Real Gap 和諸多由此而來的瓶頸。但反過來講,目前所能實現(xiàn)的 Real To Sim 也還沒有那么理想,在有 Gap 的前提下如何更好的將在虛擬環(huán)境中獲取的數(shù)據(jù)、知識或者模型利用起來就很關(guān)鍵。
Real To Sim 與 Sim To Real 共同構(gòu)建了整個虛實結(jié)合的閉環(huán),所以我們希望可以真正做到 Real to Sim to Real。由于虛擬環(huán)境和現(xiàn)實環(huán)境一樣,是三維和動態(tài)的,Real To Sim的能力,對應的正是生成式AI中的三維及動態(tài)內(nèi)容的重建及生成技術(shù)。
SENSEAI:Simulator上,英偉達有著非常大的生態(tài)優(yōu)勢,在您看來這個環(huán)節(jié)的重要性有多大,未來的發(fā)展趨勢如何,有哪些技術(shù)可以更好的推進 simulator 的進展?
戴老師:這個問題非常好,英偉達擁有的更多是生態(tài)優(yōu)勢,同時 Omniverse 配備了非常強大的研究力量。在核心技術(shù)層面,我們也有一些我們的優(yōu)勢和側(cè)重點,比如在 Real To Sim 和人物自然動態(tài)的仿真上。
英偉達希望通過豐富的算力資源+仿真平臺的組合把大家都先集聚起來,但是最后一公里的問題依舊需要投入開發(fā)者,所以某種意義上大家應該是可以利用好Omniverse 和 Isaac 等平臺去做出更加 Native 的應用。
此外,我們還可以反向思考一下,是不是如果用更優(yōu)的模型+更少的算力消耗可以改變這一局面。我們近期有成果表明,的確是有辦法在一些工作上實現(xiàn)計算資源指數(shù)級的調(diào)整。
03.有關(guān)世界模擬和3D內(nèi)容生成的未來
SENSEAI:Sora 團隊認為視頻模型就是 world simulator 了,從笛卡爾的認知論角度,世界其實是我們感應器官映射后的解釋,無法真的代表真實世界;那么視頻模型是否可以超越我們感官顆粒度,眼見為真即為真呢?和數(shù)學驅(qū)動的世界模型,未來是取代還是共存呢?
戴老師:OpenAI 在報告里稱 “Scaling video generation models is a promising path towards building general purpose simulators of the physical world.”這當中有幾個問題,首先 Scaling 視頻生成模型要 Scaling 到什么程度,其次這里的 視頻生成模型是不是等同于今天我們看到的產(chǎn)品Sora。
我還是認為視頻生成只是構(gòu)建世界模擬的一種路徑,可以看成是有益的一部份,但很難說他就是 World Simulator 或者 World Model。
SENSEAI:世界模型的意義是什么,都有哪些關(guān)鍵的要素,LeCun說的世界模型,李飛飛創(chuàng)業(yè)的空間智能,有怎樣的異同?
戴老師:我們前邊所說的 Real To Sim 的技術(shù)和其構(gòu)建的數(shù)字世界,其實跟這些概念都有本質(zhì)的聯(lián)系。世界模型(World Model),幾乎是一個非常大而全的概念。雖然大家對這個概念的定義不同,但大部分人描述的,正是Real To Sim所構(gòu)建的虛擬世界。
世界仿真器(World Simulator),與世界模型相比,更強調(diào)仿真的結(jié)果,而非仿真的路徑。所以大家也會認為視頻生成可以作為世界仿真器,或者換句話說仿真不一定需要通過與現(xiàn)實對齊的三維、動態(tài)虛擬環(huán)境。但不同的仿真路徑,在效率、效果、魯棒性等方面可能存在天壤之別。
空間智能(Spatial Intelligence),更強調(diào)在 Real To Sim 構(gòu)建的虛擬環(huán)境中通過仿真獲取到的知識,實現(xiàn)感知、理解和交互能力。其實概念沒那么重要,我們提前布局的和想做的方向現(xiàn)在逐步已經(jīng)成為共識了,但在沒有這個概念之前也并沒有影響我們一直在做。
SENSEAI:我們看到 Luma、Viggle 都有基于 3D guidance 的視頻生成,怎么看待3D和視頻生成的關(guān)系?
戴老師:目前大家看到的一些所謂基于3D Guidance的視頻生成,我不太好做過多的評判,還是以真實的效果為準。
Luma、Sora等視頻生成的思路還是視頻為主3D為輔,我個人覺得應該是3D為主視頻為輔,更符合真正可控可用的Real To Sim的邏輯。
真實世界本來就是三維的,其實大家想在 Simulator 里完成的操作也都是3D的,比如視頻的鏡頭轉(zhuǎn)個角度、視頻里移動一些元素等等操作其實細想都依賴背后的3D,Real To Sim 通過2D的視頻來橋接,是不是真的必要,還是說只是因為當前階段急需用視頻來證明潛力,都值得深思。
SENSEAI:您的研究 3D 粒子系統(tǒng)能否講一講,未來可能對哪些領(lǐng)域有幫助,微觀向宏觀的指導和映射能有怎樣的延展?
戴老師:您前期準備工作還挺細致的哈哈。前年的時候我們發(fā)過一篇Transformer with Implicit Edges for Particle-based Physics Simulation 的工作,最近我們也跟一些產(chǎn)業(yè)界的朋友在聊,發(fā)現(xiàn)大家都覺得這個非常重要。
這個工作的核心是探索AI在微觀層面細致、復雜的物理模擬上的潛力。因為一個是因為這種微觀的物理模擬背后涉及的流體力學、空氣動力學本來就是物理學的重要內(nèi)容,另外它也和我們的日常生活息息相關(guān),無論是自然界中的風霜雨雪還是水,還是我們穿的衣服的柔性材料,物體爆炸產(chǎn)生的粒子反應等等。
從宏觀的三維幾何深入到微觀的粒子間相互作用,AI就有機會幫助解決更多科學問題,因為很多宏觀上看起來完全不相關(guān)的現(xiàn)象,在微觀上是相似的。
SENSEAI:在您看來,3D生成的應用,需要像 visionpro 這樣的空間計算和交互硬件的普及嗎?或者還可能有怎樣的應用?
戴老師:當然需要,未來空間計算和交互硬件的普及也許會創(chuàng)造全新的真實世界與數(shù)字世界的交互方式。VisionPro 發(fā)售后我第一時間買了一個,我們把自己重建和生成的一些內(nèi)容已經(jīng)在往這些設備上去做適配和交互。
對于終端設備大家可以有更多的耐心,同時終端的加速迭代離不開內(nèi)容生態(tài)的繁榮,所以利用 AIGC 的能力把 3D 動態(tài)內(nèi)容做到更高質(zhì)量、更可控、更低成本是眼前更需要踏實去做的事情。
SENSEAI:可以再和大家分享一下三維動態(tài)內(nèi)容的重建的研究進展嗎,這部分對哪些領(lǐng)域的學術(shù)或者產(chǎn)業(yè)推動具有重要意義?我們的創(chuàng)新/領(lǐng)先之處在哪?
戴老師:三維和動態(tài)內(nèi)容的重建與生成,這里邊有三個關(guān)鍵詞,三維、動態(tài)和重建與生成。三維應該比較好理解,只有在三維空間中的信息理解才能實現(xiàn)空間和物理的統(tǒng)一;強調(diào)動態(tài),是因為只有動態(tài)的人與環(huán)境、人與物、人與人的交互被更好的呈現(xiàn)才能還原真實世界中的感知理解和行動規(guī)劃;重建和生成,如果我們有辦法無差別地將各種要素重建出來,那么生成的效果也就更有參考和依據(jù),這也是為什么即便生成賽道這么火的同時, NeRF和高斯等相關(guān)的研究依舊被學術(shù)界和工業(yè)界十分重視。
我們算是有一些不錯的進展,基本的思路還是把Real to Sim to Real中的難點解耦,場景、人、物理,把每一個部分都爭取做到比較好或者說是可控和可用的水平,接下來我們就有機會再把這些部分耦合起來。
所以遵循這樣的思路,首先是兩年前就開始做場景的重建。通過大規(guī)模場景重建技術(shù),為虛擬環(huán)境提供逼真的場景,比如采用全新的 Scaffold-GS 算法,可以達到既具備 3D Gaussian Splatting 的高性能渲染效率,也融合了多種經(jīng)典 NeRF 表征的靈活性和高質(zhì)量。這部分應該是在全球處于非常領(lǐng)先的水平了。在更高質(zhì)量的同時,我們還往前多做了一些工作,通過對模型、系統(tǒng)、算子的升級,把所需的計算資源從原先的GPU降到了單張消費級顯卡。
重建達到比較高的水平的同時,我們把生成的水平也提上來,所以也花了一點時間做了一些可交互的場景空間生成,從結(jié)構(gòu)上向現(xiàn)實靠攏。幾何和材質(zhì)、光線等又是需要花精力認真攻克的部分,完全 Realistic 的生成還有更多研究需要做。
可控、物理可信的人體自然動態(tài)生成也是非常重要的一部分,可以為引入到虛擬環(huán)境中的真人,提供自然、實時的人體動態(tài)仿真、環(huán)境與人的交互仿真,以及多人交互仿真等能力。
當我們將這些技術(shù)組合到一起,環(huán)境、人和物理仿真,我們其實就具備了 Rea l to Sim 的可行性,并在此基礎(chǔ)之上完成 Real to Sim to Real 的閉環(huán)。正如我前邊說的,實現(xiàn)高保真的 Real to Sim to Real 要比我們理論推演的或者想象的難的多。
我們最近做了一個嘗試,遇到了很多具體的具有挑戰(zhàn)性的問題,包括研究和工程上的。大概目標是在一個逼真的虛擬戶外場景中,嘗試把人物角色耦合進去,并希望實現(xiàn)人物角色自發(fā)的、或通過各項指令,完成自然、多樣的行為?,F(xiàn)在做出來的 Demo 我們覺得只有二三十分的狀態(tài),但是定位到了很多值得攻克的問題,對我們來說很有意義。
SENSEAI:您想象中的終極模型是怎樣的,會有怎樣的性能和可能的商業(yè)價值,現(xiàn)有研究中有哪些已經(jīng)可以進行商業(yè)應用
戴老師:想象中的終極模型未必是一個大模型,無論是一個模型還是一套系統(tǒng),本質(zhì)目標是要成本和可用性上都達到可控,這就需要在設計模型和考慮工程可行性的時候充分考慮產(chǎn)業(yè)的真實需求和想法。
結(jié)合 Nvidia 和 Meta 等在做的事情,把數(shù)字化內(nèi)容做好是當前比較清晰的一個方向,真正的將3D、物理、動態(tài)通過多模態(tài)控制的方式設計好,這當中可能會涉及比較多的工程問題要解決。數(shù)字內(nèi)容的生成能做好,我們就有機會向數(shù)字世界的模擬去靠近,從而實現(xiàn)數(shù)字世界向真實世界的映射,更好的與真實世界產(chǎn)生互動。無論是機器人、自動駕駛,還是更加偏向工業(yè)領(lǐng)域的產(chǎn)業(yè)落地都會被加速。
轉(zhuǎn)載請聯(lián)系公眾號后臺
https://daibo.info/
https://scholar.google.com/citations?hl=en&user=KNWTvgEAAAAJ&view_op=list_works&sortby=pubdate
http://arxiv.org/abs/1703.06029
https://openaccess.thecvf.com/content_cvpr_2017/papers/Dai_Detecting_Visual_Relationships_CVPR_2017_paper.pdf
https://sdolivia.github.io/FineGym/
https://arxiv.org/abs/2003.13659
https://controllablemdm.github.io/
https://arxiv.org/abs/2404.19722
https://arxiv.org/abs/2207.10860
作者:Yihao,AI早期投資人,關(guān)注技術(shù)和人文變量
編輯:vanessa
本文由人人都是產(chǎn)品經(jīng)理作者【深思SenseAI】,微信公眾號:【深思SenseAI】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!