詳解Sora,為什么是AGI的又一個里程碑時刻?

0 評論 2564 瀏覽 2 收藏 18 分鐘

2024年伊始,Sora成為了AGI(通用人工智能)的又一個里程碑時刻。作為視頻生成模型,Sora有著什么樣的能力?本文對此進(jìn)行了分析,一起來看看吧。

2024年伊始,OpenAI再向世界扔了一枚AI炸彈——視頻生成模型Sora。

一如一年前的ChatGPT,Sora被認(rèn)為是AGI(通用人工智能)的又一個里程碑時刻。

“Sora意味著AGI實現(xiàn)將從10年縮短到1年”,360董事長周鴻祎作出預(yù)判。

但這個模型如此轟動,并不只是因為AI生成的視頻時間更長、清晰度更高,而是OpenAI已經(jīng)超越過去所有AIGC的能力,生成了一個與真實物理世界相關(guān)的視頻內(nèi)容。

無厘頭的賽博朋克固然酷炫,但真實世界中的一切如何讓AI重現(xiàn)才更具意義。

為此,OpenAI提出了一個全新的概念——世界模擬器。

在OpenAI官方出具的技術(shù)報告中,對Sora的定位為“作為世界模擬器的視頻生成模型”,“我們的研究結(jié)果表明,擴(kuò)展視頻生成模型是構(gòu)建物理世界通用模擬器的一條可行之路?!?/strong>

(圖源:OpenAI官網(wǎng))

OpenAI認(rèn)為,Sora為能夠理解和模擬真實世界的模型奠定了基礎(chǔ),這將是實現(xiàn)AGI的一個重要里程碑。憑借這一點,就徹底與AI視頻賽道的Runway、Pika等公司拉開了一個段位。

從文字(ChatGPT)到圖片(DALL·E )再到視頻(Sora),對OpenAI來說,仿佛在搜集一張張的拼圖,試圖通過影像媒介形態(tài)徹底打破虛擬與現(xiàn)實的邊界,成為電影“頭號玩家”一般的存在。

如果說蘋果Vision Pro是頭號玩家的硬件外顯,那么一個能自動構(gòu)建仿真虛擬世界的AI系統(tǒng),才是靈魂。

“語言模型近似人腦,視頻模型近似物理世界”,愛丁堡大學(xué)的博士生Yao Fu表示。

“OpenAI的野心大得超出了所有人的想象,但好像也只有它能做到”,多位AI創(chuàng)業(yè)者對光錐智能感嘆道。

一、Sora如何成為“世界模擬器”?

OpenAI新發(fā)布的Sora模型,一腳踹開了2024年AI視頻賽道的大門,徹底與2023年以前的舊世界劃出了分界線。

在其一口氣釋出的48個演示視頻中,光錐智能發(fā)現(xiàn)過去AI視頻被詬病的問題大部分得到了解決:更清晰的生成畫面、更逼真的生成效果、更準(zhǔn)確的理解能力、更順暢的邏輯理解能力、更穩(wěn)定和一致性的生成結(jié)果等等。

但這一切也不過是OpenAI顯現(xiàn)出的冰山一角,因為OpenAI從一開始瞄準(zhǔn)的就不是視頻,而是所有存在的影像。

影像是一個更大的概念,視頻是其中的一個子集,例如大街上滾動的大屏、游戲世界的虛擬場景等等。OpenAI要做的事情,是要以視頻為切入口,涵蓋一切影像,模擬、理解現(xiàn)實世界,也就是其強(qiáng)調(diào)的“世界模擬器”概念。

正如AI電影《山海奇境》制作人、星賢文化陳坤告訴光錐智能,“OpenAI在向我們展示它在視頻方面的能力,但真正的目的在于獲取人們的反饋數(shù)據(jù),去探索、預(yù)測人們想要生成的視頻是什么樣的。就像大模型訓(xùn)練一樣,一旦工具開放,就相當(dāng)于全世界的人在為其打工,通過不斷標(biāo)記、錄入,讓其世界模型變得越來越聰明?!?/p>

于是我們看到,AI視頻成為了理解物理世界的第一個階段,主要突出其作為“視頻生成模型”的屬性;發(fā)展到第二個階段,才能作為“世界模擬器”提供價值。

抓住Sora“視頻生成”屬性的核心在于——找不同,即Sora和Runway、Pika的差異性體現(xiàn)在哪里?這個問題至關(guān)重要,因為某種程度上解釋了Sora能夠碾壓的原因。

首先的一點,OpenAI沿用了訓(xùn)練大語言模型的思路,用大規(guī)模的視覺數(shù)據(jù)來訓(xùn)練一個具備通用能力的生成模型。

這與文生視頻領(lǐng)域“專人專用”的邏輯完全不同。去年,Runway也有過類似的計劃,被其稱之為“通用世界模型”,思路大致相似,但沒有后續(xù),這回Sora倒是先一步完成了Runway的夢想。

據(jù)紐約大學(xué)助理教授謝賽寧推算,Sora參數(shù)量約為30億,雖然對比GPT模型顯得微不足道,但是這個數(shù)量級已經(jīng)遠(yuǎn)超了Runway、Pika等一些公司,可以稱得上是降維打擊。

萬興科技AI創(chuàng)新中心總經(jīng)理齊鏜泉,評價Sora的成功再次驗證了“大力出奇跡”的可能性,“Sora依然遵循OpenAI的Scaling Law,靠大力出奇跡,大量數(shù)據(jù),大模型和大量算力。Sora底層采用了游戲、無人駕駛和機(jī)器人領(lǐng)域驗證的世界模型,構(gòu)建文生視頻模型,達(dá)到模擬世界的能力?!?/p>

其次,在Sora身上第一次展現(xiàn)了擴(kuò)散模型與大模型能力的完美融合。

AI視頻就像一部電影大片,取決于劇本和特效兩個重要元素。其中,劇本對應(yīng)著AI視頻生成過程中的“邏輯”,特效則對應(yīng)著“效果”。為了實現(xiàn)“邏輯”和“效果”,背后分化出了兩條技術(shù)路徑擴(kuò)散模型和大模型。

去年年底,光錐智能就曾預(yù)判到,為了同時能夠滿足效果和邏輯,擴(kuò)散和大模型兩條路線終將走向融合。沒想到,OpenAI如此迅速地就解決了這個難題。

(圖源:OpenAI官網(wǎng))

OpenAI 在技術(shù)報告中畫重點提到:“我們將各種類型的視覺數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一表示法的方法,這種表示法可用于生成模型的大規(guī)模訓(xùn)練?!?/p>

具體來看,OpenAI將視頻畫面的每一幀都編碼轉(zhuǎn)化為了一個個的視覺補(bǔ)?。╬atches),每個補(bǔ)丁都類似于GPT中的一個token,成為了視頻、圖像中的最小衡量單位,并且可以隨時隨地被打破、被重組。找到了統(tǒng)一數(shù)據(jù)的方式,統(tǒng)一了度量衡,也就找到了打通擴(kuò)散模型和大模型的橋梁。

在整個生成的過程中,擴(kuò)散模型仍在負(fù)責(zé)生成效果的部分,增加大模型Transformer的注意力機(jī)制后,就多了對生成的預(yù)測、推理能力,這也就解釋了Sora為什么能夠從現(xiàn)有獲取的靜態(tài)圖像中生成視頻,還能擴(kuò)展現(xiàn)有視頻或填充缺失的畫面幀。

發(fā)展至今,視頻模型已經(jīng)呈現(xiàn)出復(fù)合的趨勢,模型走向融合的同時,技術(shù)也在走向復(fù)合。

把之前沉淀的技術(shù)積累運用到視覺模型上,也成為了OpenAI的優(yōu)勢。在Sora文生視頻的訓(xùn)練過程中,OpenAI就引入了 DALL-E3和GPT的語言理解能力。據(jù)OpenAI表示,DALL-E3、GPT基礎(chǔ)上進(jìn)行訓(xùn)練,能夠使Sora準(zhǔn)確地按照用戶提示生成高質(zhì)量的視頻。

一套組合拳下來,結(jié)果就是出現(xiàn)了模擬能力,也就構(gòu)成了“世界模擬器”的基礎(chǔ)。

“我們發(fā)現(xiàn),視頻模型在進(jìn)行大規(guī)模訓(xùn)練時,會表現(xiàn)出許多有趣的新興能力。這些能力使Sora能夠模擬物理世界中的人、動物和環(huán)境的某些方面。這些特性的出現(xiàn)并沒有對三維、物體等產(chǎn)生任何明確的歸納偏差——它們純粹是規(guī)?,F(xiàn)象”,OpenAI表示道。

“模擬”之所以能夠如此炸裂,根本的原因在于,用大模型創(chuàng)造出不存在的事物人們已經(jīng)習(xí)以為常,但是能夠準(zhǔn)確地理解物理世界運轉(zhuǎn)邏輯,例如力是如何相互作用的,摩擦是如何產(chǎn)生的,籃球是如何打出拋物線的等等,這些都是以前任何模型都無法完成的事情,也是Sora超越視頻生成層面的根本意義所在。

不過,從demo到實際成品,可能是驚喜也可能是驚嚇。Meta首席科學(xué)家楊立昆就直接對Sora提出了質(zhì)疑,他表示:“僅憑能夠根據(jù)提示生成逼真的視頻,并不能說明系統(tǒng)真正理解了物理世界。生成過程與基于世界模型的因果預(yù)測不同,生成式模型只需要從可能性空間中找到一個合理的樣本即可,而無需理解和模擬真實世界的因果關(guān)系?!?/p>

齊鏜泉也表示,雖然OpenAI驗證了基于世界模型的文生視頻大模型是可行的,但也存在物理交互的準(zhǔn)確性難點,盡管Sora能夠模擬一些基本的物理交互,但它在處理更復(fù)雜的物理現(xiàn)象時可能會遇到困難;長期依賴關(guān)系的處理存在挑戰(zhàn),即如何保持時間上的一致性和邏輯性;空間細(xì)節(jié)的精確性,處理空間細(xì)節(jié)方面如果不夠精確,可能影響到視頻內(nèi)容的準(zhǔn)確性和可信度。

二、顛覆視頻,但遠(yuǎn)不止視頻

Sora成為世界模擬器或許是很久以后的事情,但是就生成視頻而言,已經(jīng)對現(xiàn)在的世界產(chǎn)生了影響。

第一類就是解決之前技術(shù)上面無法突破的問題,推動一些行業(yè)邁向新的階段。

最典型的就是影視制作行業(yè),Sora這回最具革命性的能力就是最長生成視頻長度達(dá)到了1分鐘。作為參考,大熱門Pika所能生成的長度在3秒、Runway的Gen-2生成長度在18秒,這意味著有了Sora以后,AI視頻將能成為真正的生產(chǎn)力,實現(xiàn)降本增效。

陳坤告訴光錐智能,在Sora誕生前,其利用AI視頻工具制作科幻電影的成本已經(jīng)下降至了一半,Sora落地后,更加值得期待。

Sora發(fā)布后,令他印象最深刻的是一個海豚騎車的demo。在那個視頻中,上半身是海豚,下半身是人的兩條腿,腿上還穿了鞋子,在一種極具詭異性的畫風(fēng)中,海豚完成了作為人騎自行車的動作。

“這對我們來說簡直太神奇了!這個畫面創(chuàng)造出了一種又有想象空間,又符合物理定律的荒誕感,既是情理之中又出乎意料,這才是觀眾能發(fā)出驚嘆的影視作品”,陳坤道。

陳坤認(rèn)為Sora會像當(dāng)年的智能手機(jī)、抖音一樣,把所有內(nèi)容創(chuàng)作者門檻降低一大步,把內(nèi)容創(chuàng)作者呈數(shù)量級放大。

“未來內(nèi)容創(chuàng)作者可能都不需要拍攝,只需要說一段話或者一段詞,就能把腦子里面獨特的想法表達(dá)出來,且可以被更多人看到。屆時,我覺得還有可能會出現(xiàn)比抖音更大的新的平臺。再往前一步,或許是Sora能夠了解每個人潛意識的想法,自動去生成和創(chuàng)作內(nèi)容,根本不需要用戶去主動尋求表達(dá)”,陳坤表示道。

同樣的行業(yè)還有游戲,OpenAI 技術(shù)報告的結(jié)尾是一個《我的世界》的游戲視頻,旁邊寫著這樣一句話:“ Sora可以通過基本策略同時控制Minecraft中的玩家,同時高保真地呈現(xiàn)世界及其動態(tài)。只需在Sora的提示字幕中提及‘Minecraft’,就能零距離激發(fā)這些功能?!?/p>

AI游戲創(chuàng)業(yè)者陳希告訴我們,“任何游戲從業(yè)者看到這句話,都是一身冷汗!OpenAI 毫無保留地展露了它的野心”。陳希解讀分析認(rèn)為,短短的一句話傳達(dá)了兩件事情:Sora能控制游戲角色,同時能渲染游戲環(huán)境。“就如OpenAI 所說,Sora是一個模擬器,一個游戲引擎,一個想象力和現(xiàn)實世界的轉(zhuǎn)換接口。未來的游戲,只要言之所及,畫面就能被渲染出來。

Sora現(xiàn)在學(xué)會了構(gòu)建一分鐘的世界,還能生成穩(wěn)定的角色,再配合自家的GPT-5,一個純AI生成的、數(shù)千平方公里、活躍著各色生物的地圖,聽上去已經(jīng)不是異想天開。當(dāng)然,畫面是否能實時生成,是否支持多人聯(lián)機(jī),這些都是很現(xiàn)實的問題。但無論怎么說,新的游戲模式已經(jīng)呼之欲出,至少用Sora生成一個《完蛋我被美女包圍了》變得毫無問題了”,陳希道。

第二類是基于模擬世界的能力,在更多領(lǐng)域中創(chuàng)造出新的事物。

愛丁堡大學(xué)的博士生Yao Fu表示:“生成式模型學(xué)習(xí)生成數(shù)據(jù)的算法,而不是記住數(shù)據(jù)本身。就像語言模型編碼生成語言的算法(在你的大腦中)一樣,視頻模型編碼生成視頻流的物理引擎。語言模型可以視為近似人腦,而視頻模型近似物理世界?!?/strong>

學(xué)會了物理世界中的普遍規(guī)律,讓具身智能也更加接近人的智能。

例如在機(jī)器人領(lǐng)域,以前的傳導(dǎo)流程為,先給到機(jī)器人大腦一個握手的指令,再傳遞到手這個部位,但是由于機(jī)器人無法真正理解“握手”的含義,所以只能把指令轉(zhuǎn)化為“手的直徑縮小為多少厘米”。若世界模擬器成為現(xiàn)實后,機(jī)器人就可以直接跳過指令轉(zhuǎn)化的過程,一步到位理解人的指令需求。

跨維智能創(chuàng)始人、華南理工大學(xué)教授賈奎向光錐智能表示,顯式的物理模擬將來就有可能應(yīng)用到機(jī)器人領(lǐng)域,“Sora的物理模擬是隱式的,它展示出了只有其內(nèi)部對物理世界理解和模擬才能生成出來的效果,要對機(jī)器人直接有用,我覺得還是顯式的才行。”

“Sora能力還是通過海量視頻數(shù)據(jù),還有recaptioning技術(shù),實現(xiàn)出來的,甚至也沒有 3D 顯式建模,更不用說物理模擬了。雖然其生成出來的效果,已經(jīng)達(dá)到/接近了通過物理模擬實現(xiàn)的效果。但物理引擎能做的事情不僅僅是生成視頻,還有很多訓(xùn)練機(jī)器人必須有的其他要素”,賈奎表示道。

雖然Sora還有許多局限性,但在虛擬和現(xiàn)實世界之間已經(jīng)建立了一個鏈接,這讓無論是頭號玩家式的虛擬世界,還是機(jī)器人更像人類,都充滿了更大的可能性。

作者:郝 鑫;編輯:王一粟、劉雨琦

來源公眾號:光錐智能(ID:guangzhui-tech),前沿科技,數(shù)智經(jīng)濟(jì)。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @光錐智能 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!