終局之戰!OpenAI Sora大佬專訪:AI視頻模型仍處在GPT-1時代

0 評論 468 瀏覽 3 收藏 14 分鐘

Sora一出,誰與爭鋒!近日,Sora團隊的三位負責人Aditya Ramesh、Tim Brooks和Bill Peebles接受了采訪,解讀了Sora在模擬現實、預測結果和豐富人類體驗等方面帶來的變革。

對于視頻生成領域,大家一致的看法就是:Sora一出,誰與爭鋒!

然而,身處于風口浪尖的Sora團隊成員怎么看?

近日,Sora的三位領導者,Aditya 、Tim和Bill接受了專訪。

結果就是——相當穩健!

看過整個采訪視頻你會發現,除了年輕有為,整個團隊的思考和規劃都非常穩。

穩到實際上沒有什么規劃。

穩到就像是知道自己穩贏,或者并不在乎能不能贏,只管踏踏實實改進模型。

也許是OpenAI的企業文化?諸位隨意碰瓷,如果有人在排行榜上超過了我,我就會拉個分支出來,release一版重歸王座。

ps:對這三位大佬以及團隊其他成員還不太了解的觀眾老爺們,可以參見這一期。

對于整個采訪視頻,小編幫大家總結成四點:

模擬現實通往AGI:

AGI是充滿希望的未來,但有了Sora,這一切就不會止步于想象。

Sora通過在神經網絡中模擬復雜環境,彌合了當前AI能力與高級通用智能(AGI)之間的差距。

隨著Sora的發展,它將能夠全面理解我們的三維世界,實現向更復雜人工智能系統的飛躍。

豐富人類體驗:

Sora成為了創造力的媒介,用戶利用它來創作新穎的藝術和敘事。

同時,Sora的探索增強了傳統形式的內容創作,為故事的講述和經驗的分享提供一個新的維度。

未來,從娛樂到教育的各個領域,提供的內容將更具沉浸感和互動性。

技術基礎、質量成本和受眾:

三位大佬還現場講述了Sora的技術基礎,包括數字建模、物理引擎和視頻生成等方面。

另外在實際部署和優化方面,需要考慮可訪問性和可負擔性,確保Sora的能力能夠覆蓋廣泛的受眾,同時又不影響質量和效益。

價值觀:

安全問題是旅途中永遠不可忽視的。

特別是關于錯誤信息和濫用AI生成內容的問題,需要技術的努力,也需要相關的準則和法規。

三人表示:不急,我們的Sora正在接受藝術家和倫理學家的反饋,確保對齊社會價值觀和安全標準。

一、模擬一切,直到AGI

團隊相信,Sora真的處于通往AGI的關鍵路徑上。

比如我們可以重溫一下Sora曾帶給我們的驚艷場景:

冬日,東京,人群。人們交談、牽手,有人在附近的攤位賣東西。

這個場景有如此多的復雜性,很好地說明了如何在神經網絡的權重范圍內,模擬極其復雜的環境和世界,并預測未來的行為。

為了生成真正逼真的視頻,模型必須學習人們如何工作、如何與他人互動,如何思考。

——不僅僅是人,還有動物,以及任何你想建模的物體。

而隨著Sora的規模不斷擴大,她將有可能變成另一個概念股——世界模型。

任何人都可以和這個「世界模擬器」互動,每個人都可以擁有自己的模擬器,在任何時候去體驗模擬事件、模擬人生(或者模擬愛情?)

通過這種方式,人類將幫助模型一步步走向那個華麗的終點。

「這將會發生」。

二、Sora 如何影響世界

1. 探索創造潛力,豐富人類體驗

世界模型在不遠的未來,而另一些體驗就在此刻,發生在我們身邊。

當Sora推出時,很多人會被美麗的畫面所吸引,被水中小熊貓的倒影所震驚。

但是現在,越來越多的人開始使用它,職業創作者可以盡情發揮自己的創造力,普通人也可以展示自己的想法。

Sora團隊舉了兩個例子,首先是一個短篇故事airhead:

區別于傳統形式的內容創作(特效、剪輯等),Sora幫助創作者解鎖了一種很酷的方式,為故事的講述和經驗的分享提供一個新的維度。

另一個例子是Bill本人使用Sora制作的,紐約動物園的多鏡頭場景:

作為一個喜歡生成創意內容,但沒有足夠技能去實現的人,使用Sora這樣的模型可以很容易做出引人注目的作品。

Bill通過提示和迭代得到了自己喜歡的東西,整個過程只花了不到一個小時。

「我玩得很開心」。

2. 從短片到世界模型

技術積累、由短變長,是電影工業的歷程,也是Sora的未來。

看看皮克斯30年來的演變,以后也會有越來越多的人,使用視頻生成模型,制作越來越多的電影。

同時Tim認為,人們會找到全新的方式來使用模型,這將與我們習慣的當前媒體完全不同。

比如上面談到的世界模型,創作者以一個非常不同的范式,模擬想讓用戶看到的東西,人們能夠與內容互動,帶來意想不到的結果。

另外一個急需世界模型的領域,就是機器人。

Bill表示,機器人可以從模型構建的虛擬世界中學到很多東西,這是其他形式所無法比擬的。

再一次回到東京那個場景,腿是如何運動的,以及如何以物理上精確的方式與地面接觸。

——模型從原始視頻的訓練中學到的關于物理世界的知識,將能夠低成本傳遞給機器人,或者其他領域。

三、時空補丁和新架構

1. 更多算力,更強性能

Sora在OpenAI的DALL·E模型(Diffusion model)和GPT模型(Transformer)的研究基礎上進行構建,

擴散模型(Diffusion model)是一個創建數據的過程,從噪聲文件開始,反復刪除噪聲,形成最終結果。

而Transformer則提供了強大的學習能力和可擴展性,在更多計算和更多訓練數據的加持下,Sora的能力將會越來越強。

團隊的實驗結果證明了模型表現和算力的這種正相關,他們也堅信這種趨勢將會持續下去。

使用Transformer的好處之一是可以繼承領域中的所有偉大屬性,比如語言。

類比到視頻數據,也要構建相應的損失函數,還要想辦法在不增加所需計算量的情況下,獲得更好的損失?!@也是團隊正在努力的方向。

2. 長視頻生成的秘密

大語言模型范式能夠成功的關鍵因素之一,就是token的概念。

互聯網上充斥著各種各樣的文本數據,有書籍,有代碼,有數學。而LLM將他們統一轉化為token,于是能夠在如此廣泛多樣的數據上進行訓練。

而以前的視覺生成模型沒有搞明白這件事情。

在Sora之前,大家一般使用256 × 256分辨率的圖像或256 × 256的視頻進行訓練,這限制了視頻生成的長度,更限制了模型能夠獲取的信息。

在Sora中,團隊引入了時空塊的概念,無論是圖像還是視頻,也無論是什么尺寸,只需要把它們看成是一個個的小塊。

——這就是相對于視覺模型的token。

這樣做的結果是,Sora擁有了通用的能力,不僅僅是生成固定時間的720p視頻,你可以生成垂直視頻,寬屏視頻,還可以生成圖像。

從零開始:

在Sora之前,許多人一直在做的是對圖像生成模型進行擴展,最終可以生成幾秒鐘的視頻。

而我們得先定一個小目標:如果需要制作一分鐘的高清視頻應該怎么辦?

以這個目標為導向,就需要拋棄傳統的方法,從零開始,數據需要分解成非常簡單的方式,模型需要可擴展,——于是Sora架構誕生了。

「這是第一個視覺內容生成模型,同時具有語言模型的廣度」。

四、創造人人都能用的Sora

1. 價值觀

安全絕對是一個相當復雜的話題。

比如模型處理有害內容圖像的方式,比如虛假信息,是否應該允許用戶生成帶有攻擊性詞語的圖像?

部署這項技術的公司應該承擔多少責任?社交媒體公司應該花多大力氣來向用戶表明內容的可信度?用戶對于自己創作的東西應該怎樣負責?

我們需要認真思考這些問題,在保證對齊人類價值觀的基礎上,不扼殺未來的創造力。

2. 民主化

目前,生成視頻是非常消耗資源的,而且用戶可能需要等待幾分鐘才能拿到自己的結果。

未來,這項技術應該惠及所有人,團隊正在朝這個方向努力。

當然,在民主化的過程中,我們也要非常小心錯誤信息和任何周圍風險。

3. 從近似世界模型到高保真預測

Sora沒有進行過3D信息的訓練,卻從海量視頻中學會了空間關系。

Sora正在學習我們人類的世界,卻有可能比我們更接近真實。

人類思考事物的方式是有缺陷的,實際上我們無法做出非常準確的長期預測。

而作為世界模型,Sora將提供這種能力,有朝一日會比人類更聰明。

喂給它給多的算力和數據,它就能變得更好。

而隨著規模的增加,學習可擴展智能的最佳方法就是預測數據,——就像LLM所做的那樣。

Sora的scaling law還遠遠沒有走完,或者說才剛剛開始。

「這是令人興奮的時刻,我們期待未來模型的能力」。

參考資料:

https://twitter.com/saranormous/status/1783505771097112703

編輯:alan

來源公眾號:新智元(ID:AI_era),“智能+”中國主平臺,致力于推動中國從“互聯網+”邁向“智能+”。

本文由人人都是產品經理合作媒體 @新智元 授權發布,未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!