終局之戰!OpenAI Sora大佬專訪:AI視頻模型仍處在GPT-1時代
Sora一出,誰與爭鋒!近日,Sora團隊的三位負責人Aditya Ramesh、Tim Brooks和Bill Peebles接受了采訪,解讀了Sora在模擬現實、預測結果和豐富人類體驗等方面帶來的變革。
對于視頻生成領域,大家一致的看法就是:Sora一出,誰與爭鋒!
然而,身處于風口浪尖的Sora團隊成員怎么看?
近日,Sora的三位領導者,Aditya 、Tim和Bill接受了專訪。
結果就是——相當穩健!
看過整個采訪視頻你會發現,除了年輕有為,整個團隊的思考和規劃都非常穩。
穩到實際上沒有什么規劃。
穩到就像是知道自己穩贏,或者并不在乎能不能贏,只管踏踏實實改進模型。
也許是OpenAI的企業文化?諸位隨意碰瓷,如果有人在排行榜上超過了我,我就會拉個分支出來,release一版重歸王座。
ps:對這三位大佬以及團隊其他成員還不太了解的觀眾老爺們,可以參見這一期。
對于整個采訪視頻,小編幫大家總結成四點:
模擬現實通往AGI:
AGI是充滿希望的未來,但有了Sora,這一切就不會止步于想象。
Sora通過在神經網絡中模擬復雜環境,彌合了當前AI能力與高級通用智能(AGI)之間的差距。
隨著Sora的發展,它將能夠全面理解我們的三維世界,實現向更復雜人工智能系統的飛躍。
豐富人類體驗:
Sora成為了創造力的媒介,用戶利用它來創作新穎的藝術和敘事。
同時,Sora的探索增強了傳統形式的內容創作,為故事的講述和經驗的分享提供一個新的維度。
未來,從娛樂到教育的各個領域,提供的內容將更具沉浸感和互動性。
技術基礎、質量成本和受眾:
三位大佬還現場講述了Sora的技術基礎,包括數字建模、物理引擎和視頻生成等方面。
另外在實際部署和優化方面,需要考慮可訪問性和可負擔性,確保Sora的能力能夠覆蓋廣泛的受眾,同時又不影響質量和效益。
價值觀:
安全問題是旅途中永遠不可忽視的。
特別是關于錯誤信息和濫用AI生成內容的問題,需要技術的努力,也需要相關的準則和法規。
三人表示:不急,我們的Sora正在接受藝術家和倫理學家的反饋,確保對齊社會價值觀和安全標準。
一、模擬一切,直到AGI
團隊相信,Sora真的處于通往AGI的關鍵路徑上。
比如我們可以重溫一下Sora曾帶給我們的驚艷場景:
冬日,東京,人群。人們交談、牽手,有人在附近的攤位賣東西。
這個場景有如此多的復雜性,很好地說明了如何在神經網絡的權重范圍內,模擬極其復雜的環境和世界,并預測未來的行為。
為了生成真正逼真的視頻,模型必須學習人們如何工作、如何與他人互動,如何思考。
——不僅僅是人,還有動物,以及任何你想建模的物體。
而隨著Sora的規模不斷擴大,她將有可能變成另一個概念股——世界模型。
任何人都可以和這個「世界模擬器」互動,每個人都可以擁有自己的模擬器,在任何時候去體驗模擬事件、模擬人生(或者模擬愛情?)
通過這種方式,人類將幫助模型一步步走向那個華麗的終點。
「這將會發生」。
二、Sora 如何影響世界
1. 探索創造潛力,豐富人類體驗
世界模型在不遠的未來,而另一些體驗就在此刻,發生在我們身邊。
當Sora推出時,很多人會被美麗的畫面所吸引,被水中小熊貓的倒影所震驚。
但是現在,越來越多的人開始使用它,職業創作者可以盡情發揮自己的創造力,普通人也可以展示自己的想法。
Sora團隊舉了兩個例子,首先是一個短篇故事airhead:
區別于傳統形式的內容創作(特效、剪輯等),Sora幫助創作者解鎖了一種很酷的方式,為故事的講述和經驗的分享提供一個新的維度。
另一個例子是Bill本人使用Sora制作的,紐約動物園的多鏡頭場景:
作為一個喜歡生成創意內容,但沒有足夠技能去實現的人,使用Sora這樣的模型可以很容易做出引人注目的作品。
Bill通過提示和迭代得到了自己喜歡的東西,整個過程只花了不到一個小時。
「我玩得很開心」。
2. 從短片到世界模型
技術積累、由短變長,是電影工業的歷程,也是Sora的未來。
看看皮克斯30年來的演變,以后也會有越來越多的人,使用視頻生成模型,制作越來越多的電影。
同時Tim認為,人們會找到全新的方式來使用模型,這將與我們習慣的當前媒體完全不同。
比如上面談到的世界模型,創作者以一個非常不同的范式,模擬想讓用戶看到的東西,人們能夠與內容互動,帶來意想不到的結果。
另外一個急需世界模型的領域,就是機器人。
Bill表示,機器人可以從模型構建的虛擬世界中學到很多東西,這是其他形式所無法比擬的。
再一次回到東京那個場景,腿是如何運動的,以及如何以物理上精確的方式與地面接觸。
——模型從原始視頻的訓練中學到的關于物理世界的知識,將能夠低成本傳遞給機器人,或者其他領域。
三、時空補丁和新架構
1. 更多算力,更強性能
Sora在OpenAI的DALL·E模型(Diffusion model)和GPT模型(Transformer)的研究基礎上進行構建,
擴散模型(Diffusion model)是一個創建數據的過程,從噪聲文件開始,反復刪除噪聲,形成最終結果。
而Transformer則提供了強大的學習能力和可擴展性,在更多計算和更多訓練數據的加持下,Sora的能力將會越來越強。
團隊的實驗結果證明了模型表現和算力的這種正相關,他們也堅信這種趨勢將會持續下去。
使用Transformer的好處之一是可以繼承領域中的所有偉大屬性,比如語言。
類比到視頻數據,也要構建相應的損失函數,還要想辦法在不增加所需計算量的情況下,獲得更好的損失?!@也是團隊正在努力的方向。
2. 長視頻生成的秘密
大語言模型范式能夠成功的關鍵因素之一,就是token的概念。
互聯網上充斥著各種各樣的文本數據,有書籍,有代碼,有數學。而LLM將他們統一轉化為token,于是能夠在如此廣泛多樣的數據上進行訓練。
而以前的視覺生成模型沒有搞明白這件事情。
在Sora之前,大家一般使用256 × 256分辨率的圖像或256 × 256的視頻進行訓練,這限制了視頻生成的長度,更限制了模型能夠獲取的信息。
在Sora中,團隊引入了時空塊的概念,無論是圖像還是視頻,也無論是什么尺寸,只需要把它們看成是一個個的小塊。
——這就是相對于視覺模型的token。
這樣做的結果是,Sora擁有了通用的能力,不僅僅是生成固定時間的720p視頻,你可以生成垂直視頻,寬屏視頻,還可以生成圖像。
從零開始:
在Sora之前,許多人一直在做的是對圖像生成模型進行擴展,最終可以生成幾秒鐘的視頻。
而我們得先定一個小目標:如果需要制作一分鐘的高清視頻應該怎么辦?
以這個目標為導向,就需要拋棄傳統的方法,從零開始,數據需要分解成非常簡單的方式,模型需要可擴展,——于是Sora架構誕生了。
「這是第一個視覺內容生成模型,同時具有語言模型的廣度」。
四、創造人人都能用的Sora
1. 價值觀
安全絕對是一個相當復雜的話題。
比如模型處理有害內容圖像的方式,比如虛假信息,是否應該允許用戶生成帶有攻擊性詞語的圖像?
部署這項技術的公司應該承擔多少責任?社交媒體公司應該花多大力氣來向用戶表明內容的可信度?用戶對于自己創作的東西應該怎樣負責?
我們需要認真思考這些問題,在保證對齊人類價值觀的基礎上,不扼殺未來的創造力。
2. 民主化
目前,生成視頻是非常消耗資源的,而且用戶可能需要等待幾分鐘才能拿到自己的結果。
未來,這項技術應該惠及所有人,團隊正在朝這個方向努力。
當然,在民主化的過程中,我們也要非常小心錯誤信息和任何周圍風險。
3. 從近似世界模型到高保真預測
Sora沒有進行過3D信息的訓練,卻從海量視頻中學會了空間關系。
Sora正在學習我們人類的世界,卻有可能比我們更接近真實。
人類思考事物的方式是有缺陷的,實際上我們無法做出非常準確的長期預測。
而作為世界模型,Sora將提供這種能力,有朝一日會比人類更聰明。
喂給它給多的算力和數據,它就能變得更好。
而隨著規模的增加,學習可擴展智能的最佳方法就是預測數據,——就像LLM所做的那樣。
Sora的scaling law還遠遠沒有走完,或者說才剛剛開始。
「這是令人興奮的時刻,我們期待未來模型的能力」。
參考資料:
https://twitter.com/saranormous/status/1783505771097112703
編輯:alan
來源公眾號:新智元(ID:AI_era),“智能+”中國主平臺,致力于推動中國從“互聯網+”邁向“智能+”。
本文由人人都是產品經理合作媒體 @新智元 授權發布,未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!