Sora三巨頭首次解密幕后信息,CTO:最快年內開放

0 評論 1271 瀏覽 0 收藏 11 分鐘

在一場訪談中,OpenAI CTO透露今年Sora或許就將放開公測,關于Sora背后的更多秘密,也在最近的幾場對話中有所展現。不妨來看看本文的梳理。

“Sora最快今年內開放公測?!?/p>

在一場訪談中,OpenAI CTO Mira Murati親自透露了這一消息。

短短10分鐘里,Sora技術細節、進展、規劃等當下最熱議的問題,都有了更進一步解答:

  • 生成20秒的720P視頻只需幾分鐘
  • 計算資源遠超ChatGPT和DALL·E
  • 目前正在進行正在進行紅隊測試
  • 未來版本有望支持視頻聲效

而且還向外界傳遞了一層重要信息:

OpenAI在考慮發布這項技術時,抱有非常謹慎的態度。

“我們希望電影界人士和世界各地的創作者都能參與進來,與我們共同探索如何進一步推動這些行業發展?!?/p>

加上前幾天,Sora的三名研發主管——Tim Brooks、William Peebles和Aditya Ramesh,也參與了一場16分鐘的播客訪談。

綜合兩場對話,關于Sora背后的秘密,也有了更多蛛絲馬跡可以探尋。

一、Sora背后還有多少秘密?

關于Sora,人們最關心也最期待的,可能就是什么時候才能上手體驗了。

對此,Mira表示Sora正在進行紅隊測試,以確保工具的安全性,并且不會產生偏見或其他有害問題。

對于具體的時間,Mira也立下了flag——今年年內讓Sora與廣大用戶正式見面。

此外,兩場對話中談到的其他話題,可以分為技術細節、項目規劃和未來展望三個部分。

1. 揭開更多技術細節

技術方面,三人團隊表示,Sora更像是介于Dall·E這類擴散模型和GPT之間。

訓練方式類似于Dall·E,但架構上更像GPT系列。

訓練數據是不方便說滴(doge),大致就是公開數據和OpenAI已獲授權的數據。

不過他們專門cue了一個點:通常圖像、視頻模型都是在一個固定尺寸上進行訓練,而Sora使用了不同時長、比例和清晰度的視頻。

具體方法之前的技術報告已經有了說明,就是用“Patches”來統一不同的視覺數據表現形式。

然后可以根據輸入視頻的大小,訓練模型認識不同數量的小塊。通過這種方式,模型能夠更加靈活學習各種數據,同時也能生成不同分辨率和尺寸的內容。

性能方面,Mira和三人組的說法則略有不同:

三人組透露,有一次給Sora布置好任務后,出去買了杯咖啡,結果回來之后視頻還沒做好。

而Mira這邊的回答則是,Sora生成720P分辨率、長達20秒的視頻內容,只需要幾分鐘就能完成。

當然,具體消耗的時間,還要取決于任務復雜程度等多種因素,不能簡單一概而論。

不過Mira這邊表示,在正式發布之前將繼續努力優化算法,以降低所需的算力。

2. 這些問題還需解決

而針對Sora存在的不足,他們的回答也很坦誠,表示其還存在無法完美處理手部的生成,渲染復雜的物理過程也存在一定難度等一系列問題。

除了這些bug型的缺陷之外,Sora不能給視頻添加聲音也算一個美中不足之處,對此三人組給出了這樣的回應:

很難確定什么時候能有這樣的功能,但這并非一個技術問題,而是目前有優先級更高的問題需要解決。目前,Sora還是更關注視頻本身的生成,研究重點是提高視頻的畫質和幀率。所以,能夠加入聲音當然是更好的,但現在的當務之急,還是要把視頻能力先搞上來。

而Mira對此的回答則更像是給人們吃了一顆定心丸——未來版本有望支持視頻聲效,增強用戶體驗。

而除了這些產品本身的問題之外,為Sora生成的視頻加入溯源信息,以防出現造假,也是OpenAI當下的一項重要任務。

同時,負責人和Mira都表示,團隊始終在收集來自各界的用戶反饋,三人組還舉例說有用戶希望能加入提示詞以外,更精細、直接的控制方式,團隊將此作為了重點考慮的一個方向。

3. Sora,未來可期

最后,針對Sora的未來,負責人給出了很高的預期,并表示其將不僅僅在視頻創作方面發揮作用。

我們的世界充滿了視覺信息,其中有很多無法僅通過文本來傳達。所以,雖然像GPT這樣的語言模型已經對世界有了深刻的理解,但如果它們無法像人類一樣“看”到視覺的世界,對世界的認識就會有所缺失。

因此,負責人對Sora及未來可能在其基礎上開發的其他AI模型充滿了期待——通過學習視覺信息的方式理解這個世界,在未來能夠更好地幫助人類。

對此有網友表示,這的確是個好消息,Sora的意義不僅在于其本身,而且還會對其他AI產生影響。

另一邊,已經有人在期待Runway等前任王者對此的反應了。

不過,雖然團隊自己說Sora在未來能夠理解人類世界,但它到底能不能真的算世界模型,還存在不小的爭議。

二、Sora是世界模型嗎?

針對這個問題,正反雙方各執一詞,支持者的主要理由,是認為從Sora生成的視頻中能看出其對物理世界的理解。

而反方則不認同Sora是世界模型,代表人物是圖靈獎得主、Meta首席AI科學家LeCun。

近期,LeCun點贊了一篇澳大利亞學者的萬字長文,文章的核心觀點就是認為Sora不是世界模型。

其中最核心的原因,是Sora并沒有物理引擎來運行前向時間模擬,而且訓練過程是端到端完成的,數據中并沒有物理規律信息。

即便是拋開訓練和生成過程,單從表現上看,Sora的輸出也出現了違反重力、碰撞動力學等物理規律的情況。

Sora生成的“反重力玻璃杯”

所以,作者認為,將Sora稱為世界模型是缺少充分依據的。

而人們比較關心的另一個問題,是Sora的訓練過程,是否使用了虛幻引擎(Unreal Engine)5。

不過作者也沒有給出確切結論,只表示這只是猜測,目前并沒有確切的證據表明Sora確實使用了UE5進行訓練。

而要想進一步揭開這些問題,或許要OpenAI再次自己出來公布,或者直接開源了。

三、One More Thing

雖然兩場訪談的確透露出了不少干貨,但針對人們同樣廣為關心的訓練數據來源問題,無論是三人團隊還是Mira,說法都十分模糊——

Sora的訓練過程中使用的是公開可用和已獲得授權的數據源。

但對于YouTube、Instagram和Facebook上的視頻是否被用作訓練數據,Mira則是顧左右而言他:

我不知道,但如果這些數據是公開可用的,他們也許是(訓練)數據(的一部分)……我不確定

不過,這個說法的可信度先放下不談,即便真的如Mira所說,也有網友并不認賬:

OpenAI好像覺得,只要是公開的數據就可以隨便用,呵呵

參考鏈接:

[1]https://www.youtube.com/watch?v=Srh1lut4Q2A(第53分鐘開始)

[2]https://www.youtube.com/watch?v=mAUpxN-EIgU

[3]https://artificialcognition.net/posts/video-generation-world-simulators/

作者:明敏 克雷西;發自 凹非寺

來源公眾號:量子位(ID:QbitAI),追蹤人工智能新趨勢,關注科技行業新突破

本文由人人都是產品經理合作媒體 @量子位 授權發布,未經許可,禁止轉載。

題圖來自 Sora 官網演示視頻截圖

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!