99热这里只有精品最新地址获取 ,国产午夜片无码区在线播放,欧美专区另类专区在线视频

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

終局之戰！OpenAI Sora大佬專訪：AI視頻模型仍處在GPT-1時代

新智元

2024-04-28

0 評論 468 瀏覽 3 收藏

14 分鐘

Sora一出，誰與爭鋒！近日，Sora團隊的三位負責人Aditya Ramesh、Tim Brooks和Bill Peebles接受了采訪，解讀了Sora在模擬現實、預測結果和豐富人類體驗等方面帶來的變革。

對于視頻生成領域，大家一致的看法就是：Sora一出，誰與爭鋒！

然而，身處于風口浪尖的Sora團隊成員怎么看？

近日，Sora的三位領導者，Aditya 、Tim和Bill接受了專訪。

結果就是——相當穩健！

看過整個采訪視頻你會發現，除了年輕有為，整個團隊的思考和規劃都非常穩。

穩到實際上沒有什么規劃。

穩到就像是知道自己穩贏，或者并不在乎能不能贏，只管踏踏實實改進模型。

也許是OpenAI的企業文化？諸位隨意碰瓷，如果有人在排行榜上超過了我，我就會拉個分支出來，release一版重歸王座。

ps：對這三位大佬以及團隊其他成員還不太了解的觀眾老爺們，可以參見這一期。

對于整個采訪視頻，小編幫大家總結成四點：

模擬現實通往AGI：

AGI是充滿希望的未來，但有了Sora，這一切就不會止步于想象。

Sora通過在神經網絡中模擬復雜環境，彌合了當前AI能力與高級通用智能（AGI）之間的差距。

隨著Sora的發展，它將能夠全面理解我們的三維世界，實現向更復雜人工智能系統的飛躍。

豐富人類體驗：

Sora成為了創造力的媒介，用戶利用它來創作新穎的藝術和敘事。

同時，Sora的探索增強了傳統形式的內容創作，為故事的講述和經驗的分享提供一個新的維度。

未來，從娛樂到教育的各個領域，提供的內容將更具沉浸感和互動性。

技術基礎、質量成本和受眾：

三位大佬還現場講述了Sora的技術基礎，包括數字建模、物理引擎和視頻生成等方面。

另外在實際部署和優化方面，需要考慮可訪問性和可負擔性，確保Sora的能力能夠覆蓋廣泛的受眾，同時又不影響質量和效益。

價值觀：

安全問題是旅途中永遠不可忽視的。

特別是關于錯誤信息和濫用AI生成內容的問題，需要技術的努力，也需要相關的準則和法規。

三人表示：不急，我們的Sora正在接受藝術家和倫理學家的反饋，確保對齊社會價值觀和安全標準。

一、模擬一切，直到AGI

團隊相信，Sora真的處于通往AGI的關鍵路徑上。

比如我們可以重溫一下Sora曾帶給我們的驚艷場景：

冬日，東京，人群。人們交談、牽手，有人在附近的攤位賣東西。

這個場景有如此多的復雜性，很好地說明了如何在神經網絡的權重范圍內，模擬極其復雜的環境和世界，并預測未來的行為。

為了生成真正逼真的視頻，模型必須學習人們如何工作、如何與他人互動，如何思考。

——不僅僅是人，還有動物，以及任何你想建模的物體。

而隨著Sora的規模不斷擴大，她將有可能變成另一個概念股——世界模型。

任何人都可以和這個「世界模擬器」互動，每個人都可以擁有自己的模擬器，在任何時候去體驗模擬事件、模擬人生（或者模擬愛情？）

通過這種方式，人類將幫助模型一步步走向那個華麗的終點。

「這將會發生」。

二、Sora 如何影響世界

1. 探索創造潛力，豐富人類體驗

世界模型在不遠的未來，而另一些體驗就在此刻，發生在我們身邊。

當Sora推出時，很多人會被美麗的畫面所吸引，被水中小熊貓的倒影所震驚。

但是現在，越來越多的人開始使用它，職業創作者可以盡情發揮自己的創造力，普通人也可以展示自己的想法。

Sora團隊舉了兩個例子，首先是一個短篇故事airhead：

區別于傳統形式的內容創作（特效、剪輯等），Sora幫助創作者解鎖了一種很酷的方式，為故事的講述和經驗的分享提供一個新的維度。

另一個例子是Bill本人使用Sora制作的，紐約動物園的多鏡頭場景：

作為一個喜歡生成創意內容，但沒有足夠技能去實現的人，使用Sora這樣的模型可以很容易做出引人注目的作品。

Bill通過提示和迭代得到了自己喜歡的東西，整個過程只花了不到一個小時。

「我玩得很開心」。

2. 從短片到世界模型

技術積累、由短變長，是電影工業的歷程，也是Sora的未來。

看看皮克斯30年來的演變，以后也會有越來越多的人，使用視頻生成模型，制作越來越多的電影。

同時Tim認為，人們會找到全新的方式來使用模型，這將與我們習慣的當前媒體完全不同。

比如上面談到的世界模型，創作者以一個非常不同的范式，模擬想讓用戶看到的東西，人們能夠與內容互動，帶來意想不到的結果。

另外一個急需世界模型的領域，就是機器人。

Bill表示，機器人可以從模型構建的虛擬世界中學到很多東西，這是其他形式所無法比擬的。

再一次回到東京那個場景，腿是如何運動的，以及如何以物理上精確的方式與地面接觸。

——模型從原始視頻的訓練中學到的關于物理世界的知識，將能夠低成本傳遞給機器人，或者其他領域。

三、時空補丁和新架構

1. 更多算力，更強性能

Sora在OpenAI的DALL·E模型（Diffusion model）和GPT模型（Transformer）的研究基礎上進行構建，

擴散模型（Diffusion model）是一個創建數據的過程，從噪聲文件開始，反復刪除噪聲，形成最終結果。

而Transformer則提供了強大的學習能力和可擴展性，在更多計算和更多訓練數據的加持下，Sora的能力將會越來越強。

團隊的實驗結果證明了模型表現和算力的這種正相關，他們也堅信這種趨勢將會持續下去。

使用Transformer的好處之一是可以繼承領域中的所有偉大屬性，比如語言。

類比到視頻數據，也要構建相應的損失函數，還要想辦法在不增加所需計算量的情況下，獲得更好的損失?！@也是團隊正在努力的方向。

2. 長視頻生成的秘密

大語言模型范式能夠成功的關鍵因素之一，就是token的概念。

互聯網上充斥著各種各樣的文本數據，有書籍，有代碼，有數學。而LLM將他們統一轉化為token，于是能夠在如此廣泛多樣的數據上進行訓練。

而以前的視覺生成模型沒有搞明白這件事情。

在Sora之前，大家一般使用256 × 256分辨率的圖像或256 × 256的視頻進行訓練，這限制了視頻生成的長度，更限制了模型能夠獲取的信息。

在Sora中，團隊引入了時空塊的概念，無論是圖像還是視頻，也無論是什么尺寸，只需要把它們看成是一個個的小塊。

——這就是相對于視覺模型的token。

這樣做的結果是，Sora擁有了通用的能力，不僅僅是生成固定時間的720p視頻，你可以生成垂直視頻，寬屏視頻，還可以生成圖像。

從零開始：

在Sora之前，許多人一直在做的是對圖像生成模型進行擴展，最終可以生成幾秒鐘的視頻。

而我們得先定一個小目標：如果需要制作一分鐘的高清視頻應該怎么辦？

以這個目標為導向，就需要拋棄傳統的方法，從零開始，數據需要分解成非常簡單的方式，模型需要可擴展，——于是Sora架構誕生了。

「這是第一個視覺內容生成模型，同時具有語言模型的廣度」。

四、創造人人都能用的Sora

1. 價值觀

安全絕對是一個相當復雜的話題。

比如模型處理有害內容圖像的方式，比如虛假信息，是否應該允許用戶生成帶有攻擊性詞語的圖像？

部署這項技術的公司應該承擔多少責任？社交媒體公司應該花多大力氣來向用戶表明內容的可信度？用戶對于自己創作的東西應該怎樣負責？

我們需要認真思考這些問題，在保證對齊人類價值觀的基礎上，不扼殺未來的創造力。

2. 民主化

目前，生成視頻是非常消耗資源的，而且用戶可能需要等待幾分鐘才能拿到自己的結果。

未來，這項技術應該惠及所有人，團隊正在朝這個方向努力。

當然，在民主化的過程中，我們也要非常小心錯誤信息和任何周圍風險。

3. 從近似世界模型到高保真預測

Sora沒有進行過3D信息的訓練，卻從海量視頻中學會了空間關系。

Sora正在學習我們人類的世界，卻有可能比我們更接近真實。

人類思考事物的方式是有缺陷的，實際上我們無法做出非常準確的長期預測。

而作為世界模型，Sora將提供這種能力，有朝一日會比人類更聰明。

喂給它給多的算力和數據，它就能變得更好。

而隨著規模的增加，學習可擴展智能的最佳方法就是預測數據，——就像LLM所做的那樣。

Sora的scaling law還遠遠沒有走完，或者說才剛剛開始。

「這是令人興奮的時刻，我們期待未來模型的能力」。

參考資料：

https://twitter.com/saranormous/status/1783505771097112703

編輯：alan

來源公眾號：新智元（ID：AI_era），“智能+”中國主平臺，致力于推動中國從“互聯網+”邁向“智能+”。

本文由人人都是產品經理合作媒體 @新智元授權發布，未經許可，禁止轉載。

題圖來自 Unsplash，基于 CC0 協議

該文觀點僅代表作者本人，人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

新智元

"智能+"中國主平臺，致力于推動中國從"互聯網+"邁向"智能+"

102篇作品 252739總閱讀量

領英中國，痛失“靈魂”

05-103527 瀏覽

美團從交易攻入直播

05-182365 瀏覽

“好端端的豬”一周漲粉100w，23歲養豬女孩憑什么掌握了出圈密碼？

05-195995 瀏覽

淘寶“拼多多化”更進一步：支持“僅退款”，但根本要解決“不可能三角”

12-273563 瀏覽

媒介創新的5種玩法

10-161499 瀏覽

評論

目前還沒評論，等你發揮！

從數據分析角度，看近五年全球健康管理APP的發展趨勢

10-204806 瀏覽
產品筆記：你真的會做競品分析嗎？一文搞懂

12-2122832 瀏覽
設計就是在追求熵減

05-243006 瀏覽