99精品国产一区二区三区2021,久久福利网站

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

看了Sora，感覺短視頻要懸了！

北冥乘海生

2024-02-22

0 評論 4839 瀏覽 8 收藏

13 分鐘

Sora其實并不單是文生視頻，它其實是一個世界模型。在3D內容的生成成本被大模型拉下來以后，真正應該瑟瑟發抖的，正是現在如火如荼的短視頻世界。

Sora發布也不少天了，按說，作為一名二手科學家，咱也得蹭熱度聊聊?？墒强粗髀纷悦襟w花式的震驚、反思和賣課，我有點不知所措，這都是扯啥呢？

我對這些不感興趣，不過，那幾段demo視頻擼了一遍又一遍，再想起在MSRA做AI時的一些經歷，我有點醒攢兒了：您還真以為這東西是為了幫大家水視頻用的么？不是！照這個路數下去，以視頻為主的社交網絡媒介形式，可能要被連鍋端了！

這并非危言聳聽，咱們先從大家熱議的“世界模型”說起。

一、“世界模型”到底是啥

看了Sora，您有什么最深切的感受？我在擼了九九六十四遍以后，突然感到有點毛骨悚然：與Runway、Pika那些競品“帕金森”風格的視頻相比，這些視頻里的物理結構，也太TM穩定真實了！

您看看下面這段無人機穿越大斗獸場遺跡的視頻：所有的建筑物幾何結構，全程沒有扭曲、沒有變型、沒有坍塌。

再看看這段咖啡杯里的海盜船視頻，多么流暢自然的流體運動！一點兒也看不出跟我們熟悉的物理規律不符之處！做過計算機圖形學的都知道，水、霧、風這些非剛體的運動畫面模擬，那是多么困難的任務。

這說明了什么？Sora絕不是在二維框里做建模，把像素生成出來了事！它一定是通過大模型，對世界和物體的三維形態、運動規律有了統計意義上的理解，并且具備了不錯的泛化能力。然后，將它再投射回二維平面中，得到一段視頻的。這就是我理解的“世界模型”。當然，這里的投射，是通過大模型的推理，而非傳統的CG渲染。

也就是說，Sora腦子里的世界，是三維的、立體的、運動的。而平面的視頻框，其實限制了它的表達力！

不信，您看看下面這段demo，同一個場景，生成了五段多機位下的視頻，您說說Sora背后對世界的理解，能是一個框一個框分別往里填的么？

那位說了，你扯這些有卵用？我管Sora背后咋看世界的，反正最后不還是生成一段視頻么！這么想，格局真的小了！既然它腦子里的世界是立體的，那就存在對現有的短視頻形態降維打擊的可能！

二、Sora真正的顛覆意義

世界模型有啥用？對短視頻有啥影響？這跟得從前些日子的另一個熱點產品說起——蘋果的VisionPro。

這東西，酷倒是挺酷，但是目前很難普及。因為，VR世界對內容的巨大渴求，靠傳統的3D內容生產方式，根本就滿足不了！

生產3D內容的經典方法，是參數建模：建模師在電腦上進行參數和特征輸入，生成對應的模型對象，簡單理解就是在電腦上“捏泥人”?！澳嗳恕笔悄蟪鰜砹?，但是一顰一笑極其僵硬，跟提線木偶戲一樣。而且，弄一個模型，得累死兩個設計師。

有沒有簡單自然點的方法？動作捕捉。像下圖這樣，演員穿著一身數字盔甲，完成一串動作，再通過計算機視覺和運動模型完成3D內容生產?？墒沁@成本依然很高，沒設備你還玩不了。

有沒有高科技一點的方法呢？看過超級碗(superbowl)的朋友應該知道，人家轉播時有個“全視角回放”，這是咋弄的呢？簡單來說，就是在比賽場地360度無死角安一堆高清攝像頭，再基于幾何拼接重建3D視頻。當年，我在微軟研究院上班時，當時的院長沈向洋博士，就對這項技術有不少貢獻。

那么現在有了Sora，情況有什么根本變化呢？再也不用架那么多攝像機，無死角地捕捉圖像用于拼接了！從演示來看，大模型見過的東西太多，已經有了類似于人類的泛化能力：咱們看到金字塔的正面，背面是啥樣大概也能猜出來，大模型對各種概念、物體得形態和細節的把握，也接近這個程度了。那您想想，將來3D內容的生產，是不是只要幾張照片、一兩個攝像頭，交給世界模型自個腦補，就搞定了？如此一來，3D內容的爆發也就不遠了，您說這玩意有沒有用？

有人跟我抬杠：我沒有Vision Pro，就一個手機，3D內容有啥意義呢？其實，手機這樣的平面媒介上，三維內容也好玩，而且有用！

比如您要買房，網站上要是有VR看房，能在房子里轉悠的，是不是內部情況一覽無余？這比對著圖片和視頻腦補方便多了吧！再比如電商購物，想換個沙發，對著干巴巴的圖文越看越眼暈?？墒乾F在，電商網站的部分產品有了3D物品展示功能，是不是跟去線下實體店看沙發差不多了？

所以說，如果您還認為Sora只是高效生成視頻的工具，那么只能說格局小了。視頻，本來就是Sora世界模型的副產品。未來，算力更強大，模型更完善，它可以真正實現低成本、高還原度地提供三維內容，這才是顛覆性的新場景！

將來，房產銷售隨手拍幾張照片，就可以生成流暢的VR看房模型，或者再虛擬裝修一些生成演示視頻；導演拿相機拍幾張分鏡圖，完整的3D電影片段就自動生成出來了。

等VR世界的內容大規模爆發的那一天，長腿小姐姐可以繞著你跳舞了，不坐飛機就能漫游吳哥窟了，甚至人人都可以根據自己的想象，創造出有趣的場景和物品讓人觀賞。您想想，這是不是比二維世界里的短視頻，要聲色犬馬、紙醉金迷得多？在荒淫娛樂方面，一向覺悟甚高的人民群眾，會選擇哪個、拋棄哪個，您心里沒點數么？

所以，在3D內容的生成成本被大模型拉下來以后，真正應該瑟瑟發抖的，正是現在如火如荼的短視頻世界。

三、普通人的機會在哪里

本來，聊到這兒就該收尾了，但是老有些焦慮的同行來問：AI這么牛逼了，我們還有出路么？所以再多說兩句。

先說說影視、游戲、廣告這些創意行業。Sora的出現，帶來了很大的想象空間?，F在，只要給一段文字描述，或幾張圖片，就可以自動生成一條視頻素材。但是，目前來看，要在商業領域大規模應用，還要有點“最后一公里”的工具。

這是因為，大模型還不能很好的建模因果性和邏輯性較強的場景。比如，這個女子走在大街上的視頻，可以看到她身后的廣告牌和店鋪招牌都是鬼符，而第二個視頻里，杯子打碎的情況明顯違反物理規律。因此，實用中，必須要有一個視頻修改和元素替換的AI工具，解決品牌形象植入，文字和形象替換等問題，才能得到真正有用的素材。當然，我覺得這工具很快就會有的。