看了Sora,感覺短視頻要懸了!

0 評論 4839 瀏覽 8 收藏 13 分鐘

Sora其實并不單是文生視頻,它其實是一個世界模型。在3D內容的生成成本被大模型拉下來以后,真正應該瑟瑟發抖的,正是現在如火如荼的短視頻世界。

Sora發布也不少天了,按說,作為一名二手科學家,咱也得蹭熱度聊聊??墒强粗髀纷悦襟w花式的震驚、反思和賣課,我有點不知所措,這都是扯啥呢?

我對這些不感興趣,不過,那幾段demo視頻擼了一遍又一遍,再想起在MSRA做AI時的一些經歷,我有點醒攢兒了:您還真以為這東西是為了幫大家水視頻用的么?不是!照這個路數下去,以視頻為主的社交網絡媒介形式,可能要被連鍋端了!

這并非危言聳聽,咱們先從大家熱議的“世界模型”說起。

一、“世界模型”到底是啥

看了Sora,您有什么最深切的感受?我在擼了九九六十四遍以后,突然感到有點毛骨悚然:與Runway、Pika那些競品“帕金森”風格的視頻相比,這些視頻里的物理結構,也太TM穩定真實了!

您看看下面這段無人機穿越大斗獸場遺跡的視頻:所有的建筑物幾何結構,全程沒有扭曲、沒有變型、沒有坍塌。

再看看這段咖啡杯里的海盜船視頻,多么流暢自然的流體運動!一點兒也看不出跟我們熟悉的物理規律不符之處!做過計算機圖形學的都知道,水、霧、風這些非剛體的運動畫面模擬,那是多么困難的任務。

這說明了什么?Sora絕不是在二維框里做建模,把像素生成出來了事!它一定是通過大模型,對世界和物體的三維形態、運動規律有了統計意義上的理解,并且具備了不錯的泛化能力。然后,將它再投射回二維平面中,得到一段視頻的。這就是我理解的“世界模型”。當然,這里的投射,是通過大模型的推理,而非傳統的CG渲染。

也就是說,Sora腦子里的世界,是三維的、立體的、運動的。而平面的視頻框,其實限制了它的表達力!

不信,您看看下面這段demo,同一個場景,生成了五段多機位下的視頻,您說說Sora背后對世界的理解,能是一個框一個框分別往里填的么?

那位說了,你扯這些有卵用?我管Sora背后咋看世界的,反正最后不還是生成一段視頻么!這么想,格局真的小了!既然它腦子里的世界是立體的,那就存在對現有的短視頻形態降維打擊的可能!

二、Sora真正的顛覆意義

世界模型有啥用?對短視頻有啥影響?這跟得從前些日子的另一個熱點產品說起——蘋果的VisionPro。

這東西,酷倒是挺酷,但是目前很難普及。因為,VR世界對內容的巨大渴求,靠傳統的3D內容生產方式,根本就滿足不了!

生產3D內容的經典方法,是參數建模:建模師在電腦上進行參數和特征輸入,生成對應的模型對象,簡單理解就是在電腦上“捏泥人”?!澳嗳恕笔悄蟪鰜砹?,但是一顰一笑極其僵硬,跟提線木偶戲一樣。而且,弄一個模型,得累死兩個設計師。

有沒有簡單自然點的方法?動作捕捉。像下圖這樣,演員穿著一身數字盔甲,完成一串動作,再通過計算機視覺和運動模型完成3D內容生產??墒沁@成本依然很高,沒設備你還玩不了。

有沒有高科技一點的方法呢?看過超級碗(superbowl)的朋友應該知道,人家轉播時有個“全視角回放”,這是咋弄的呢?簡單來說,就是在比賽場地360度無死角安一堆高清攝像頭,再基于幾何拼接重建3D視頻。當年,我在微軟研究院上班時,當時的院長沈向洋博士,就對這項技術有不少貢獻。

那么現在有了Sora,情況有什么根本變化呢?再也不用架那么多攝像機,無死角地捕捉圖像用于拼接了!從演示來看,大模型見過的東西太多,已經有了類似于人類的泛化能力:咱們看到金字塔的正面,背面是啥樣大概也能猜出來,大模型對各種概念、物體得形態和細節的把握,也接近這個程度了。那您想想,將來3D內容的生產,是不是只要幾張照片、一兩個攝像頭,交給世界模型自個腦補,就搞定了?如此一來,3D內容的爆發也就不遠了,您說這玩意有沒有用?

有人跟我抬杠:我沒有Vision Pro,就一個手機,3D內容有啥意義呢?其實,手機這樣的平面媒介上,三維內容也好玩,而且有用!

比如您要買房,網站上要是有VR看房,能在房子里轉悠的,是不是內部情況一覽無余?這比對著圖片和視頻腦補方便多了吧!再比如電商購物,想換個沙發,對著干巴巴的圖文越看越眼暈??墒乾F在,電商網站的部分產品有了3D物品展示功能,是不是跟去線下實體店看沙發差不多了?

所以說,如果您還認為Sora只是高效生成視頻的工具,那么只能說格局小了。視頻,本來就是Sora世界模型的副產品。未來,算力更強大,模型更完善,它可以真正實現低成本、高還原度地提供三維內容,這才是顛覆性的新場景!

將來,房產銷售隨手拍幾張照片,就可以生成流暢的VR看房模型,或者再虛擬裝修一些生成演示視頻;導演拿相機拍幾張分鏡圖,完整的3D電影片段就自動生成出來了。

等VR世界的內容大規模爆發的那一天,長腿小姐姐可以繞著你跳舞了,不坐飛機就能漫游吳哥窟了,甚至人人都可以根據自己的想象,創造出有趣的場景和物品讓人觀賞。您想想,這是不是比二維世界里的短視頻,要聲色犬馬、紙醉金迷得多?在荒淫娛樂方面,一向覺悟甚高的人民群眾,會選擇哪個、拋棄哪個,您心里沒點數么?

所以,在3D內容的生成成本被大模型拉下來以后,真正應該瑟瑟發抖的,正是現在如火如荼的短視頻世界。

三、普通人的機會在哪里

本來,聊到這兒就該收尾了,但是老有些焦慮的同行來問:AI這么牛逼了,我們還有出路么?所以再多說兩句。

先說說影視、游戲、廣告這些創意行業。Sora的出現,帶來了很大的想象空間?,F在,只要給一段文字描述,或幾張圖片,就可以自動生成一條視頻素材。但是,目前來看,要在商業領域大規模應用,還要有點“最后一公里”的工具。

這是因為,大模型還不能很好的建模因果性和邏輯性較強的場景。比如,這個女子走在大街上的視頻,可以看到她身后的廣告牌和店鋪招牌都是鬼符,而第二個視頻里,杯子打碎的情況明顯違反物理規律。因此,實用中,必須要有一個視頻修改和元素替換的AI工具,解決品牌形象植入,文字和形象替換等問題,才能得到真正有用的素材。當然,我覺得這工具很快就會有的。

然后呢?咱們就可以混吃等死了么?有什么新技能要培養呢?

我真心覺得,大家沒必要追著AI工具走。因為AI的目的,就是要降低這些工具的使用門檻,隨著它們不斷迭代,你學的那些使用技巧,很快就不需要了。

比如,電腦剛在中國普及的時候,興起了一波五筆輸入法的培訓和學習狂潮,可是隨著技術發展,中文輸入法越來越成熟,現在你看,還有人專門學五筆么?

還有,零幾年那會兒Google剛興起時,市面上可是有很多“精通搜索引擎”的培訓班的!現在再回頭看,簡直有點行為藝術了。

我的觀點,大家更應該培養“與AI垂直的能力”。比如您是視頻相關從業者,那么您需要培養的是,還是劇本創作、場景規劃這些策略性的能力——工具發展得越快,這些能力就越寶貴。

當然,當下最重要的大策略,還是如何理解和把握AI帶來的趨勢性機會。其實,如同第一次工業革命的蒸汽時代,和第二次工業革命的電力時代,當產能更高、效率更高的革命性產品出現的時候,潮流是不可逆的。

在信息時代,信息傳播載體經歷了由文字到圖像到視頻變遷過程,當Sora這樣跨時代的產品出現的時候,互聯網的信息傳播的載體也必將會拉開由二維內容向三維內容升級的序幕。以此為契機,在其中尋找工具、平臺和內容的新機會,只有我們想不到,沒有什么不可能。

作者:大數據仁波茄,公眾號:計算廣告(ID:Comp_Ad)

本文由@計算廣告 授權發布于人人都是產品經理。未經許可,禁止轉載

題圖來自 Sora 官網演示視頻截圖

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!