Sora對國內大廠是機會還是挑戰?
今年開年OpenAI生成新的AI技術——文生視頻領域的Sora,這對我們國內大廠的機遇還是挑戰呢?讓我們來看看作者的分析吧~
拋開技術路線不談,單就實現效果而言,國內大模型企業們在生成視頻方面,是否有著同樣的“飛升機會”?
龍年的第一個月,正如去年的ChatGPT,OpenAI開年再出一王炸——文生視頻領域的Sora。
面對這樣的AI生成能力,包括幾乎所有類型的從業者都感受到了不小的震動。一位IT出身的電影制片人告訴陸玖商業評論,Sora的的驚艷表現,讓他周圍的從業者都有了不小的危機感。電影制作成本的急劇下降,和新銳電影人的出頭,將會比以往更加容易。
不過,在面對陸玖商業評論提出的“Sora是否已具備商業化條件”“文生視頻對于算力的要求是否更高,以及如何解決”等問題時,這位制片人則用“發展問題,發展解決”的說法給出回復。
這顯然過于樂觀。畢竟更多從業者認為,從概念到成熟的工業化商用階段,即便是Sora也有很多不成熟的地方。
也因此,拋開技術路線不談,單就實現效果而言,國內在文生文等通用模型有相關布局的大模型廠商,是否有著同樣的“飛升機會”?文生視頻,到底相比過去文生文,有哪些實質性的飛躍?這是一個很有意思的話題。
一、Sora,革命還是泡沫?
必須承認,Sora的出現,讓通用人工智能(AGI)的實現,又近了一步。原因在于,它已經做到了模擬真實物理世界的運動,譬如物體的移動與相互作用。不過,僅僅是這種程度的改進,也算不得“驚艷”。根據OpenAI的官方報告,Sora的“革命性”主要體現在下面幾點。
首先是時長。作為通用的文生視頻大模型,它能根據用戶提供的文本描述生成長達60秒的視頻,不僅品質上乘,且能更完整準確地還原用戶輸入的prompt,即提示詞。
其次,是在場景的復雜度和角色生成水平的突破。到目前為止,Sora已經能夠生成包括多個角色、特定運動類型以及主題精確、背景細節復雜的場景。且鏡頭語言也開始復雜,這使得視頻本身開始具有一定的敘事功能,而這正是目前短視頻領域所需要的東西。
再次,除了文本生視頻,Sora還能做到從靜態圖像開始動畫化圖像,抑或是從已有視頻生成新視頻,實現填補缺失幀或者延展視頻內容的效果。
一位資深科技媒體人對陸玖商業評論表示,Sora這類AI產品的出現,是一種“思維平權”的機會,因為一些長期跟蹤行業的科技記者,經常會有一些“腦洞大開”的設想,但沒有合適的工具讓想法落地。但有了GPT和Sora這類AI工具之后,記者們一旦看到了機會和想法,AI就可能會幫助他實現產品,剩下的就是驗證這個產品的可行性。
但陸玖商業評論在與多個行業人士交流以后發現,即便是眼下風光無限的Sora,同樣有被高估的可能性。
行行AI董事長李明順對此較為理性,在他看來,Sora的出現,很大程度上是文生文的通用模型,延展到視頻領域的階段性技術迭代。Sora能有如今的質變,很大程度上也是算力和資金不設上限投入,再加以海量訓集的不斷重復訓練,這是“大力出奇跡”的結果。
相比技術實現上的優越,Sora在“資源稟賦”上的優越,顯然跟國內一眾“算力荒”廠商拉開了更大的距離。這是國內大模型相關廠商,在相當長時間里難以逾越的鴻溝。
而從投資角度而言,Sora這類垂直領域的“通用模型”也算不得熱門標的。
一位一級市場從業者告訴陸玖商業評論,純一級市場投資,通常只會投資大概念和高估值標的。原因主要在于一級市場的基金存續期是7年,投資期2年,5年退出是大概率事件。但文生視頻的垂直模型在5年內能否實現工業化商用,誰都無法下定論。
此外,目前的Sora,所有已知信息只有2月15日發布的技術報告,但在3天后就傳出了融資新聞。在沒有開放使用、外界不知其實際水平的情況下,在風投公司Thrive Capital牽頭融資中,OpenAI的估值已經逼近800億美元。這位一級市場從業者向陸玖商業評論坦言,這次技術發布很可能是OpenAI“估值管理”的一部分。
昆侖萬維的董事長周亞輝在朋友圈表示,“(硅谷)這邊的Scientist和工程師根本不認除了Open Al以外的創業公司股票價值,覺得都是紙面財富。寧可要OpenAI.谷歌、FB、微軟100萬Package(一半股票)的Offer,也不要創業公司300萬(80%股票)的Offer。”
可見,Sora之后,OpenAI進一步拉大了與其他AI大廠的差距。
二、國產大模型,廠商們的危與機
盡管Meta、Google以及微軟都在蠢蠢欲動,但相較于資本市場對Sora的瘋狂,國內大模型廠商則顯得冷靜得多。國內大廠大多數選擇的,仍是立足于自身應用的大模型開發,并非去追求所謂的原生態AI大模型升級。字節即是其中之一,其對于生成式AI的保守態度,早在文生文階段就已經體現。而從入局時間看,字節并不晚。據晚點報道,2020年6月OpenAI發布GPT-3后,字節曾訓練了一個數十億參數的生成式語言大模型。
如果按部就班開發,到2023年時,字節與OpenAI的GPT,距離不會很遠。只是在ROI掛帥的業務體系下,字節這筆投資顯然沒有算過賬來。因此,其在生成式AI的探索上,始終相較競品慢了一些。
從發布時間來看,百度文心一言于2023年3月份發布,同年10月便迭代至4.0版,緊隨其后的是阿里的通義千問、騰訊混元助手,而字節發布云雀大模型的發布時間是2023年8月。
后發導致的結果之一,是用戶量不足——文心一言的月活去年就已經破億,字節的豆包仍然在千萬以下。不過,字節在選派張楠執掌剪映之后,有望在生成式AI的進度上更快一點。
如果說字節在文生視頻領域暫時沒有看到可立即使用的產品,那么百度和阿里則不然。早在去年的百度世界大會上,百度已經演示過文心一言的文生視頻能力,主要集成在“一鏡流影”插件當中。
當然,出現在世界大會現場的生成視頻,只是一鏡流影無數次抽卡中的成功案例。陸玖商業評論經過測試發現,一鏡流影仍然存在一些局限。
其一是素材庫。目前一鏡流影使用的是無版權素材庫,這導致無法用于特定品牌的工業化商用環節。
其二是出于可能的肖像權考慮,目前無法生成帶人像的視頻,但可用于生成不帶商標的商品視頻。
其三則是,目前生成的視頻,都是30秒左右的,如果想要達到與Sora類似的效果,還需要做到兩段視頻素材的拼接。如果要保持內容和風格的一致,顯然變成了難事。
通義千問目前用的最多,熱度最大的相關技術,則是以全民舞王為代表的圖生視頻技術。只需一張全身照,就可以讓其做出各種熱門的舞蹈動作。在B站,以慈禧等歷史人物跳科目三的二創視頻,加起來的視頻播放量,大約在千萬級別。
雖然還沒有做到工業化的水準,也沒有與國外的Sora拉平差距,但國外的Sora同樣也沒有做到工業化,這也就意味著,起碼在商業化進程上,二者仍然沒有太大的距離。剩下的只需不斷追趕就好。
行行AI董事長李明順也持類似的觀點。他告訴陸玖商業評論,目前OpenAI仍然占據行業頭部的位置,但很大程度上是建立在此前的算力儲備和技術積累之上。國內諸如BAT、字節等通用大模型廠商,也會不斷去追趕。原因很簡單,在某種程度上,通用大模型已經變成了互聯網公司基礎能力的一種象征。
競賽似乎才剛剛開始。
三、文生視頻,真正的勝負手在哪?
當然,無論是OpenAI的Sora,還是國內一眾大模型廠商,其最終目的,仍然是工業化、流水線化生產高質量的視頻內容。但就目前來看,即便強如Sora,也是有諸多不成熟的因素,導致其無法應用到工業化領域。AI動態視頻解決方案產品知行元(www.creatlyai.cn)的產品架構師告訴陸玖商業評論,雖然目前Sora看起來很方便,通過文字能直接生成高質量的視頻,且只需要通過幾個提示詞來控制,對用戶的心智與操作負擔看起來很小。
但由于目前的sora對真實物理世界的理解還有限,在某些場景仍然會出現問題。諸如燭光方向錯亂、精準數量失序,空間物體進出畸變等細節,這些細節到后期剪輯都是很難去改動的。
這并非沒有解決方案。因為Sora目前已經有視頻延展和視頻拼接功能,用戶完全可以生成數個幾秒鐘的視頻進行后期裁剪。如果對于提示詞工程的知識儲備不足的人來說,多次生成+人工后期是難以避免的。
此外,在工業化的商品宣傳片中,通常客戶會發布一些新款商品,譬如新款羽絨服、新車、新手機等等。但用戶的素材并不存在于視頻模型的訓練集中,導致只能生成類似商品后再二次加工,也就是影視后期。
這里同樣有專業用戶與非專業用戶的需求差別。譬如對于一般的輕度用戶,如果沒有商業化需求,那么模型就是一個試玩產品,任何新生成的作品對他而言都是驚喜。但對于專業用戶(譬如導演),如果一次生成的不夠滿意,那么還涉及到多次生成和多次后期,對于算力與人工都是不小的負擔。
前述電影制片人告訴陸玖商業評論,在影視制作流程中,后期最大的成本,就是負責剪輯與特效,也就是二次加工的人工成本。如果工作流不夠先進,那么很可能會在后期制作過程中拉高成本,進而影響項目的ROI。
如果目前的文生視頻仍然需要大量人工去調校,且鏡頭和對物理世界的還原也無法做到1:1,那么用AI生成視頻素材的性價比,其實是不高的。
有基于此,一位影視后期從業者告訴陸玖商業評論,在他看來,AI能直接替代的,其實是搭建和拍攝等中期工作。因為AI對物理世界的模擬還原,可以通過不斷訓練來接近真實水平。
以上僅僅是Sora對影視產業的部分改變推演。至于對于游戲、廣告、短視頻創作等細分領域,變革肯定遠大于問題。AI的應用,其革命性的變化,肯定波瀾壯闊。而國內大廠,在AI應用的商業化探索上,顯然更愿意發力和嘗試。
同樣,根據周亞輝的朋友圈劇透,“Open AI很快會發布GPT4.5,而且估計會故意選擇Anthropic發布Claude 3的時候發布?!弊钚碌姹镜腛pen AI除了Sora生成式視頻外,還有什么令人驚艷的創新,應該是國內大廠從事大模型戰略和業務部門,最關心的事情。
最后,對于文生視頻而言,是立足于+AI做大模型應用,還是立足于AI+去訓練升級自己的原生態大模型。顯然,美國大公司與中國大公司已經分別做出了自己的選擇。
作者:胡家銘
來源公眾號:陸玖商業評論(ID:liujiucaijing69),真相無法揭露,只能接近。
本文由人人都是產品經理合作媒體@陸玖財經 授權發布,未經許可,禁止轉載。
題圖來自Sora文生視頻演示截圖
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!