七火山要做國產(chǎn)Sora,但成色走了樣

0 評論 2028 瀏覽 0 收藏 14 分鐘

在Sora發(fā)布之后,許多企業(yè)也迎頭趕上,其中,七火山便發(fā)布了文生視頻大模型Etna。那么和Sora相比,Etna的“成色”怎么樣?一起來看看本文的分析。

這個春天,Sora幾乎成了統(tǒng)治整個AI圈的“刷屏王者”。

這個由OpenAI推出的AI視頻生成神器,憑借其驚人的創(chuàng)造力,讓人們再次見識到了AI的無限可能。而這炸裂的能力背后,蘊含著的是指數(shù)級的財富增量。

Sora發(fā)布后,OpenAI的估值一夜之間漲到了800億美元。

在內(nèi)容消費升級的大背景下,AI視頻生成技術(shù),正成為資本市場的新寵。

在此熱潮下,一大批立志追趕或效仿Sora的國產(chǎn)AI企業(yè)也乘勢而起。其中,七火山科技算是步伐較快的一個。

作為一家專注于AI多模態(tài)應用的企業(yè),七火山旗下的產(chǎn)品包括了Lava AI視頻編輯平臺,Bromo AI圖像處理工具等,旨在為用戶提供AI換臉、AI換背景和AI優(yōu)化視頻等功能,可以說在AI視頻領域,七火山早有布局。

Sora公布后,七火山很快緊隨其后,發(fā)布了自身號稱國產(chǎn)版“Sora”的文生視頻大模型——Etna。并宣稱其以“4K” 、“60幀”、“15秒”等硬性指標,打破了國內(nèi)文生視頻AI的各種紀錄。

那么,在多個耀眼的標簽下,這個國產(chǎn)版“Sora”,成色究竟怎樣?

一、導演VS剪輯師

如果用一句話來評價Sora和Etna之間的差距,那么Sora更像是一個全能的導演,而Etna則像是一個專業(yè)的視頻編輯師。

要理解這點,我們就得從技術(shù)上拿捏一下Etna的“看家本領”。

按照七火山目前披露的信息,Etna主要的特色和優(yōu)勢分別是:

  1. 高幀率(每秒60幀);
  2. 高分辨率(可以達到4k);
  3. 較長的視頻時長(8—15秒),講真,這個時長在國內(nèi)文生視頻AI里(大部分是3~4秒)算不錯的了。

實事求是地說,在幀數(shù)和分辨率方面,Etna已經(jīng)超越了目前Sora。因為現(xiàn)在Sora僅僅只能生成幀數(shù)為每秒30幀,分辨率為720p的視頻。

然而,以上幾點僅僅是Etna的“皮相”,真正決定其與Sora差距的,還是Etna自身的底層架構(gòu)。

不過話說回來,即使是在“皮相”的部分,Etna和Sora也存在著一些肉眼可見的差距。

例如從整體上看,Etna生成的視頻,大部分都是一些運動幅度較小的片段,看上去更像是一些加了動效的PPT。(關于這部分原因,后面會分析)

從底層架構(gòu)上來說,雖然Etna和Sora采用的都是Diffusion+Transform架構(gòu),但Etna較為不同的地方,就是在此基礎上插入了時空卷積注意力層。

這樣做的一個好處就在于,與Transformer相比,CNN在處理高分辨率視頻時更高效,并且有助于減少計算資源和內(nèi)存的需求。

這正是主打4K分辨率的Etna所需要的。

然而,問題就在于,在處理長視頻(1分鐘以上)時,卷積神經(jīng)網(wǎng)絡(CNN)可能會受到限制,因為傳統(tǒng)的CNN在處理極長序列時可能不如Transformer有效。

這主要是因為,Transformer通過自注意力機制來處理序列數(shù)據(jù),而CNN往往將視頻視為一系列獨立的圖像幀,然后分別逐幀處理。

其中的區(qū)別,就相當于Transformer是一本超級詳細的日記,它可以讓你隨時查看任何一頁,而且每一頁都記錄了這部電影的所有細節(jié),包括畫面與畫面之間的所有聯(lián)系和變化。不管你想回憶起電影的哪個部分,它都能幫你找到,并且告訴你前因后果。

而就CNN是好像相冊一樣的東西,它只能一次給你看幾張照片,而且它看的照片是按照一定的順序排列的。

但是當你想回憶起一個很早之前的畫面和后面的畫面之間的聯(lián)系時,它可能就幫不上太大的忙了。

這等于是,Etna為追求更高的分辨率和幀數(shù),舍去了生成更長視頻的可能。

從算力上來說,這其實也是一件情理之中的事,畢竟,在生成長視頻的同時,還要保持極高的分辨率和幀數(shù),這消耗的計算資源,即使是OpenAI也頂不住。

這也是為什么Sora目前只能生成每秒30幀,分辨率為720p的視頻。

但問題是,Etna為什么要做這樣的取舍?

這里有三種可能:

一是七火山本身的計算資源、底層技術(shù)不到家,所以只好用時空卷積+注意力層的辦法,讓視頻在較短的時間內(nèi),勉強讓畫面“動”起來;

二是七火山的商業(yè)模式,決定了它不會走長視頻的道路,也就不會去鉆研這方面的技術(shù);

第三種情況,就是兩者兼而有之。

二、參天大樹和盆景

AI生成視頻,尤其是長視頻,對計算資源的消耗是驚人的。

之前OpenAI的CTO在接受采訪時,就明確表示,雖然Sora會在今年晚些時候推出,但由于高昂的計算資源,其價格“可能會很貴”。

就目前國內(nèi)AI行業(yè)愈發(fā)謹慎的投資環(huán)境來說,能否說服VC或投資人,給這么一個比LLM(大語言模型)更燒錢的技術(shù)融資,要打一個大大的問號。

而商業(yè)路徑最明確,“回血”也最快的短視頻賽道,就成了視頻生成類AI最有可能被資本認可的方向。

這種商業(yè)上的考量,或許正是Etna在架構(gòu)層面沒有往長視頻方向發(fā)展的原因。

再者,從技術(shù)方面來說,雖然Etna采用了與Sora類似的Diffusion+Transform架構(gòu),但這絕不意味著,任何一家公司,只要對著這個架構(gòu)照抄,就能做出和Sora一樣好的視頻。

換句話說,Sora在生成質(zhì)量上的亮眼表現(xiàn),其實更像是一種工藝上的精進,而非掌握了某種“秘術(shù)”。

如果說得稍微具體些,這種“工藝”上的精髓,很有可能就是Sora在多模態(tài)理解和長距離依賴方面的優(yōu)勢。

這樣的區(qū)別,決定了模型能否理解用戶給出的復雜指令,能否生成一些動作幅度較大、或者較為復雜的片段。

能做到這點的模型,就是“導演”,否則就只能當個“剪輯師”。

舉例來說,Sora這個“全能導演”不僅僅是能根據(jù)文字來生成視頻,它還能理解文字里的復雜情節(jié)和細節(jié),然后自己想象出一整套畫面來。

例如前段時間,Sora公布的一段視頻中,就出現(xiàn)了“一個男人參拜巨型貓王”的片段。畫面的提示詞是:座巨大的大教堂里全是貓。一個男人走進大教堂,向坐在王座上的巨型貓王鞠躬。

在整個視頻中,畫面所透出的“故事感”特別強烈,即使沒有旁白,觀眾也能自行腦補一系列情節(jié)。

而到視頻的末尾,貓王甚至還湊到男人面前嗅了嗅,仿佛是在“打量”這個參拜者。

如此復雜的畫面和動作,需要模型在多模態(tài)理解方面有很強的功力。

而Etna在對其進行效仿時,可能由于并未掌握其精髓,或是由于計算資源不足的原因,采用了時空卷積+注意力層的辦法,作為一種“權(quán)宜之計”,讓視頻勉強“動”起來。

這也是為什么,Etna生成的視頻,大部分都是一些運動幅度較小的片段。

因為這樣的片段往往比較簡單,不太涉及對復雜語義的理解,消耗的算力資源也比較小。

話說回來,Etna之所以在架構(gòu)中采用時空卷積+注意力層,最有可能的原因,就是二者在計算效上率相較于單純的Transformer架構(gòu)更高效,對算力要求更小。

因為時空卷積和注意力層在處理數(shù)據(jù)時,通常只考慮局部信息,而不需要考慮整個序列。

這其實也挺符合七火山現(xiàn)在的短視頻戰(zhàn)略的,畢竟短視頻追求的就是一個“短、平、快”,如果有可能的話,最好能把算力的要求,降低到大部分手機都能運行的地步。

如此一來,隨拍隨發(fā),用戶才能用得盡興,應用的粘性才夠強。

七火山和快手海外 SnackVideo 也有合作

不過,這種看似“高效”的策略,總不免透著些遺憾。

畢竟,Sora這類的“導演”級模型,雖然很難造就,但其前景和應用方向,無疑是更加廣闊的。之后無論是電影、電視劇,甚至是機器人、自動駕駛訓練所需的模擬視頻,都能讓其大展拳腳。

而相較之下,專精于短視頻的Etna,雖然也可以成為一個很好的“剪輯師”,但視頻AI的想象力,難道就該僅僅止步于短視頻嗎?

這就像是,雖然盆栽確實可以長得很精致,但只有參天大樹,才能見到更廣闊的天地。

作者:舉大名耳

來源公眾號:AI新智能(ID:alpAIworks),一個致力于探索人工智能對商業(yè)世界和社會影響的平臺。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @AI新智能 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!