上手試了快手的視頻AI,我發現它竟然有點領先。。。

0 評論 2629 瀏覽 6 收藏 12 分鐘

本文深入體驗并分析了快手推出的視頻AI技術——可靈AI,與市場上其他同類產品如Sora進行了對比。文章通過實際測試案例,展示了可靈AI在視頻生成效果上的領先之處,以及它在商業化方面的潛力和挑戰。

Sora 再不向大伙兒開放,就真要被同行們給?“?碾壓?”?了。。。

先是前幾天,快手新搞出來個文生視頻的模型可靈 AI ,悄摸兒的在外網火了。

一出來,網友們就直接把它和 Sora 放在一個擂臺上,讓人意外的是,可靈 AI 竟然一點都不輸,有的時候效果比 Sora 還要好一點。

就比如 “ 螞蟻在巢穴中爬行 ” 這樣的提示詞,可靈生成視頻的質感跟 Sora 差不太多,而且它還營造出了太陽光照進洞穴時的光影。

還有同樣是 “ 拉力賽車 ” 的畫面,可靈的理解比 Sora 更貼合原意一點。咱們能很明顯看到, Sora 畫面里的車在原地打圈,而可靈生成的賽車是真的有在賽道上飆。

它也能像 Sora 一樣生成兩分鐘所有的視頻,像這個?“?小男孩在花園里騎自行車經歷秋冬春夏四季變換?”?的視頻,畫面穩定性、光影變化啥的,跟 Sora 那段經典視頻有得一拼。

相較于 Sora ,可靈 AI 還會更適合咱們中國寶寶體質一些,像大熊貓這類的中國元素,它也能迅速 get 到。

甚至已經有老外為了玩上快手的 AI , “ 求 ” 著讓國內網友幫他生成一些視頻。。。

而就在世超琢磨可靈?AI?的時候,網上又突然蹦出來一個新的視頻模型?Luma AI?,同樣能生成長達兩分鐘的高清視頻。而且官網示例的效果,也是直逼 Sora 。

像是它生成人在潛水時的瞬間,臉部周圍氣泡變化跟真的一樣,在整個大幅度運動過程中,臉部也沒出現啥畸變。

還有房間爆炸時,鏡頭推進的畫面,整得人都有種看好萊塢大片的錯覺了。

看到這兒,不知道差友們什么感受,反正世超已經有點兒坐不住了,立馬托朋友從快手那要來了個內測資格,也順便登上了 Luma 的試用界面,準備親自上手試試這兩個 AI ,看看它們到底有沒有傳說中的這么厲害。

據它們倆的宣傳,可靈 AI 和 Luma 算是都有各自擅長的領域。可靈這塊兒,網友們都說它生成吃播視頻是一絕,而 Luma 官網上宣傳的則是 “ 電影感 ” ,還能通過圖片 + 提示詞生成視頻。

那咱也不廢話了,直接在它倆各自的地盤上開測。

首先咱們來到的比試地點,是快手比較擅長的 “ 吃播 ” ,讓它們同時生成一段 “ 一個男人在吃意大利面 ” 的視頻。

有一說一,可靈 AI 除了嗦面的時候有點不穩定,其他畫面說是從快手的吃播視頻里截取的,估計都有忽悠到不少人。

到了 Luma 這兒,畫風就突然變得詭異了,男嘉賓就跟有超能力一樣,啥餐具都不用就開吃了,而且嘴巴動得也非常不自然。

既然生成吃播的視頻 Luma 不太行,那接下來咱就試試它比較擅長的 “ 電影感 ” 。

本以為?Luma?要大施拳腳了,沒想到它一上來就拉了坨大的。

讓它生成一段 “ 外星人大戰機器人 ” 的畫面,還是那個老毛病,同一個人物,一會兒變成機器人,一會兒變成怪獸,全程都沒看到打斗的痕跡。

同樣的提示詞喂給可靈,它倒是把戰斗的場面給整出來了,就是有點經不起細看,手里拿的刀都是軟的。。。

好在之后的表現還行,讓它們同時生成 “ 頂級富豪在別墅開派對 ” 的視頻,都挺有模有樣,唯一的缺點就是面部表情都不太穩定。

各自擅長的領域比完了,那緊接著來第二回合,考驗下這倆?AI?對物理世界的理解程度。

讓它們生成一段 “ 貓咪和正在睡覺的主人互動 ” 的視頻,先是 Luma 這邊,它一上來就直接擺爛,只生成了一段黑色貓咪的視頻,連人的影子都沒看到。。。

要不說全靠同行襯托,對比之下可靈 AI 的效果就強多了。有貓,有睡覺的人,硬要扣缺點的話,就是沒怎么看到貓和主人之間的互動。

后面世超又試了好一些,發現在一些簡短的提示詞跟前,快手可靈的表現都還不錯,比如玩偶熊在瀑布前彈吉他,小樣騎自行車等等。

Luma 這邊就跟使喚久了,想罷工一樣,各種 Bug 都出來了,小熊彈個吉他都能彈出幻影來。

還把羊自個兒變成了自行車。。。

更抽象的是,因為 Luma 有圖片輸入,在試的時候總能整出來不少樂子。比如讓它給豬豬俠的表情包整個后續,搞到一半就給整成驚悚片了。。

還有經典的 “ 外國老頭 nice ” 梗圖,他喝可樂是這樣子的,多少有的鬼畜。

甚至還有網友給各種梗圖,都腦補上了后續。

總之,整體體驗下來,世超覺得,要論效果,快手可靈 AI 的效果還是會更穩定、更好一點。最起碼和其他能用到的視頻 AI 比,它已經是相當不錯了。

而把模型訓練成這樣,快手是摸著 Sora 這塊石頭過河,也到用了 DiT 架構。把 transformer 融合進擴散模型里,這樣一來,通過堆參數、堆訓練數據等等就能提升模型性能,而在視頻數據這塊兒,快手自然是不缺的。

不過現在除了效果外,視頻 AI 還有另外一個不得不重視的問題,商業化。

不知道大伙們有沒有注意到,雖說 Sora 之后,類似的 AI 是一個接一個,連字節、阿里這樣的大廠們,都搶著上這個賽道。

但大部分廠商在宣布自己也有這種模型后,幾乎就很少有進一步的動作了。

像是 Sora ,已經好幾個月沒更新過他們的案例庫,其他有向大伙們開放的視頻 AI ,也只更新到 5s 的視頻長度就沒再繼續了。。。

而搞成這樣子,說白了還是做視頻 AI 太花錢,又找不到啥賺錢的路子。

像是學圖片 AI 一樣收會員費,根本就 cover 不掉它的成本,據調查機構 Factorial Funds 稱,以 Sora 為例,它 30 億參數(主流猜測 )的訓練成本,比 1.8 萬億參數的 GPT-4 還要多。

這還只是訓練,實際用時的推理成本更多,國內有 AI 企業做過一個折算,差不多兩分鐘的視頻要花掉 180 塊錢,看這數據,也難怪 AI 廠商們都不敢公開進度。。。

但話說回來,世超還是挺看好快手做這種 AI 的,畢竟它本身就有個視頻平臺在。說不定之后可靈也能像因為黏土濾鏡爆火的 Remini 一樣,靠 “ 發帖助手 ” 的定位摸索出一個賺錢的路子來。

這不,世超立馬就想到了一個點子,不如學一學這次的 Luma ,玩玩抽象,指不定流量就來了。

本文由人人都是產品經理作者【汪仔0636】,微信公眾號:【差評】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!