抖音快手新戰(zhàn)場(chǎng),視頻生成大模型的同與異

0 評(píng)論 1003 瀏覽 0 收藏 16 分鐘

隨著人工智能技術(shù)的不斷發(fā)展,AI視頻生成技術(shù)正逐漸成為短視頻平臺(tái)競(jìng)爭(zhēng)的新戰(zhàn)場(chǎng)。抖音和快手作為國(guó)內(nèi)兩大短視頻巨頭,都在積極布局AI視頻生成領(lǐng)域,希望通過(guò)技術(shù)創(chuàng)新來(lái)吸引和留住用戶。本文將探討抖音的即夢(mèng)AI和快手的可靈AI在視頻生成領(lǐng)域的應(yīng)用差異、市場(chǎng)策略以及它們對(duì)行業(yè)的影響。

動(dòng)態(tài)視頻生成AI應(yīng)用正在迎來(lái)新的變數(shù)。

2023 年,Runway 發(fā)布了文生視頻/圖生視頻大模型 Gen-2 ;2024年初, OpenAI 的 Sora 展示視頻又掀起了一波討論,不過(guò)目前 Runway 缺乏漢化版本, Sora 還處于未公開(kāi)階段,被外界戲稱為期貨,而瞅準(zhǔn)了這段空窗時(shí)間,國(guó)內(nèi)也見(jiàn)縫插的發(fā)布相關(guān)模型/應(yīng)用,發(fā)布者是國(guó)內(nèi)最大的兩個(gè)短視頻平臺(tái)——抖音和快手

今年 6 月份,快手開(kāi)放了可靈AI大模型使用申請(qǐng),號(hào)稱“全球首個(gè)普通用戶可用的真實(shí)影像級(jí)視頻生成大模型”,此后不斷升級(jí)并在 7 月 25 日全面開(kāi)放內(nèi)測(cè),同時(shí)正式上線了會(huì)員體系;緊接著在 7 月底和 8 月初,字節(jié)的即夢(mèng)AI的 1.0.0 版本正式上架到安卓/蘋(píng)果應(yīng)用商店,而在此前 5 月份,剪映 Dreamina 官方就已宣布其品牌的中文名為“即夢(mèng)”,并上線相關(guān) AI 視頻生成功能。

與國(guó)外不同的是,國(guó)內(nèi)的AI視頻生成大模型不出所料地由最大的兩個(gè)短視頻平臺(tái)先發(fā)制人入局。但具體而言,即夢(mèng)AI和可靈AI的初期的應(yīng)用布局不盡相同,之于其母公司的意義也大相徑庭,畢竟字節(jié)內(nèi)還有豆包,可靈AI之于快手,更接近于“全村的希望”這一角色。

另一方面,二者生成的AI視頻風(fēng)格顯然有著差別,即夢(mèng)似乎更擅長(zhǎng)動(dòng)畫(huà)風(fēng),可靈卻卷向影像風(fēng)。二者的這種差異與前期的布局不無(wú)關(guān)系,雖然目前還無(wú)法說(shuō)明彼此模式的優(yōu)劣幾何,但從當(dāng)下的輿論來(lái)看,影像風(fēng)的AI視頻似乎要更有新鮮感。

01、即夢(mèng)VS可靈,特性和地位大不相同

從目前輿論偏向來(lái)看,字節(jié)即夢(mèng)AI的視頻生成表現(xiàn)不如快手可靈AI?!缎铝?chǎng)》認(rèn)為,這來(lái)源于其各自的視頻剪輯平臺(tái)剪映和快影本身的特性不同,以及整個(gè)字節(jié)系和快手系對(duì)AI的布局也有所差別。

剪映的即夢(mèng)AI作為一個(gè)單獨(dú)的移動(dòng)應(yīng)用需要更長(zhǎng)的上線周期,而快手選擇了直接將移動(dòng)端的應(yīng)用搭載于其視頻剪輯平臺(tái)快影上,極大縮短功能全面上線的周期和難度。

不過(guò)關(guān)于剪映為何要重新開(kāi)辟出一個(gè)應(yīng)用,在《新立場(chǎng)》看來(lái),不管是從月活提升需求,App體量,以及收費(fèi)模式來(lái)看,剪映都必須將即夢(mèng)AI單獨(dú)開(kāi)辟出一個(gè)應(yīng)用。

首先剪映本身的月活用戶在整個(gè)移動(dòng)端視頻剪輯這個(gè)賽道來(lái)看早已一騎絕塵,據(jù) Qusetmobile 此前的數(shù)據(jù)顯示約有一億,這甚至不包括剪映的海外版 CapCut ,因此剪映更需要考慮的是就將其直接集成到剪映本身的App上的性價(jià)比。

由于剪映上本來(lái)已有相關(guān)AI圖生圖的功能模塊,以及特定模式的圖生視頻模塊,加之剪映自身又十分吃手機(jī)內(nèi)存,若將即夢(mèng)AI的視頻生成所有功能作為一個(gè)模塊植入剪映,會(huì)使得剪映本身變得更加臃腫。

并且收費(fèi)模式的平衡也是個(gè)問(wèn)題,如果將即夢(mèng)AI直接植入剪映,那么只可能有兩種收費(fèi)模式:

1、直接一刀切提高剪映整體會(huì)員收費(fèi),

2、或者在會(huì)員收費(fèi)基礎(chǔ)上,即夢(mèng)AI相關(guān)功能另外收費(fèi)。

然而目前剪映的會(huì)員費(fèi)用已經(jīng)不算低了,這兩個(gè)模式對(duì)于原本的剪映用戶來(lái)說(shuō)都會(huì)難以接受。

但對(duì)于快手的快影來(lái)說(shuō),這三方面情況又恰好跟剪映相反:與剪映相比月活提升空間更大,可以靠更多的更強(qiáng)大的AI功能模塊來(lái)引流;App本身體量也不算大,原本的會(huì)員費(fèi)也用遠(yuǎn)遠(yuǎn)低于剪映,目前剪映包年會(huì)員費(fèi)用是499元,而快影連續(xù)包年88元,費(fèi)用可提升空間還很大,因此可靈AI作為功能模塊植入是目前更優(yōu)的解法。

另一方面,可靈AI跟即夢(mèng)AI在內(nèi)部的地位大不相同。在字節(jié)系內(nèi)應(yīng)用層面,除了即夢(mèng)AI,還有聊天機(jī)器人豆包,豆包跟即夢(mèng)一樣擁有單獨(dú)的移動(dòng)端 App,同時(shí)也植入在了諸如飛書(shū)的字節(jié)系應(yīng)用平臺(tái)上。

根據(jù) Similarweb 的榜單,在 7 月,豆包的訪問(wèn)量已經(jīng)排到了國(guó)內(nèi)第四(前三分別是Kimi,文心一言以及通義)。除此之外字節(jié)在應(yīng)用層還有其他諸如貓箱、星繪等AI應(yīng)用,但由于這些應(yīng)用的存在感并算不高,在此就不多贅述。

而反觀快手,早前發(fā)布的快意大模型在應(yīng)用層面水花并不算大,可靈AI應(yīng)用一上線即引起了廣泛關(guān)注。

8 月 27 日,在快手的光合創(chuàng)作者大會(huì)上,快手蓋坤透露,已有超過(guò) 160 萬(wàn)人使用過(guò)快手的視頻生成大模型可靈AI,并累計(jì)生成超 1600 萬(wàn)條視頻。甚至在 7 月的 Similarweb 榜單上,可靈AI排到了國(guó)內(nèi)第 18 位,是目前國(guó)內(nèi)排名最高的視頻生成類AI應(yīng)用。只不過(guò)由于即夢(mèng)AI的 app 正式上線和可靈AI的內(nèi)測(cè)開(kāi)放都是在 7 月,我們還需要等待 8 月榜單的發(fā)布以得出進(jìn)一步的結(jié)論。

據(jù)悉,早在 Sora 展示視頻發(fā)布后不久,就有相關(guān)人士猜測(cè)其模型為“Diffusion模型和Transformer模型的結(jié)合”,簡(jiǎn)單來(lái)說(shuō)就是 Transformer 理解文字,Diffusion 擴(kuò)展圖片。而在可靈AI官網(wǎng)的介紹中也提到:“基于對(duì)文本-視頻語(yǔ)義的深刻理解和 Diffusion Transformer 架構(gòu)。”

據(jù)業(yè)內(nèi)人士稱,這樣的架構(gòu)在今年年初時(shí)業(yè)內(nèi)就已普遍開(kāi)始研究。也就是說(shuō),快手開(kāi)始研究可靈AI也許還要更早一點(diǎn)。

雖然 Diffusion 和 Transformer 結(jié)合并不能算一個(gè)Creative idea,但那時(shí)國(guó)內(nèi)的大多大模型廠商還在各種通用百模大戰(zhàn)之中,能選定視頻生成這樣一個(gè)更具體甚至是投入更大的賽道,并非一個(gè)容易事。

對(duì)于字節(jié)來(lái)說(shuō),豆包和即夢(mèng)盡管是不同的團(tuán)隊(duì)在負(fù)責(zé),但就以上的榜單來(lái)看,比起即夢(mèng)AI,豆包AI在如今各方AI應(yīng)用大戰(zhàn)白熱化的階段,似乎更加能夠幫字節(jié)搏出位。因此,可靈和即夢(mèng)之于其母公司的意義是完全不同的。

可靈AI之于快手,也自然接近于“全村的希望”這一角色。

02、即夢(mèng)擅長(zhǎng)動(dòng)畫(huà)風(fēng),可靈卷向影像風(fēng)

OpenAI 目前在全球 AI 界獨(dú)領(lǐng)風(fēng)騷除了自身技術(shù)的領(lǐng)先,也與其優(yōu)先發(fā)布奠定的用戶心智以及獲取了更多真實(shí)數(shù)據(jù)訓(xùn)練機(jī)會(huì)有關(guān)。只是問(wèn)題在于,視頻生成式AI的先手優(yōu)勢(shì),是否會(huì)有聊天機(jī)器人AI影響那么大,在OpenAI看來(lái),也許并不大,不然 Sora 也不會(huì)如此不慌不忙。

事實(shí)上除去 OpenAI 這一極端案例,就國(guó)內(nèi)的 AI 聊天機(jī)器人而言,單純的時(shí)機(jī)先手優(yōu)勢(shì)也不重要,甚至原本平臺(tái)的規(guī)模優(yōu)勢(shì)也不重要。 OpenAI 之后,國(guó)內(nèi)大廠最先刷存在感的大模型是百度的文心一言,2023 年 3 月份就已上線,而目前流量排名第一的 AI 應(yīng)用卻是獨(dú)角獸 Kimi ,上線于 2023 下半年。

原因在于,在聊天機(jī)器人這個(gè)賽道,Kimi 占據(jù)的是某個(gè)特定內(nèi)容模式的先手優(yōu)勢(shì)。

以 Kimi 和文心一言、通義等AI的模式作為對(duì)比來(lái)看,大廠的這些 AI 聊天機(jī)器人一開(kāi)始就學(xué)著 OpenAI 的 GPT ,沖著更全面更通用的方向去的,這必然會(huì)導(dǎo)致不管是獲客層面還是模型訓(xùn)練層面都會(huì)廣而不精。而 Kimi 盡管也是通用大模型,但卻有一個(gè)非常精準(zhǔn)且高效的切入點(diǎn)——主要應(yīng)用場(chǎng)景為專業(yè)學(xué)術(shù)論文的翻譯和理解、輔助分析法律問(wèn)題、快速理解AAPI開(kāi)發(fā)文檔等。顯而易見(jiàn),這方面的內(nèi)容更具有邏輯性,對(duì)于 AI 來(lái)說(shuō)相對(duì)更容易理解和輸出。

也就是說(shuō),Kimi 背后的月之暗面比大廠都更早錨定了初期的核心付費(fèi)用戶以及商業(yè)化模式,加之足夠堅(jiān)定的營(yíng)銷投入以及精準(zhǔn)的營(yíng)銷獲客渠道,有助于 Kim 實(shí)現(xiàn)生成內(nèi)容質(zhì)量上的滾雪球。

據(jù)《智能涌現(xiàn)》報(bào)導(dǎo),月之暗面在B站的轉(zhuǎn)化人均成本報(bào)價(jià)高達(dá) 30 元左右。這個(gè)價(jià)格不僅在AI界,在大多數(shù)領(lǐng)域也算十分高昂。從競(jìng)價(jià)廣告的邏輯來(lái)看,其出價(jià)更高也意味著將分到更多的流量。不過(guò)也許對(duì)于Kimi來(lái)說(shuō)是值得的,畢竟其核心受眾群體跟B站用戶重合度也比較高。

而在視頻生成AI這個(gè)賽道,可靈AI掌握的也是內(nèi)容模式的先手優(yōu)勢(shì)。

實(shí)際上,目前市面上早已不缺某個(gè)特定模式下的AI視頻生成應(yīng)用,例如此前很火的各種AI動(dòng)畫(huà)風(fēng)格,瞬息全宇宙風(fēng)格,各種日漫游戲風(fēng)格,以及靜態(tài)人物照片生成某個(gè)特定動(dòng)態(tài)表情的應(yīng)用等……這些應(yīng)用往往體量小,更加容易達(dá)成商業(yè)化。比如現(xiàn)在抖音用戶正在嘗試的“AI擁抱”——輸入兩個(gè)人單獨(dú)的照片,即可生成二者擁抱的動(dòng)態(tài)視頻。

據(jù)悉,這個(gè)功能來(lái)自一個(gè)叫做魅臉的小程序。而該小程序商業(yè)化方式十分粗暴,安卓端生成三次擁抱視頻收費(fèi)9.9元。并且不管是抖音還是快手上都有這個(gè)小程序。

但顯然,以上這些AI視頻內(nèi)容模式都無(wú)法徹底給業(yè)內(nèi)帶來(lái)震撼,僅可作為C端用戶的日常娛樂(lè)消遣。而抖音用戶相比起快手用戶也更愛(ài)探討生成這類生成AI相關(guān)的內(nèi)容(以兩個(gè)平臺(tái)月活用戶和AI話題瀏覽量的比值差距得出)。

不知是否有受到自身平臺(tái)這些視頻內(nèi)容模式的影響,不管是如今社交媒體上的一些測(cè)評(píng)結(jié)果,還是《新立場(chǎng)》自主測(cè)評(píng)結(jié)果來(lái)看,即夢(mèng)AI生成的內(nèi)容確實(shí)在某些特定的底圖和描述詞之下表現(xiàn)更佳;而更多時(shí)候,快手的可靈AI生成的視頻,物體動(dòng)態(tài)和光影更自然,畫(huà)面質(zhì)感更佳。不過(guò)在移動(dòng)端,可靈AI生成內(nèi)容的速度要慢于即夢(mèng)AI。

以上兩個(gè)視頻是同一張鮮花照片作為底圖,輸入同樣的描述詞過(guò)后兩個(gè)AI各自生成的效果。即夢(mèng)AI的生成內(nèi)容更奔放更有動(dòng)畫(huà)感,可靈AI則是更克制更有靈氣的影像感,目前的輿論也確實(shí)更偏向于認(rèn)可后者這種自然的影像風(fēng)格。

也就是說(shuō),可靈AI也許跟 Kimi 一樣,提前想清楚了自己首先要服務(wù)的那部分核心用戶以及內(nèi)容模式——對(duì)影像有更高要求的人群,并預(yù)想到了只有這種內(nèi)容模式才能夠給業(yè)內(nèi)帶來(lái)一些新的變數(shù)。

這時(shí)再看抖音方公布即夢(mèng)AI這個(gè)中文名字時(shí),快手的可靈AI很可能已經(jīng)在為上線做準(zhǔn)備了。

03、寫(xiě)在最后

不過(guò),由于抖快各自掌握著流量龐大的視頻內(nèi)容宣發(fā)渠道,所以如果有一天抖音的即夢(mèng)AI生成的內(nèi)容確實(shí)明顯更讓用戶驚嘆,倒也不難通過(guò)自身平臺(tái)向用戶傳遞這一信息。

正如一些特定的小程序或AI應(yīng)用一樣,此前僅僅一個(gè)熱門(mén)挑戰(zhàn),熱門(mén)視頻,就可以掀起新的一輪圖生視頻浪潮,即夢(mèng)AI當(dāng)然也可以用自身平臺(tái)的優(yōu)勢(shì)達(dá)到口碑反轉(zhuǎn),只是可能很難再以原本動(dòng)畫(huà)風(fēng)格的內(nèi)容形式出圈,用戶可能正在對(duì)這些動(dòng)畫(huà)風(fēng)格的生成內(nèi)容失去新鮮感(并且動(dòng)畫(huà)方向的版權(quán)問(wèn)題更大)。

所以即夢(mèng)AI接下來(lái)需要繼續(xù)發(fā)力的點(diǎn),也許就是可靈AI的影像風(fēng)格。

此外,即便Kimi、阿里、百度等大廠主導(dǎo)的聊天機(jī)器人這個(gè)賽道目前還算是和平共處,但快手和抖音帶起的AI視頻生成浪潮效果卻是立竿見(jiàn)影,更考驗(yàn)?zāi)P捅旧淼膬?nèi)容生成質(zhì)量和進(jìn)化速度,接下來(lái)其他大模型廠商很有可能也會(huì)加入到這場(chǎng)AI生成視頻的競(jìng)爭(zhēng)中。

按照本文的邏輯,有著視頻號(hào)同時(shí)也有強(qiáng)大配套娛樂(lè)產(chǎn)業(yè)的騰訊,在傳統(tǒng)互聯(lián)網(wǎng)大廠中似乎更有優(yōu)勢(shì),但那就是后話了。

作者?|?X X 編輯 | 王威

本文由人人都是產(chǎn)品經(jīng)理作者【新立場(chǎng)】,微信公眾號(hào):【新立場(chǎng)Pro】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!