久久精品无码一区二区三区不卡,精品国产一区二区麻豆

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

抖音快手戰火燒到AI

虎嗅

2024-06-10

0 評論 1923 瀏覽 4 收藏

17 分鐘

本文主要講述了短視頻平臺抖音和快手在人工智能(AI)視頻生成技術的競爭日益激烈，雙方都在加大對此領域的研發投入，期望通過AI技術吸引更多創作者并提升用戶體驗。

“追趕”OpenAI的中國公司們，步子邁得越來越大了。

6月6日，快手發布了AI視頻生成模型“可靈”，視頻生成時長直接趕超Sora達到了120秒，且已在快影App中對創作者開放邀測。過去幾天中，一些自稱獲得測試資格的博主po出了他們使用“可靈”直出的AI視頻，一直不太高調的快手AI在海內外社交媒體迅速出圈。

在Sora剛剛推出的時候，其生成的視頻時長和效果被一些創作者認為非常適合短視頻創作，很可能會給今天的短視頻行業帶來顛覆，還引發了“Sora殺死剪映”的熱議。

如今，Sora尚未對剪映出手，但抖音的老對手快手卻正在借助“可靈”在AI視頻生成賽道給快影上提速。對于5月中旬剛剛推銷過一波AI大模型產品的抖音集團而言，與快手的戰火正在燒向AI。

一、內容之爭是根本

在Sora對標大戰中，快手發力AI的戰術目標，更像是要繞到對手身后圍繞“內容創作者資源”展開一場“偷襲”。

說到短視頻平臺對AI視頻生成技術上的關注，就不得不分析一下AI生成的視頻內容，對于用戶的價值，以及這些內容對用戶的影響心智。

“Sora類模型生成的內容最大的問題是‘聽起來很酷’?！盇I類視頻創作者阿達（化名）告訴虎嗅，粉絲需要的是有新鮮感或者有情緒價值、內容價值的視頻，Sora類視頻的特點是“逼真”，但只是模仿真實世界的AI視頻，不管是開汽車還是東京漫步，對于用戶來說基本上提供不了任何價值，而新鮮感也會很快淡化。

“你第一次刷到AI視頻，一個老虎邁著有點畸形的步伐往前走，你可能覺得有趣。但你刷到第二條類似內容時大概率就不會停留了?！卑⑦_認為，有那么多有趣的“真”視頻，用戶為什么要花時間去看AI生成的“假”視頻。

很多短視頻平臺對AI視頻的態度亦是如此——從用戶視角去判斷價值。

多位AI視頻和數字人內容創作者對虎嗅表示，有些視頻平臺似乎不鼓勵AI合成內容，這類視頻分到的流量不多，有的甚至會被限流。

除此之外，AI內容的真實、安全性亦是平臺要考慮的問題。AI換臉、造假，以及各種深度偽造的詐騙案件屢見不鮮，如果大量逼真的AI合成視頻涌入平臺，很可能會給視頻平臺帶來更大的甄別壓力。目前，各大內容平臺都有相關限制，AI生成內容均會標注“作品疑似AI合成，請謹慎甄別”。

不過，對于快手來說，AI視頻模型的價值可能并不在用戶側。

多年以來，快手一直試圖調整自己與抖音在用戶畫像上的差異，并適度淡化“下沉”標簽，而這就意味著快手需要豐富“內容供給”，擴大內容種類、風格，而關鍵資源正是創作者。目前來看，在快影當中提供AI生成視頻功能，很可能是吸引優秀創作者的一個好方法。

截至發稿，快影App中顯示的“可靈”內測申請人數已超40000。據虎嗅了解，其中相當多的申請者是創作者和創作團隊。從目前來看，“可靈”無疑是給快影做了一波大營銷。

此外，AI視頻生成功能還能拉攏更多“新生”的創作者力量。

某MCN機構負責人告訴虎嗅，從過去一年短視頻平臺的熱點內容看，未來一段時間里平臺對高質量內容的判斷大概會聚焦在以下方面：能夠引起廣泛用戶參與、與文化自信和教育相關、具有社會責任感、提供實用信息、娛樂性強、能夠激發UGC創作，以及能夠建立個人品牌和影響力。

AI視頻生成功能簡化了視頻制作流程，在“引起廣泛用戶參與、激發UGC創作”這兩方面能起到積極作用。對于創作者來說，一方面能夠幫助傳統圖文創作者基于已有內容做視頻創作，加速內容遷移。另一方面也可以降低普通用戶參與視頻創作的門檻。

在短視頻之爭中，其他短視頻平臺玩家似乎也關注到了AI視頻的創作者邏輯，正在持續加碼AI視頻模型。

5月中旬召開的騰訊云產業峰會上，騰訊首次公布了混元的16秒視頻生成能力，并提出2-3個月內開放文生視頻API接口的計劃，以及2024年第三季度視頻生成時長突破30秒的目標（在騰訊云的一次媒體溝通會中，混元大模型相關負責人曾表示年內可以達到60秒）。

相比抖音和快手，視頻號的優勢是龐大的用戶規模，眼下的短板之一則是內容供給豐富度，然而視頻號在內容廣度和深度方面仍與抖音和快手存在明顯差距。短視頻和直播平臺的內容質量對培養用戶習慣和增加使用時長至關重要，同時龐大的內容庫也是平臺變現的基礎。

如此看來，視頻號遇到的挑戰和機會似乎與快手暗合，都是要加速吸引站外創作者來豐富內容生態，并促進現有優質圖文創作者向視頻遷移。

二、AI競賽中的成本思考

過去一年多時間里，抖快在AI領域的“軍備大賽”有日漸升溫趨勢。

抖音集團關于AI的動作和傳聞一直沒斷過，從10億美元購買GPU，到利用API“扒“ChatGPT數據，再到豆包在國內AI應用榜奪冠，抖音集團一直是AI行業里低調的明星。反觀快手，在生成式AI方面的動作卻似乎不多，首個自研大模型“快意”直到2023年底，才加入到第三批網信辦大模型備案。

在AI視頻方面，抖音集團雖然沒有Sora類的強大AI視頻生成模型，但也發布了PixelDance、MagicVideo、AnimateDiff-Lightning等視頻模型，目前抖音集團也有專門的AIGC產品即夢（Dreamina），可以完成一些短視頻生成功能。

除了AI模型和產品方面的研究，抖音集團在基礎設施方面投入巨大。在前面提到的10億美金采購GPU傳聞外，抖音集團旗下的火山引擎，在當下的國產大模型價格戰中，亦是“打響第一槍”的廠商。快手的云基礎設施關注范圍則相對較小，以音視頻和AI領域為主。

在AI視頻方面，快手的進程也不高調，但并非風平浪靜。2024年5月初，快手專家研究員王鑫濤曾在一次學術會議中做過一次題為《視頻生成的初探及可控性研究》的分享，其中就提到了快手的視頻生成方案Tune-A-Video。技術tips：Tune-A-Video的關鍵是“時空自注意力機制”。這種技術可以結合空間（圖像）和時間（視頻幀序列）上的信息，以提高視頻生成和處理的效果。假設視頻內容是一只小狗在草地上跑。時空自注意力機制的工作過程是：

空間自注意力會分析每一幀中小狗身體的各個部分，例如頭、腿、尾巴之間的關系。時間自注意力會關注每一幀中小狗的位置和姿勢變化，確保小狗在跑步的過程中動作是連貫的，不會出現瞬間移動或姿勢不連貫的現象。綜合考慮這些信息后，模型能夠生成一個流暢、自然的跑步小狗的視頻，即使用戶修改了小狗的顏色或背景場景，生成的視頻仍能保持運動的一致性和視覺上的連貫性。

技術之爭的背后，一定潛藏著對未來商業化的謀篇布局。然而AI技術如何商業化，目前仍是短視頻以及很多行業討論的核心問題之一。

AI視頻模型要商業化至少需要解決兩個問題，第一是技術層面的視頻生成質量和效率，第二是成本。

從Runway、Pika等AI公司的3、4秒視頻模型，到OpenAI推出Sora，很多業內人士也沒想到技術發展會如此之快。Sora之后，各家AI公司的追趕速度更是令人咋舌。

“AI生成視頻的質量可能不會長期困擾行業，但成本問題很難解決?！币晃魂P注AI視頻的投資人告訴虎嗅，視頻模型的算力需求比語言模型大很多，優化的難度也更高?！皬腃hatGPT和Sora的開放程度就能看出來，ChatGPT可以開放給億級用戶，而Sora至今只有少數人試過?！?/p>

主流猜測認為Sora 模型參數量約為30億，其訓練數據可能包括過去五年的 YouTube 所有視頻。投資機構Factorial Funds 發表的一篇博文分析認為，Sora模型的一次訓練大概需要4200~10500塊英偉達H100 GPU 訓練1個月。

30億參數相比于GPT-4的1.8萬億參數，訓練成本會低很多。然而視頻模型與語言模型相比，更大的開支在推理端。

舉個例子，要生成一個2分鐘的視頻，在不考慮視頻的連貫性和時空一致性的情況下，把AI視頻拆成一幀一幀的圖片。

按照某國內AI公司最近公布的AI圖片生成最大折扣價算，生成1張圖片的價格最低0.06元，1秒25幀，花費1.5元，120秒的視頻成本為180元。

以快手開啟的“可靈“邀測為例，假設“可靈”上線后3天內的內測申請者全部通過，每人每天試驗20分鐘視頻，則每天的測試開銷約7200萬元?？焓?024Q1期內利潤41億元，如果要滿足全部“可靈”測試需求的話，2個月可能就要面臨虧損了。

這還只是按生成單張圖片計算的價格，如果要保證這25幀圖片連續一致，價格會成倍上漲。一位AI視頻模型開發者告訴虎嗅，AI視頻生成的難點在于保持多個圖片的一致性，相比于普通的AI圖片生成，算力消耗和成本會大幅提升。

現階段要大規模實現AI視頻生成的商業化落地，推理成本更是天文數字。

Factorial Funds在Sora分析博文中提到，目前TikTok每天上傳的視頻總時長約1700萬分鐘，YouTube為4300萬分鐘。

假設AI視頻模型真的成為生產力，可能會滲透到50%的TikTok短視頻和15%的YouTube視頻中，這樣的滲透率之下，峰值算力需求可能達到72萬塊H100 GPU。按目前國內的GPU價格，每天的成本將超過千億。

不過，這種試算在今天看來其實意義不大。AI視頻模型要真的大規模滲透，模型成本和效率可能需要比今天低幾個數量級。到時候全球市場上主流GPU的算力如何，使用成本如何也是未知數。

三、抖快之外，創業公司也在入局

6月6日奇績創壇2024春季創業營路演上半場的最后一個項目極佳科技，展示了一款AI視頻生成大模型“視界、一粟YiSu”。極佳科技的視頻展示

這款模型生成視頻的原生時長為16秒，最長可達1分鐘，據極佳科技介紹，該模型對算力需求不高，已經可以實現“端側”運行，相關應用接近Sora效果。

項目介紹結束，現場數百位投資人罕見地爆發了喝彩和掌聲，資本對AI視頻生成技術的關注仍在持續發酵。

在天使輪的極佳科技路演同天，AI視頻生成技術的主力生數科技和Pika，先后宣布了最新融資，兩家公司融資額不相上下，生數科技宣布獲得數億元人民幣，Pika則籌集到8000萬美元。

AI視頻模型公司的研究大多集中在提高視頻質量和降低推理成本。多數研發AI視頻生成模型的團隊均表示已經在工程方面有所突破，算力需求正在下降。生數科技CEO唐家渝則表示，“生數科技的團隊已經積累了完整高效的工程化經驗，擁有在大規模GPU集群上實現高效兼容、低成本的模型訓練經驗。”目前生數科技和清華大學聯合開發的模型Vidu視頻生成時長已達到32秒。

在抖快這樣的短視頻巨頭的競爭中，獨立AI公司的優勢在于早期的技術積累和更“輕快”的開發模式。

然而這些公司目前的融資規模和當前的市場體量匹配度并不高，如果AI視頻模型真要落在短視頻這樣的ToC賽道的話，獨立AI公司在沒有巨大技術突破的情況下，很可能會傾向于“擇木而棲”。

巨頭們對于這些AI公司的態度也在逐漸曖昧。

細看生數科技的這輪融資，其中新增了百度。雖然生數科技的早期投資人中有百度風投的身影，但百度風投與百度之間其實只是VC和LP的關系，而百度在過去一年多里對模型公司“親自”出手，只有生數科技這一次。

雖然百度在剛剛推出文心大模型后不久，就提出過一些Text2Video的相關模型和技術，并演示了AI文生視頻功能，但后續一直沒有正式發布相關模型或產品。

目前，包括硅谷巨頭在內的多數平臺型大公司在AI視頻模型方面均沒有公布過大額投入。

作者｜齊健
編輯｜苗正卿
本文由人人都是產品經理作者【虎嗅】，微信公眾號：【虎嗅APP】，原創/授權發布于人人都是產品經理，未經許可，禁止轉載。

題圖來自Unsplash，基于 CC0 協議。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App