欧美亚洲国产精品久久高清,影音先锋色成人资源网站,亚洲最大av无码网站最新

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

視頻生成大模型賽道，只是看上去擁擠

新莓daybreak

2024-12-23

0 評論 417 瀏覽 1 收藏

17 分鐘

“視頻生成大模型賽道，競爭格局初現?！?在 AI 技術飛速發展的當下，視頻生成大模型領域備受矚目。各企業紛紛布局，究竟誰能脫穎而出？

2024年最后一個月，國產大模型落地應用突然加速。尤其視頻生成模型，就像密集射出子彈后的槍管，熱得發燙。

12月19日，快手可靈更新了1.6模型，相比兩周前高調擴散AI導演共創計劃，這個動作顯得安靜很多。但是快手選擇升級模型的這個時間點，似乎有些深意。

因為一天前的12月18日，字節火山原動力大會，第一次對外發布豆包視頻生成大模型。同時張楠從抖音來到剪映成為掌門人之后，首次對外亮相。她簡短介紹了今年5月份就推出的即夢，一款跟可靈類似的視頻生成工具。

會上，張楠給出即夢的明確含義：想象力相機，以此對應抖音的現實相機。但是她沒有講太多產品細節，只是播放了兩個樣片。她說產品和技術都還在早期階段。

這可能是避免外界將即夢和一周前公布的Sora Turbo做直接對比。

OpenAI年底為期12天的直播，重頭戲是在12月10日，長達10個月的鋪墊之后，Sora終于揭開面紗。

其中最大亮點是「故事板」（view story）功能，提示詞可以直接轉化劇本。此外新版Sora視頻生成速度更快，編輯功能更實用。為此，用戶每月要付出200美元的成本。所以雖然產品發布當天，服務器被海量流量沖擊崩潰，但吐槽聲音不斷。

不管怎樣，在大模型先鋒OpenAI之后發布產品總是壓力不小，除非有更驚喜強大的產品亮點，否則容易黯然失色。

因此，騰訊混元在12月初就搶先一步推出視頻生成大模型，且將應用名字稱作「元寶」。不過，相比Sora、可靈、即夢等既能文生視頻也能圖生視頻的工具，騰訊混元目前只能文生視頻。

問題在于，目前大模型對語義理解水平能力有限，所有文生視頻的應用效果遠遠達不到令人滿意的地步，也很難吸引AGIC創作者積極使用。

騰訊自然是明白的。所以產品發布當天，開源是騰訊積極釋放的信號。

雖然國產視頻生成應用也近10多款，從過去20天的情況來看，國產視頻生成模型還是掌握在大公司手里，這不僅跟大模型水平、算力有關，視頻數據積累更是決定性因素。而且大模型早期彌漫的一種FOMO情緒（Fear of Missing Out），此刻依然有跡可循。

只是正如張楠所說，產品和技術還處在早期。如果你了解到現在的AI視頻是怎么做出來的，就不會被渲染的畫面迷惑，只是發出一聲驚嘆。

此刻僅僅是發令槍響起，不要太早下結論。

一、圖生視頻是主流？

在我們接收到的信息中，大模型生成視頻似乎易如反掌，一段文字還你一段視頻，且效果比肩影視大片。人人都是大導演，近在遲尺。

事實是，AI視頻的確降低了生產門檻，只是那些制作精良的廣告宣傳片、短劇類AI視頻，還是少數人掌握的技能。

有必要先講下一個2分鐘的AI短片是怎么做出來的。

首先，跟傳統創作類似，創作者要先拿出腳本，只不過是基于AI能力可以實現的內容。這個步驟是可以借助AI工具，ChatGPT、Kimi和智譜清言是被提及最多的。

其次，根據視頻腳本拆解細化的分鏡內容，創作者用AI文生圖工具將分鏡先以靜態圖的方式展現。

如果是有專業或者商業要求，比如廣告，宣傳片，短劇等，希望達到傳統拍攝的專業與合理性，在將靜態分鏡圖轉成視頻之前，需要創作者將生成的靜態圖進行PS后期及圖片超分辨率處理來提高圖片的原始質量，以次保證圖生視頻的質量基礎。

之后，將這些圖片給到AI視頻工具進行動態分鏡生成。Sora的720p單次可以生成最長20秒的視頻，國產大模型一次都只能生成5-10秒的視頻。

需要注意的是，除了Sora，國產AI還做不到基于生成視頻進行修改編輯，所以一個5-6秒的視頻需要多次生成才能拿到滿意結果也是有可能的。

現在我們看到的2-3分鐘AI視頻，絕大部分都是圖生視頻，而且原料是經過專業處理的圖片，需要多次續寫并配合后期剪輯而成。

雖然目前國產視頻生成模型中，只有騰訊混元是免費的，沒有收費項目，但文生視頻依然面臨激勵創作者使用的障礙（今年5月份騰訊生成式AI產業峰會上，騰訊公布的多模態能力中，其中提到混元支持圖文等形態生成視頻能力，只是還沒有圖生視頻的落地應用）：

首先是大模型語義理解能力局限，視頻最終呈現的是不是文字描述的東西，以及是不是符合創作者腦海設想的畫面？

其次在于一致性。比如，你希望以「一個穿著淡黃色長裙的女生」為主角，生成一個長1-2分鐘的連續視頻。

按照現在大模型能力，你可能要不斷續寫幾十次甚至上百次才有可能最終實現。但是可能你每次文字輸入生成的視頻中，這個女生的五官和穿的長裙款式都不一樣，五官可能存在年齡與樣貌偏差，服裝顏色可能是淺黃、深黃或是橙黃，這就是一致性問題。

但是圖生視頻可以提前確定統一色調，在圖片處理方面配合Comfy UI（一款基于節點工作流穩定擴散算法的圖形界面）的換臉、換服裝等功能做到人物一致性。

文生視頻也不是被束之高閣，如果你要的就是短短五六秒的東西，或者一鍵讓靜圖活動起來，使用門檻要更低一些。在文生視頻領域，尚在內測階段的騰訊混元（一天只能測試6次）的確是超出現在行業平均水平的。

騰訊混元文生視頻，提示詞為：煙花綻放/開篇：夜空中一道火光劃破黑暗，煙花升空。高潮：煙花在空中瞬間綻放，色彩斑斕，畫面以慢動作和高速攝影交替展現。結尾：煙花逐漸消散，夜空恢復平靜，留下點點星光，寓意瞬間的美好。

但是也有創作者有過新的嘗試，《烈焰天街》是作者夢羅浮創作的一部AI電影，全片660個鏡頭，其中70%是文生視頻，每個鏡頭需要200-300字的提示詞。他在分享創作心得時解釋，「之所以用文生視頻做主體創作，因為它表情和肢體動作比圖生視頻真實?！?/p>

他提到，即夢文生視頻效果很像圖生視頻，「放眼望去，人人都是主演，多人內容場景模型不崩壞」。

即夢文生視頻，提示詞同樣為：煙花綻放/開篇：夜空中一道火光劃破黑暗，煙花升空。高潮：煙花在空中瞬間綻放，色彩斑斕，畫面以慢動作和高速攝影交替展現。結尾：煙花逐漸消散，夜空恢復平靜，留下點點星光，寓意瞬間的美好。

不管怎樣，現在看到絕美或是接近物理現實的AI視頻，是少數懂得設計、審美，熟練操作各種工具的專業人士做出來的。你也可以理解為，這些人是AI視頻的種子用戶。一年前，他們中大部分是AI繪畫工具的熟練掌握者，活躍在小紅書平臺。

因此，相比豆包、Kimi等AI對話類產品上來就海量投放轉化的動作，可靈、即夢前期更多是在盡可能網羅種子用戶的參與，激勵他們創作更多作品，各個社群這些創作者都是被爭取的對象。其中一些敏銳的創作者，靠售賣AIGC培訓教程，抓住了一波變現紅利。

成為各個應用的超創，創作者可以有機會獲得平臺推送的商單，免費積分，包括于電視臺合作的支持。但可能平臺也會要求超創每月輸出一定的視頻創作，甚至免費配合產品宣講教程。?????????????????????????????????

從大廠的一些動作也透露出應用在引導的用戶群體和使用場景。

可靈從影視專業人員群體攻入，之前他們也提出AI+短劇的計劃，意圖就是在影視、廣告、游戲等領域嫁接AI。自上而下滲透的意圖顯而易見。

騰訊混元在介紹中就明確提出，可在工業級商業場景例如廣告宣傳、動畫制作等場景。騰訊廣告妙思平臺就已經接入文生圖模式，降低廣告主的創作門檻。

二、看不見的決定因素

盡管即夢和可靈具備圖生視頻的能力，已經占據一定的用戶心智，但對于他們而言，依然前路漫漫。

除了我們所能感知到的產品特征和差異，國產AI視頻應用的底層模型架構，有很大的相似性。

騰訊混元和快手可靈都是采用了跟Sora類似的DiT（Diffusion Transformer）模型架構。包括MiniMax的海螺AI也是如此選擇。???

一種觀點認為，與OpenAI其他產品不同，在算力充足的前提下，DiT架構路徑復刻難度相對較低。這也是國產視頻生成大模型在短短幾個月，布局速度和落地結果超出預期的原因。

但是接下來在一些關鍵性問題解決上，就看各家公司的底層優化能力和數據訓練結果。????

AGIC創作者溫維斯Wenvis告訴新莓daybreak，他對AI視頻應用實現的結果有兩個期望：一是快速展現出自己腦海的想法，且跟預期是比較相符的；二是成為自己的靈感激發器，不一定是成品，但想法會被啟發或提升。

在可靈發起的AI導演共創計劃中，溫維斯是導演王子川的AI合作者，他們共同創作了《雛菊》，前期一個基本想法就是，盡量避開AI不擅長的地方。

就目前而言，視頻生成模型共同努力方向有幾個：一致性，視覺真實度，動態幅度，提示詞的語義理解能力等。

比如盡管很多產品宣稱一致性表現不錯，但幾乎所有公司都還在默默努力。只有創業公司生數科技曾在今年9月高調發布所謂「全球首個支持多主體一致性的多模態大模型」，公司旗下產品Vidu現在已經開放使用，測評反饋在2D及多主體一致上表現不錯，缺點是畫面太糊，即使是會員可以享受高分辨率的用戶也依然存在這個問題。

再比如，不論國內國外，AI視頻軟件的動態幅度都有待提升。最基本的人物開口說話，做一些特定的肢體動作，比如武術，運動體操這類大幅動作，目前所有工具表現都不盡如人意。

導演俞白眉接觸AI最想探索的就是與動作連接的部分，他知道AI在規定鏡頭的運動方面，不是強項，也不擅長真人動作。但他還是積極參與了可靈的導演計劃，希望嘗試創作出一些之前沒有見過的動作片段。

談及整個創作過程，他說一言難盡，結果也差強人意，「這些作品都是涂鴉」。但他也提到，中間有趣味存在，學到了很多東西。

俞白眉的體感可能會得到不少共鳴。所以，創作者會根據不同題材，不同需求，使用不同的AI視頻工具。也許個人創作偏好會導致他使用某個工具多一些，但現在遠不到哪款產品形成絕對優勢的地步。

國產AI生成視頻應用，快手旗下的可靈是唯一公布過數據的。

快手第三季度財報發布時，可靈9月份月活超150萬。到了12月10日，累計用戶數達到600萬，生成視頻數量為6500萬，圖片超1.75億張?？焓诌€公布過商業化成績，單月流水超過千萬元，據說為此內部還切蛋糕，小小慶祝了一下。

可靈是國產大模型生成視頻動作相對較快的一個，有種搶跑加速的焦慮感。

今年6月產品上線，當月就推出圖生視頻，以及續寫視頻，從一開始的最長2分鐘延伸至3分鐘。而且很早就明確跟短劇、影視相結合，可靈生成最早流傳到海外的視頻還被馬斯克看到并點評。

即夢推出時間比可靈要更早，對外釋放的信息和動作沒有可靈頻繁。但是因為字節AI部署能力和廣泛用戶基礎，即夢在創作者群體的呼聲也很高。

葉錦添有兩句話說得非常好：如果用3D傳統的方式，每次想試一樣東西都要花同樣的時間，但AI是不用的。這給了我不同的速度感，我就開始去領會，AI會影響我怎么看這個世界。他還說，AI有時候走得比我們快，所以有可能帶來另外一種經驗。

AI一天，人間一年。

撰文｜翟文婷

本文由人人都是產品經理作者【新莓daybreak】，微信公眾號：【新莓daybreak】，原創/授權發布于人人都是產品經理，未經許可，禁止轉載。

題圖來自Unsplash，基于 CC0 協議。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

新莓daybreak

理解人，發現變化

60篇作品 149266總閱讀量

9.9買一套AI寫真，妙鴨相機能火多久？

07-256015 瀏覽

探討商業模式（2023年版）

11-072348 瀏覽

超4000萬會員，行業首推“付費會員”，深度拆解銀泰百貨會員運營體系

12-083009 瀏覽

產品運營推廣階段產品經理要做好哪些主要工作

11-153992 瀏覽

提效90%的列表，你想了解嗎？

11-234349 瀏覽

評論

目前還沒評論，等你發揮！

視頻生成大模型賽道，只是看上去擁擠

一、圖生視頻是主流？

二、看不見的決定因素

視頻生成大模型賽道，只是看上去擁擠

一、圖生視頻是主流？