視頻生成大模型賽道,只是看上去擁擠
“視頻生成大模型賽道,競爭格局初現?!?在 AI 技術飛速發展的當下,視頻生成大模型領域備受矚目。各企業紛紛布局,究竟誰能脫穎而出?
2024年最后一個月,國產大模型落地應用突然加速。尤其視頻生成模型,就像密集射出子彈后的槍管,熱得發燙。
12月19日,快手可靈更新了1.6模型,相比兩周前高調擴散AI導演共創計劃,這個動作顯得安靜很多。但是快手選擇升級模型的這個時間點,似乎有些深意。
因為一天前的12月18日,字節火山原動力大會,第一次對外發布豆包視頻生成大模型。同時張楠從抖音來到剪映成為掌門人之后,首次對外亮相。她簡短介紹了今年5月份就推出的即夢,一款跟可靈類似的視頻生成工具。
會上,張楠給出即夢的明確含義:想象力相機,以此對應抖音的現實相機。但是她沒有講太多產品細節,只是播放了兩個樣片。她說產品和技術都還在早期階段。
這可能是避免外界將即夢和一周前公布的Sora Turbo做直接對比。
OpenAI年底為期12天的直播,重頭戲是在12月10日,長達10個月的鋪墊之后,Sora終于揭開面紗。
其中最大亮點是「故事板」(view story)功能,提示詞可以直接轉化劇本。此外新版Sora視頻生成速度更快,編輯功能更實用。為此,用戶每月要付出200美元的成本。所以雖然產品發布當天,服務器被海量流量沖擊崩潰,但吐槽聲音不斷。
不管怎樣,在大模型先鋒OpenAI之后發布產品總是壓力不小,除非有更驚喜強大的產品亮點,否則容易黯然失色。
因此,騰訊混元在12月初就搶先一步推出視頻生成大模型,且將應用名字稱作「元寶」。不過,相比Sora、可靈、即夢等既能文生視頻也能圖生視頻的工具,騰訊混元目前只能文生視頻。
問題在于,目前大模型對語義理解水平能力有限,所有文生視頻的應用效果遠遠達不到令人滿意的地步,也很難吸引AGIC創作者積極使用。
騰訊自然是明白的。所以產品發布當天,開源是騰訊積極釋放的信號。
雖然國產視頻生成應用也近10多款,從過去20天的情況來看,國產視頻生成模型還是掌握在大公司手里,這不僅跟大模型水平、算力有關,視頻數據積累更是決定性因素。而且大模型早期彌漫的一種FOMO情緒(Fear of Missing Out),此刻依然有跡可循。
只是正如張楠所說,產品和技術還處在早期。如果你了解到現在的AI視頻是怎么做出來的,就不會被渲染的畫面迷惑,只是發出一聲驚嘆。
此刻僅僅是發令槍響起,不要太早下結論。
一、圖生視頻是主流?
在我們接收到的信息中,大模型生成視頻似乎易如反掌,一段文字還你一段視頻,且效果比肩影視大片。人人都是大導演,近在遲尺。
事實是,AI視頻的確降低了生產門檻,只是那些制作精良的廣告宣傳片、短劇類AI視頻,還是少數人掌握的技能。
有必要先講下一個2分鐘的AI短片是怎么做出來的。
首先,跟傳統創作類似,創作者要先拿出腳本,只不過是基于AI能力可以實現的內容。這個步驟是可以借助AI工具,ChatGPT、Kimi和智譜清言是被提及最多的。
其次,根據視頻腳本拆解細化的分鏡內容,創作者用AI文生圖工具將分鏡先以靜態圖的方式展現。
如果是有專業或者商業要求,比如廣告,宣傳片,短劇等,希望達到傳統拍攝的專業與合理性,在將靜態分鏡圖轉成視頻之前,需要創作者將生成的靜態圖進行PS后期及圖片超分辨率處理來提高圖片的原始質量,以次保證圖生視頻的質量基礎。
之后,將這些圖片給到AI視頻工具進行動態分鏡生成。Sora的720p單次可以生成最長20秒的視頻,國產大模型一次都只能生成5-10秒的視頻。
需要注意的是,除了Sora,國產AI還做不到基于生成視頻進行修改編輯,所以一個5-6秒的視頻需要多次生成才能拿到滿意結果也是有可能的。
現在我們看到的2-3分鐘AI視頻,絕大部分都是圖生視頻,而且原料是經過專業處理的圖片,需要多次續寫并配合后期剪輯而成。
雖然目前國產視頻生成模型中,只有騰訊混元是免費的,沒有收費項目,但文生視頻依然面臨激勵創作者使用的障礙(今年5月份騰訊生成式AI產業峰會上,騰訊公布的多模態能力中,其中提到混元支持圖文等形態生成視頻能力,只是還沒有圖生視頻的落地應用):
首先是大模型語義理解能力局限,視頻最終呈現的是不是文字描述的東西,以及是不是符合創作者腦海設想的畫面?
其次在于一致性。比如,你希望以「一個穿著淡黃色長裙的女生」為主角,生成一個長1-2分鐘的連續視頻。
按照現在大模型能力,你可能要不斷續寫幾十次甚至上百次才有可能最終實現。但是可能你每次文字輸入生成的視頻中,這個女生的五官和穿的長裙款式都不一樣,五官可能存在年齡與樣貌偏差,服裝顏色可能是淺黃、深黃或是橙黃,這就是一致性問題。
但是圖生視頻可以提前確定統一色調,在圖片處理方面配合Comfy UI(一款基于節點工作流穩定擴散算法的圖形界面)的換臉、換服裝等功能做到人物一致性。
文生視頻也不是被束之高閣,如果你要的就是短短五六秒的東西,或者一鍵讓靜圖活動起來,使用門檻要更低一些。在文生視頻領域,尚在內測階段的騰訊混元(一天只能測試6次)的確是超出現在行業平均水平的。
騰訊混元文生視頻,提示詞為:煙花綻放/開篇:夜空中一道火光劃破黑暗,煙花升空。高潮:煙花在空中瞬間綻放,色彩斑斕,畫面以慢動作和高速攝影交替展現。結尾:煙花逐漸消散,夜空恢復平靜,留下點點星光,寓意瞬間的美好。
但是也有創作者有過新的嘗試,《烈焰天街》是作者夢羅浮創作的一部AI電影,全片660個鏡頭,其中70%是文生視頻,每個鏡頭需要200-300字的提示詞。他在分享創作心得時解釋,「之所以用文生視頻做主體創作,因為它表情和肢體動作比圖生視頻真實?!?/p>
他提到,即夢文生視頻效果很像圖生視頻,「放眼望去,人人都是主演,多人內容場景模型不崩壞」。
即夢文生視頻,提示詞同樣為:煙花綻放/開篇:夜空中一道火光劃破黑暗,煙花升空。高潮:煙花在空中瞬間綻放,色彩斑斕,畫面以慢動作和高速攝影交替展現。結尾:煙花逐漸消散,夜空恢復平靜,留下點點星光,寓意瞬間的美好。
不管怎樣,現在看到絕美或是接近物理現實的AI視頻,是少數懂得設計、審美,熟練操作各種工具的專業人士做出來的。你也可以理解為,這些人是AI視頻的種子用戶。一年前,他們中大部分是AI繪畫工具的熟練掌握者,活躍在小紅書平臺。
因此,相比豆包、Kimi等AI對話類產品上來就海量投放轉化的動作,可靈、即夢前期更多是在盡可能網羅種子用戶的參與,激勵他們創作更多作品,各個社群這些創作者都是被爭取的對象。其中一些敏銳的創作者,靠售賣AIGC培訓教程,抓住了一波變現紅利。
成為各個應用的超創,創作者可以有機會獲得平臺推送的商單,免費積分,包括于電視臺合作的支持。但可能平臺也會要求超創每月輸出一定的視頻創作,甚至免費配合產品宣講教程。?????????????????????????????????
從大廠的一些動作也透露出應用在引導的用戶群體和使用場景。
可靈從影視專業人員群體攻入,之前他們也提出AI+短劇的計劃,意圖就是在影視、廣告、游戲等領域嫁接AI。自上而下滲透的意圖顯而易見。
騰訊混元在介紹中就明確提出,可在工業級商業場景例如廣告宣傳、動畫制作等場景。騰訊廣告妙思平臺就已經接入文生圖模式,降低廣告主的創作門檻。
二、看不見的決定因素
盡管即夢和可靈具備圖生視頻的能力,已經占據一定的用戶心智,但對于他們而言,依然前路漫漫。
除了我們所能感知到的產品特征和差異,國產AI視頻應用的底層模型架構,有很大的相似性。
騰訊混元和快手可靈都是采用了跟Sora類似的DiT(Diffusion Transformer)模型架構。包括MiniMax的海螺AI也是如此選擇。???
一種觀點認為,與OpenAI其他產品不同,在算力充足的前提下,DiT架構路徑復刻難度相對較低。這也是國產視頻生成大模型在短短幾個月,布局速度和落地結果超出預期的原因。
但是接下來在一些關鍵性問題解決上,就看各家公司的底層優化能力和數據訓練結果。????
AGIC創作者溫維斯Wenvis告訴新莓daybreak,他對AI視頻應用實現的結果有兩個期望:一是快速展現出自己腦海的想法,且跟預期是比較相符的;二是成為自己的靈感激發器,不一定是成品,但想法會被啟發或提升。
在可靈發起的AI導演共創計劃中,溫維斯是導演王子川的AI合作者,他們共同創作了《雛菊》,前期一個基本想法就是,盡量避開AI不擅長的地方。
就目前而言,視頻生成模型共同努力方向有幾個:一致性,視覺真實度,動態幅度,提示詞的語義理解能力等。
比如盡管很多產品宣稱一致性表現不錯,但幾乎所有公司都還在默默努力。只有創業公司生數科技曾在今年9月高調發布所謂「全球首個支持多主體一致性的多模態大模型」,公司旗下產品Vidu現在已經開放使用,測評反饋在2D及多主體一致上表現不錯,缺點是畫面太糊,即使是會員可以享受高分辨率的用戶也依然存在這個問題。
再比如,不論國內國外,AI視頻軟件的動態幅度都有待提升。最基本的人物開口說話,做一些特定的肢體動作,比如武術,運動體操這類大幅動作,目前所有工具表現都不盡如人意。
導演俞白眉接觸AI最想探索的就是與動作連接的部分,他知道AI在規定鏡頭的運動方面,不是強項,也不擅長真人動作。但他還是積極參與了可靈的導演計劃,希望嘗試創作出一些之前沒有見過的動作片段。
談及整個創作過程,他說一言難盡,結果也差強人意,「這些作品都是涂鴉」。但他也提到,中間有趣味存在,學到了很多東西。
俞白眉的體感可能會得到不少共鳴。所以,創作者會根據不同題材,不同需求,使用不同的AI視頻工具。也許個人創作偏好會導致他使用某個工具多一些,但現在遠不到哪款產品形成絕對優勢的地步。
國產AI生成視頻應用,快手旗下的可靈是唯一公布過數據的。
快手第三季度財報發布時,可靈9月份月活超150萬。到了12月10日,累計用戶數達到600萬,生成視頻數量為6500萬,圖片超1.75億張??焓诌€公布過商業化成績,單月流水超過千萬元,據說為此內部還切蛋糕,小小慶祝了一下。
可靈是國產大模型生成視頻動作相對較快的一個,有種搶跑加速的焦慮感。
今年6月產品上線,當月就推出圖生視頻,以及續寫視頻,從一開始的最長2分鐘延伸至3分鐘。而且很早就明確跟短劇、影視相結合,可靈生成最早流傳到海外的視頻還被馬斯克看到并點評。
即夢推出時間比可靈要更早,對外釋放的信息和動作沒有可靈頻繁。但是因為字節AI部署能力和廣泛用戶基礎,即夢在創作者群體的呼聲也很高。
葉錦添有兩句話說得非常好:如果用3D傳統的方式,每次想試一樣東西都要花同樣的時間,但AI是不用的。這給了我不同的速度感,我就開始去領會,AI會影響我怎么看這個世界。他還說,AI有時候走得比我們快,所以有可能帶來另外一種經驗。
AI一天,人間一年。
撰文|翟文婷
本文由人人都是產品經理作者【新莓daybreak】,微信公眾號:【新莓daybreak】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
- 目前還沒評論,等你發揮!