AI生成大模型,是拉高天花板?還是消滅創(chuàng)作者?
隨著人工智能技術(shù)的飛速發(fā)展,AI視頻生成正成為影視行業(yè)的新寵。從Sora的震撼問世到國內(nèi)企業(yè)的紛紛揭竿而起,AI視頻生成技術(shù)正迅速改變著我們對影視內(nèi)容創(chuàng)作的認知。文章將帶您一覽國內(nèi)AI視頻生成技術(shù)的最新進展,探索這一技術(shù)如何為行業(yè)帶來革命性的變革,并分析其面臨的挑戰(zhàn)和未來的發(fā)展方向。
今年2月Sora問世后,放出了幾段文生視頻的片段,給全世界不小的震撼,僅需要一些提示詞描述或者靜態(tài)圖片,Sora就能生成超高畫質(zhì)、堪比電影質(zhì)感長達1分鐘的視頻內(nèi)容。馬斯克更是直截了當?shù)卣f:“GG human(人類認輸)?!?/p>
這直接讓國內(nèi)AI視頻生成模型企業(yè)揭竿而起,掀起一場“沒有硝煙的戰(zhàn)斗”。
時隔一個月,國內(nèi)的AI微短劇便如雨后春筍接連而至,《中國神話》、《三星堆:未來啟示錄》、《山海奇鏡之劈波斬浪》、《美猴王》、《AI看典籍》等。讓觀眾感受到中國企業(yè)不輸Sora的視頻生成模型。
誰也不打算放棄這次機會,因為這場競賽不僅代表著企業(yè)科技軟實力水平,更是一次率先插旗的機會。據(jù)《生成式AI商業(yè)落地白皮書》顯示,當前有53%的中國企業(yè)已開始有組織地進行生成式AI布局。大家都希望能技術(shù)入局分一杯羹,但真正實現(xiàn)商業(yè)轉(zhuǎn)化卻沒那么容易。
一、爭相入場AI視頻生成風頭正盛
5月開始國內(nèi)企業(yè)相繼公布自研的視頻生成模型,智譜AI的「清影」,愛詩科技發(fā)布「PixVerse V2」,生數(shù)科技上線「Vidu」,快手的「可靈 」,抖音的「即夢AI」,「美圖奇想」大模型、貓眼娛樂「神筆馬良」……一時間,視頻生成模型領(lǐng)域好不熱鬧!
其實從是2023年大模型浪潮來襲,國內(nèi)就有一批”先行者“企業(yè)率先入局視頻生成模型,智象未來、出門問問、商湯科技能,當時仍在探索階段,還有很多問題需要解決。雖然能做到文字生視頻,但只能完成簡單指令、畫質(zhì)不清晰、視覺效果不真實、內(nèi)容不連貫,無法精準控制輸出,大家還在不斷訓練升級中。
直到3月國內(nèi)首部AI全流程微短劇《中國神話》在央視頻上線播出后,大家看到國內(nèi)的技術(shù)完全不輸Sora,模型生成的分辨率、幀率和時長等水平不斷提升。隨后快手可靈推出《山海奇鏡之劈波斬浪》、抖音即夢打造《三星堆:未來啟示錄》,展示著國內(nèi)技術(shù)已經(jīng)足夠創(chuàng)作完整影視作品的能力。
圖片:《三星堆:未來啟示錄》截圖
如今輕體量的短劇,也成為視頻生成模型企業(yè)推出作品的首選方式,主要是看重,短劇的每集1-3分鐘時長、畫面沒有過高要求、視頻平臺上線門檻低、故事性要求不強的性質(zhì),這樣一來,視頻生成模型就能發(fā)揮更強的執(zhí)行力,對視頻作品有較高的完成度,最終創(chuàng)作的AI微短劇也更符合年輕化觀眾的審美興趣。
更重要的是,經(jīng)過不斷地更迭調(diào)整,相比初代的視頻生成模型技術(shù),現(xiàn)在已經(jīng)能夠在畫面中呈現(xiàn)出復雜的物理規(guī)律效果,各家平臺也具備各自的優(yōu)勢。
5月上線的「即夢」是最為大眾所知的剪映旗下產(chǎn)品,由「剪映Dreamina」改名而來,同時上線了AI作圖和AI視頻生成功能讓一波科技愛好者爭相體驗。其中圖片生成視頻的全新的視頻創(chuàng)作方式讓測試者眼前一亮,直接顛覆此前視頻創(chuàng)作的形式。
而字節(jié)跳動其實從2023年開始布局AI,并在年底11月成立了專注于 AI 創(chuàng)新業(yè)務的新部門Flow??梢哉f是國內(nèi)市場上在視頻生成模型方面最有經(jīng)驗的公司,其先后推出Boximator、即夢AI的經(jīng)驗積累和技術(shù)迭代下,9月24日在火山引擎AI創(chuàng)新巡展上,字節(jié)跳動正式宣告進軍AI視頻生成領(lǐng)域,一舉發(fā)布了豆包視頻生成-PixelDance、豆包視頻生成-Seaweed兩款大模型。相當于手握4大視頻生成模型產(chǎn)品,新推出的模型的語義理解能力大大提升,已經(jīng)能夠做到多個主體運動的復雜交互畫面,并且保證多鏡頭切換的內(nèi)容一致性,這在世界范圍來說,都是很難做到的。
6月緊隨其后的快手「可靈」其技術(shù)路線與Sora相似,效果也是直接對標Sora。這也就意味著技術(shù)水平之高,經(jīng)過4個月的測試升級,最新版的能夠比較好地呈現(xiàn)出運動畫面,還新增了“對口型”功能,能夠讓視頻里的人物唱歌說話時,口型運動更自然。
除了高水平的模型技術(shù),快手則更注重模型技術(shù)在視頻作品方面的應用,9月9日快手啟動“可靈AI”導演共創(chuàng)計劃。宣布與李少紅、賈樟柯、葉錦添、薛曉路、俞白眉、董潤年、張吃魚、王子川、王卯卯等 9 位知名導演,以可靈AI為創(chuàng)作工具,生成制作 9 部 AIGC 電影短片。
能看出快手不是在悶頭研發(fā)模型技術(shù),更注重視頻生成大模型的實用性和觀眾的體驗感。畢竟無論模型發(fā)展多高水平,它都是“工具”,是輔助影視創(chuàng)作、提高創(chuàng)作效率、創(chuàng)新營銷素材和形式的工具。
最近貓眼娛樂推出的「神筆馬良」則讓行業(yè)更大為震撼,作為首個面向長劇本的AI生成工具,用戶可以上傳劇本,一鍵智能分析、智能角色創(chuàng)作、智能分鏡創(chuàng)作、智能臺詞朗讀,實現(xiàn)劇本內(nèi)容的視聽化呈現(xiàn)“讓劇本一鍵成片”。
也就是說,影視創(chuàng)作最繁瑣的劇本環(huán)節(jié)可能“一鍵解決”了,更重要的是為高質(zhì)感、強內(nèi)容、中邏輯的長劇服務,相當于在一定程度上拉高了影視創(chuàng)作的天花板。
二、行業(yè)超速疾行,問題尷尬待解
據(jù)QuestMobile發(fā)布的數(shù)據(jù),2024年第一季度,生成式AI(AIGC)成為移動互聯(lián)網(wǎng)行業(yè)增速最快、收益最大的行業(yè);今年6月,AIGC類APP的月活躍用戶規(guī)模達6170萬,同比增長653.3%。另有頭豹研究院數(shù)據(jù)顯示,預計到2026年,中國AI視頻生成行業(yè)的市場規(guī)模將達到92.79億元。
視頻生成大模型領(lǐng)域似乎一夜爆火,利好消息滿天飛。
外部風險和國內(nèi)市場的快速發(fā)展,吸引國內(nèi)大廠和科技創(chuàng)業(yè)公司依據(jù)自身優(yōu)勢,在AIGC技術(shù)上持續(xù)發(fā)力,推出了更具開放性、實用性的本土化視頻生成大模型。
據(jù)相關(guān)機構(gòu)及媒體的不完全統(tǒng)計,當前國內(nèi)的大模型數(shù)量超300個,其中僅有140個左右完成了生成式人工智能服務備案。今年1-7月,僅35家大模型產(chǎn)業(yè)相關(guān)企業(yè)拿到了億元級的融資,大部分企業(yè)仍然處在融資早期,甚至尚未過審。
AI視頻的未來聽起來很美好,但這個領(lǐng)域目前并沒有出現(xiàn)一個出圈的爆款應用。無論是AI視頻產(chǎn)品還是由AI生成的視頻作品,都像是少數(shù)影視專業(yè)人士的玩具,局限在小圈子范圍內(nèi),始終未能像ChatGPT一樣在大眾層面獲得認可。
據(jù)生數(shù)科技CEO唐家渝表示,在技術(shù)路線上,AI視頻行業(yè)目前處于底層架構(gòu)收斂的狀態(tài),可以理解為同質(zhì)化,但并不意味著大家進展都一樣。例如現(xiàn)在的大語言模型都會使用 Transformer架構(gòu),但OpenAI是明顯領(lǐng)先的。
不過,雖然底層架構(gòu)統(tǒng)一,但各個公司會有一些差異性。例如,如何有效壓縮視頻,如何在保證質(zhì)量的情況下快速生成視頻,會涉及非常多算法技巧、算法難點,這是導致差異性的主要原因。
目前的視頻生成模型最大的局限性在于可控性不足。比如生成一段畫面,畫面里的人物或者對象容易崩壞,生成的結(jié)果也有很大的隨機性,需要不斷地嘗試,這背后的本質(zhì)是目前視頻生成技術(shù)的穩(wěn)定性還不夠。
從實際落地的層面上看,無論是廣告、短劇,對畫面連續(xù)性、一致性的要求是很高的。即便是C端用戶單純?nèi)ネ?,也希望能一次性就生成他們想要的畫面,這都對視頻生成模型的穩(wěn)定性提出要求。
據(jù)悉,國內(nèi)主要的視頻生成大模型產(chǎn)品已經(jīng)能夠達到1080p甚至4K的高清分辨率,單個鏡頭的視頻時長在2-15秒左右,符合影視化的鏡頭時長需求,但分鐘級的長鏡頭在實現(xiàn)上還存在難度。提示詞方面,目前,圖生視頻、文生視頻、視頻生視頻均處在迭代階段,視頻生成趨勢正在由檢索生成、局部生成、走向依靠自然語言提示詞的全量生成,創(chuàng)作門檻更低、生成內(nèi)容更加靈活豐富。
三、大模型接下來商業(yè)化怎么走?
盡管產(chǎn)品并不完美,但無論是企業(yè)還是資本市場對視頻生成大模型的未來發(fā)展都抱有較高的期待。啟明創(chuàng)投主管合伙人周志峰在2024世界人工智能大會上將“3年內(nèi)AI視頻生成技術(shù)將全面爆發(fā)”作為2024生成式AI的十大展望之一。”
互聯(lián)網(wǎng)大廠目前已經(jīng)成為行業(yè)引領(lǐng)者,字節(jié)、快手高度重視視頻生成項目。字節(jié)將剪映定位為P0 級項目,由原CEO 張楠帶隊;快手則將“可靈”定位于戰(zhàn)略級項目,由技術(shù)大牛萬鵬飛帶隊,集全公司數(shù)據(jù)、算力和資金資源。
而之所以視頻生成能夠成為下一個有明確落地應用場景的行業(yè),核心在于“視頻”已經(jīng)成為互聯(lián)網(wǎng)時代下,C端用戶的最大內(nèi)容消費形式。據(jù)量子位研究,在移動互聯(lián)網(wǎng)的用戶使用時長占比中,短視頻占比達28%,移動視頻行業(yè)用戶規(guī)模達10.76億,月人均時長超64小時。
視頻生成大模型的用戶分類分為B端和C端兩類,其中B端主要來自與視頻內(nèi)容相關(guān)的領(lǐng)域,比如廣告、游戲、短劇和影視等。C端用戶一般是獨立編劇、視頻博主等,作為內(nèi)容生產(chǎn)工具,視頻大模型可以極大程度的豐富各社交平臺、視頻平臺的內(nèi)容創(chuàng)作。
對B端從業(yè)者的滲透,則是視頻生成大模型從“玩具”向“生產(chǎn)力工具”升級的關(guān)鍵,更重要的是,無論C端用戶還是B端用戶,人數(shù)規(guī)模的增長將會帶動大模型平臺的數(shù)據(jù)飛輪運轉(zhuǎn),進一步推動大模型的技術(shù)升級和理解能力。
而AI商業(yè)模式也主要有兩種。一種是SaaS(軟件即服務)訂閱模式,用戶打開軟件可以直接體驗到產(chǎn)品功能。一般這類軟件都會提供免費試用次數(shù),如果用戶有更多的需求或想使用更高級的能力,就需要支付訂閱費用。
另一種是API(應用程序編程接口)形式,將模型能力輸出形式提供給用戶,即MaaS(模型即服務)。例如很多編劇公司、自媒體公司都需要具備文生視頻的能力,豐富產(chǎn)品形態(tài),增加競爭力。
目前AI視頻生成大模型在影視、廣告、電商、自媒體等領(lǐng)域已經(jīng)有了廣泛的應用,甚至取代一部分特效、動畫、廣告短片、商品動態(tài)展示等創(chuàng)作場景。
智譜AI CEO張鵬在接受媒體采訪時表示:“現(xiàn)在(視頻生成大模型)的商業(yè)化仍處于非常早期的階段,而且成本實際上也非常高,后面會根據(jù)市場的反饋做逐步迭代?!?/p>
AI視頻不會一直都是小眾產(chǎn)品。就像拍照一樣,一開始只是攝影愛好者或攝影師群體使用,但如今,拍視頻、拍照已經(jīng)成為每個人的習慣。相信未來,視頻創(chuàng)作者和消費者界限將逐漸模糊,借助AIGC工具,會有越來越多消費者變成創(chuàng)作者,視頻創(chuàng)作的效果和ROI大幅度提升。
本文由人人都是產(chǎn)品經(jīng)理作者【TOP君】,微信公眾號:【TopMarketing】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!