數(shù)字人短視頻現(xiàn)狀
數(shù)字人技術現(xiàn)在已經(jīng)相對比較成熟了,在短視頻上的應用場景上更是如此。那這個行業(yè)的情況怎樣?市場和客戶、需求都是什么呢?我們來看看作者的分享。
短視頻是目前數(shù)字人應用相對成熟的場景。就是用AI復刻出一個真人的數(shù)字分身,然后只需要輸入文本,就能得到這個數(shù)字人說這段文本的視頻。可以大大提高口播博主的視頻制作效率,不用化妝和拍攝錄制,直接將準備好的文案輸入到系統(tǒng)中,視頻就做好了。
一、客戶類型
政務類的客戶會用數(shù)字人做短視頻,比如公安反詐騙宣傳、消防宣傳、普法教育等。另外還有中小b客戶,比如保險經(jīng)紀人、醫(yī)生、律師、教師、自媒體創(chuàng)作者等,一般會定制數(shù)字分身,用數(shù)字分身快速批量生成口播短視頻,發(fā)布到抖音等短視頻平臺,打造個人IP,引流獲客。比如抖音大v劉潤的一部分視頻,就是用數(shù)字分身制作的。
短視頻平臺比如抖音,對數(shù)字人短視頻不會額外多給流量,也不會單獨減少流量。只要是高質量的視頻,不論是不是數(shù)字分身合成的,都會得到平臺的推薦。如果用真人出鏡的短視頻已經(jīng)拿到了結果,那么數(shù)字分身可以大大節(jié)省創(chuàng)作者錄制和制作視頻的時間。
二、客戶需求
- 真假難辨達到真人出鏡的效果:數(shù)字人效果是核心。外貌、聲音、口型、說話時眼睛和面部表情、肢體動作要足夠自然,畫面清晰,達到跟真人視頻一樣的效果。抖音的態(tài)度是可以用數(shù)字人,但得是高質量的內容,且注明ai生成)。清晰度1080p。
- 數(shù)字分身制作:對于需要打造個人ip的客戶,以及抖音上的kol,需要定制形象,包括形象和聲音克隆。形象克隆后需要保障使用的安全性,自己的數(shù)字分身不能被他人濫用。
- 高效的視頻制作工具:節(jié)省制作口播視頻的時間,輸入文案就能生成媲美真人的口播視頻。
- 合適的價格。一般按合成的視頻時長收費。目前一分鐘的視頻,已經(jīng)從之前的10多元,降到現(xiàn)在5元左右,后續(xù)還有下降空間。如果客戶定制了自己的數(shù)字分身,可以直接送幾百分鐘的時長包。
三、技術現(xiàn)狀
1)形象:數(shù)字人形象定制費用下降,定制過程變簡單。數(shù)字人分為2d真人和3d類型。真人的數(shù)字分身,外觀幾乎和真人分不出來,真人90%+的相似度。3d寫實風格的數(shù)字人,已經(jīng)可以做到愉悅的視覺觀感,常見用途是給大公司做代言人,出代言海報或者視頻。效果好的3d數(shù)字人價格都得幾十萬,甚至上百萬,但相比請明星的代言費,簡直九牛一毛。
2)驅動能力:包括數(shù)字人的口型、面部表情、肢體動作。好的廠商的口型準確度高,和真人說話的口型幾乎一樣。目前2d真人數(shù)字人的面部表情,上半身的肢體動作,是基于錄制素材中面部表情和肢體動作的循環(huán)播放,也和真人幾乎一樣。3d數(shù)字人的動作和表情可以做,但是數(shù)量少,靠人工制作,效果自然的價格就高,整體稍僵硬?,F(xiàn)在行業(yè)內還不能做到,讓數(shù)字人根據(jù)說話內容的語義,通過聲音或者表情和肢體動作傳達情緒,情緒傳達相比真人有較大距離。
3)語言理解能力:語言理解已經(jīng)從之前的知識庫發(fā)展到了大模型,接入大模型的數(shù)字人,對文本語言的理解明顯提升,完全可進行開放域對話。
四、數(shù)字人短視頻產(chǎn)品功能
形象克?。撼苏掌蓴?shù)字人之外,形象克隆目前都需要線下手工操作,即用客戶提供的視頻訓練出數(shù)字分身。
聲音克隆:還是用客戶提供的說話視頻,用ai克隆出客戶的音色。
短視頻制作工具:
- 核心功能:形象&聲音克隆的視頻素材上傳、短視頻元素設置(背景+模特+聲音+播報文本)、合成和下載視頻
- 重大功能:字幕、視頻素材添加、模特自定義設置(位置/大小/形狀)、視頻效果配置(橫豎屏、清晰度)、真人音頻上傳
- 輔助功能:短視頻素材資源(背景圖資源/字幕樣式資源/貼紙資源/圖片和視頻資源/配樂資源)
五、市場現(xiàn)狀
數(shù)字人做短視頻,確實有市場需求,抖音上不斷有創(chuàng)作者使用數(shù)字人做短視頻。尤其近一年來,技術進步帶來形象定制費用大幅下降,更多人能用得起。2023年一下爆發(fā)出現(xiàn)了很多數(shù)字人短視頻廠商,這里面有自研能力的廠商少,有些僅貼牌代理。所以市面上的數(shù)字人產(chǎn)品,魚龍混雜,產(chǎn)品良莠不齊,價格較亂。各廠商提供的功能差不多,但數(shù)字人視頻的效果和軟件體驗有差異。
2023年有很多廠家進來做這個,但根據(jù)出門問問相關負責人透露的信息,目前數(shù)字人公司幾乎處于投入階段,大部分公司的投入遠遠大于收入,要盈利可能還需要一兩年時間。國內做數(shù)字人短視頻的頭部,從視頻效果和市場占有率的角度,個人認為是硅基。據(jù)硅基消息,8000元1個的克隆,他們賣了上萬個,頭部廠商的營收大概就是這樣。
本文由 @樂活小宇宙 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
形象克隆,即3~5分鐘視頻訓練數(shù)字人這種技術,目前市場價繼續(xù)降到了5千元左右