別再狂吹數(shù)字人了
數(shù)字人的身影逐漸變得越來越常見,相應的,數(shù)字人賽道也開始變得火熱起來。那么,當下的數(shù)字人賽道是否真的成熟了?數(shù)字人的出現(xiàn),真的可以幫助實現(xiàn)降本增效嗎?或許我們需要從場景、運營等維度進行多方考慮。
“一個數(shù)字人可以頂10-20個主播!”
“數(shù)字人自動回復顧客問題,傻瓜都可以操作!”
“數(shù)字人形象靚麗,不用請假,不會離職,更不會塌房!”
“4980終身使用,就按一年來算,一天只要5塊錢,24小時自動產(chǎn)生收益!”
誘人的銷售話術,以假亂真的形象,低廉的試錯成本,讓沉寂多年的數(shù)字人突然成為一條火熱的賽道。
數(shù)字人真能降本增效,讓人一夜暴富嗎?
商隱社與多名業(yè)內(nèi)人士聊了聊,得出的基本共識是:沒想好應用場景,別做數(shù)字人;運營不好真人,也做不好數(shù)字人。
一、被數(shù)字人收割的韭菜們
王老板平時做點小生意,身邊的朋友今年紛紛做起了抖音直播,他也眼饞。
一問成本,賺的錢還不夠養(yǎng)直播團隊:主播底薪1萬元加5%成交額提成,運營月薪1萬元,做鏈接的月薪8000元,還要配攝影、剪輯、采購、客服,并支付場地費。
王老板擺擺手:還是算了。
沒過多久,王老板碰上一個數(shù)字人銷售,聲稱只要3萬元就能買到一個數(shù)字人,還免費提供直播培訓。
“你想啊,請一個主播多少錢?”“一個主播還需要配一個運營,兩個人加起來,成本多少?”“主播培養(yǎng)成熟跑了,你損失多少?”“你對手做直播一年幾千萬,你不做行嗎?”“未來是數(shù)字人時代,你們公司在這方面有沒有占坑?”
王老板聽了很心動,3萬元說多不多,說少不少,萬一真能抓住風口呢。
沒多少猶豫,王老板爽快下單,很快得到了一個美女數(shù)字人主播。結果剛在抖音開播不到一分鐘,就被禁止直播一星期。
銷售口中的“日不落”直播間,還沒升起就落了。
小劉所在的汽車公司也打算定制一個數(shù)字人,以后放在一樓展廳,外人來參觀時可以跟它互動了解企業(yè),顯得比較科技范兒。
在小劉看來,公司目前確定的數(shù)字人公司只是運氣好,其實能力不強,競標后除了要錢基本無法溝通。
一開始對方光開發(fā)費就收了40萬,后面再加上主機、展示柜、收擴音設備、透明柜等硬件設備,整個項目將近70萬。
此外,小劉所在公司目前跟對方簽了三年合同,后面如果還想續(xù)約,要加錢;除招手、揮手、歡迎、鼓掌等動作外,要想再加新動作,也需要加錢;對方提供AI配音,換的話也得加錢。
據(jù)小劉分析,乙方公司并沒有非常核心的技術,人物形象、語音識別、硬件設備這些都是外包的。到現(xiàn)在,項目已經(jīng)開啟了兩個月,還停留在造型和聲音評審階段。
小劉逐漸相信,這個項目可能達不到預期效果。
某大公司員工定制了一個仙俠風格、帥氣逼人的數(shù)字人男主,美滋滋介紹給老板。
老板狂怒:這個做得是挺好看,它能給我們公司帶來什么?怎么跟我們的商業(yè)模式結合?未來怎么規(guī)劃?
大家啞口無言。
二、數(shù)字人直播帶貨,靠譜嗎?
午夜時分,數(shù)字人悄悄登場。
姣好的形態(tài)、迷人的微笑、純正的播音腔,一切看起來非常完美。但沒過一陣兒,畫面和聲音就開始重復。
數(shù)字人之所以只在午夜出沒,是因為今年5月抖音發(fā)布了針對數(shù)字人的平臺規(guī)范,明確指出:使用已注冊的虛擬人形象進行直播時,必須由真人驅(qū)動進行實時互動,不允許完全由AI驅(qū)動進行互動。
一紙規(guī)范,引發(fā)行業(yè)地震。這段時間,抖音封殺了大量數(shù)字人直播間,商家只有在審核比較松的時段才敢把數(shù)字人放出來。
網(wǎng)上有段很火的視頻看起來很詭異:凌晨某地,幾百平的房間空無一人,100臺電腦屏幕上,數(shù)字人們在瘋狂直播,仿佛一場沒有人類參與的AI狂歡。
想要躬身入局的商家,最懂得計算投入產(chǎn)出比。
目前,數(shù)字人直播間需要配備一名直播操控員和一名運營人員,再加上數(shù)字人使用費、場地費和設備費,每月成本至少2萬元。
此外,使用數(shù)字人直播還有隨時可能被封的風險。如果帶來的流量轉(zhuǎn)化較少,獲得的收益將難以覆蓋運營成本。
對于小商戶而言,數(shù)字人直播是一筆不小的負擔,老板往往頂好幾個人用,既是中控又是主播,每天播兩三個小時就夠了,用不著每月多花2萬塊錢。
拋開成本,很多人比較直觀的感受是,目前數(shù)字人直播比較影響用戶體驗。數(shù)字人一看上去就有點假,它不會跟觀眾進行眼神交流,就像一個人在跟你說話,但是眼睛看向別處,讓人感覺特別不真誠。更不用說,數(shù)字人有時還一直官話套話重復循環(huán)。
現(xiàn)在數(shù)字人直播的客戶群體是40歲以上的中老年客戶,他們有時分辨不出屏幕里的人是真是假。但年輕人對主播表現(xiàn)力的要求比較高,一看比較假就會劃走,流量轉(zhuǎn)瞬即逝。
而且,當用戶在直播中提問時,數(shù)字人沒法及時回復,訓練不好還會胡說八道。真人主播在看屏幕鏡頭的同時,還可以掃一眼直播大屏,快速給出回復。
比如有人問,這個產(chǎn)品45歲能用嗎?我已經(jīng)是兩個孩子的媽了。
數(shù)字人一般回答:能,好用,你現(xiàn)在就可以去拍。
而真人主播會針對問題做出延展性的想象。比如會先夸贊一番:你有兩個孩子好幸福!兩個孩子應該都很愛你吧!再去引導顧客下單。
抖音電商從業(yè)者王予燦對數(shù)字人仍持觀望態(tài)度,他向商隱社表達了兩點顧慮:“數(shù)字人直播帶貨適合百元以下,能形成周期性復購的標品,不適合新興品牌。而且更適合淘寶這種貨架電商,而不是抖音這種興趣電商。”
興趣電商本身是靠情緒驅(qū)動的,刷到的商品大多可有可無,非標品多一些,會給商家?guī)硪欢ǖ囊鐑r空間。
但像食品、美妝這些我們定期就要買的產(chǎn)品,遵循一個購買目標,多數(shù)情況下只要價格合適就直接買了,百元以下更不用糾結。這種不需要主播付出太多情緒去促成下單。當然數(shù)字人目前也做不到真人的情緒流動,看起來還是一個會說話的機器在推銷商品。
這就對品牌信任度提出了更高的要求。品牌知名度、開設店鋪時間長短、一年內(nèi)的爆款數(shù)量、收獲了多少好評等,都會影響用戶對產(chǎn)品和品牌的信任感。
如果顧客信任度足夠高,刷到之后思考時間比較短,就很容易下單。
但大多數(shù)中小商家沒有這樣優(yōu)越的先天條件。在直播中,數(shù)字人的口型、互動仍不夠真實自然。
這其實在變相消耗品牌積累的信任感。直播間盲目用數(shù)字人,相當于慢性自殺。
“所以說,事在人為,技術擺在這里了,能不能用好還是看個人能力。如果真人直播都做不好,數(shù)字人直播也做不好。這說明細節(jié)沒有把控好,話術沒有打磨,流程沒有走明白,搞數(shù)字人沒用的?!蓖跤锠N直言。
此外,還有很大的一個問題是,數(shù)字人直播欠缺健全的規(guī)則。數(shù)字人承擔的法律責任界定比較模糊,直播過程中沒辦法實時監(jiān)控它的話術,有時對數(shù)字人的訓練不到位,會造成難以預料的影響。
三、解構數(shù)字人
同樣是數(shù)字人,為什么有的能賣3萬,有的可以賣到幾十萬?數(shù)字人是如何工作的呢?我們來解構一下數(shù)字人。
這就要先從數(shù)字人的類型說起。數(shù)字人有2D和3D兩種,根據(jù)背后是否有人驅(qū)動又可以分為由AI驅(qū)動的虛擬人,以及由人驅(qū)動的“中之人”,目前中之人大部分只有3D可以支撐。
2D和3D是兩個不同的技術方向。3D建模的成本非常高,還要做關節(jié)綁定,綁定的點越多,動作越靈活。這相當于打造了一個扯線布偶,用你的手去拉扯操縱布偶,驅(qū)動其做出面部表情和動作。
2D不需要建模,生產(chǎn)過程也相對簡單,只要錄一段5分鐘的視頻,對視頻逐幀分析,再通過機器學習對真人形象和聲音進行1:1的克隆。7個工作日后,你的專屬數(shù)字分身就搞定了。
2D的核心思路是改變像素,相當于老照片修復。如果老照片缺了一角,通過生成式模型進行學習后,可以把缺失一角的像素給補齊。
3D數(shù)字人可以在元宇宙里轉(zhuǎn)身,旋轉(zhuǎn)跳躍不停歇。2D雖然能夠?qū)W習人的動作和表情,但沒法做到跟人一模一樣,而且交互性沒有3D那么強。
目前可用的2D數(shù)字人直播報價是3萬至5萬元/年,短視頻報價是8000元/年;3D數(shù)字人經(jīng)過建?;騃P形象設計制作,直播報價超過20萬元。
數(shù)字人克隆的價格主要差在形象和聲音兩方面。形象包括形象來源、面部表情、身體動作,聲音包括語音語調(diào)、情感情緒等。
如果用開源的AIGC生成的虛擬形象,對清晰度和精度要求不高的話,最便宜兩三百的也有。
此外,公模也比定制的便宜。所謂“公模”,是指數(shù)字人企業(yè)與模特經(jīng)紀公司合作,集中采購肖像授權產(chǎn)出的通用數(shù)字人。目前視頻平臺和數(shù)字人公司有很多場景的數(shù)字人模板,男生女生、職場戶外的都有,可以直接租來用。
語音克隆有兩種。一種是用現(xiàn)在比較成熟的TTS技術合成語音,一種是定制,高端的價格在1萬到5萬不等。便宜的幾百塊,但是情感情緒、語音語調(diào)、說話節(jié)奏會差很多。
很多形象克隆便宜是因為沒有動作,只能坐在那里,比較假。品質(zhì)高一些的克隆會根據(jù)文本自動生成動作和表情。
短視頻生成還要另外按時長收費,一條一分半以內(nèi)的短視頻報價在50元到100元,包月5000元左右,開源的可以做到十幾塊錢。
這些只是軟件的部分,數(shù)字人的呈現(xiàn)效果跟GPU的渲染有很大關系。買個數(shù)字人回來,如果電腦配置很低,體驗就會很差,出現(xiàn)卡頓、嘴不對音等問題。一般電腦硬件的標配在1.2萬元至1.5萬元之間。
數(shù)字人是怎么運行的呢?
讓數(shù)字人說話很簡單,只要給到一段文字,就可以通過技術轉(zhuǎn)化成語音,聲音可以用免費的或者定制的,再配合形象即時生成一段視頻。
互動比較難,目前有三種方式。一種需要真人在后臺留意數(shù)字人的直播過程,實時抓取問題,再準備好回答話術讓數(shù)字人說出來。
另一種可以提前針對產(chǎn)品的核心賣點準備好問題庫,只要觸發(fā)關鍵詞就能自動回復。
三是接入大模型,用AI實時生成文字,再轉(zhuǎn)化成語音。但現(xiàn)在大家對于通用大模型的使用比較謹慎,一般會輸入專業(yè)內(nèi)容、設置信息圍欄,控制著數(shù)字人不要亂說話,回答更加精確。
此外,還可以用AIGC幫助生成視頻文案,拓展思路,這種要會問問題。
交流是有主導性的,誰發(fā)起話題,就按照誰的邏輯來延展。AIGC就像擊劍比賽的對手,如果你的水平低,它的水平就低,如果你的水平高,它的水平也就高。它有時候會一本正經(jīng)地胡說八道,大多是因為提問的問題不專業(yè)。
本地生活服務商戴平告訴商隱社:“我們在訓練一個AIGC模型的時候,會先從專業(yè)的角度拆分知識點,再去提問。AIGC出來以后,世界上就分成兩種人,一種是AIGC的主人,他能力非常強,能把它訓練得非常好。另一種是AIGC的奴隸,他只會不停地問,泛泛地問,但不知道答案是對是錯?!?/p>
而且AIGC現(xiàn)在的回答非常書面化,這就要問得足夠細。比如賣全家桶,不要直接讓它“推薦一下全家桶”,可以問它“下午朋友相聚的時候,在肯德基里買全家桶的體驗是怎么樣的?”,這樣它給到的回答基本都是可以用的。
這樣大概5分鐘就可以生成一條短視頻,之前如果讓真人來拍,算上文案和錄制得花費好幾個小時。
現(xiàn)在大量操作及運營都比較差的公司,利用數(shù)字人的噱頭割韭菜,給行業(yè)造成了不好的影響。但這也是事物從無序向有序過渡的必經(jīng)階段,后面真正做事的公司會凸顯其商業(yè)價值。
四、想象與數(shù)字人共存的未來
令人倍感意外的是,早在上世紀80年代,就已經(jīng)出現(xiàn)了手工繪制、通過電視拍攝的數(shù)字人。后來逐步從電視電影走向網(wǎng)絡媒體,從極少數(shù)人的專業(yè)制作,變得越來越大眾化,每個人都可以擁有自己的數(shù)字分身或者數(shù)字助手。
前面只提到了數(shù)字人短視頻或者直播帶貨,實際上目前數(shù)字人可以利用的場景非常廣泛。
比如可以用洛天依這樣的純數(shù)字人,或者明星的數(shù)字分身進行娛樂表演,電視臺報社還有虛擬主播。還可以在展館里設置數(shù)字人講解員,在商場安置數(shù)字人導購員,劇本殺里安排數(shù)字人NPC。
有人做了數(shù)字人名片,跟AR技術結合,只要拿手機小程序掃一掃,就會跳出來這個人的形象跟你打招呼、自我介紹。同理,這也可以應用在錄取通知書里,用數(shù)字人的方式讓新生了解學校。
現(xiàn)在還出現(xiàn)了數(shù)字人手辦——在一個可視的盒子里嵌入偶像的3D數(shù)字人模型,它可以唱歌跳舞,也可以接入大模型跟用戶對話。
此外,企業(yè)的數(shù)字員工可以跟內(nèi)部系統(tǒng)綁定,員工可以跟它交流了解公司的規(guī)章制度,查詢各種信息等。
上面說的這些場景都屬于數(shù)字人產(chǎn)業(yè)鏈的應用層。中間層是數(shù)字人制作公司,提供基礎的平臺能力,根據(jù)客戶的個性化需求去生產(chǎn)數(shù)字人。
再往下是提供技術引擎的廠商,涉及數(shù)字人用到的算力、云渲染。所謂引擎就是一種公共能力,提供生成形象、語音等的標準化組件。數(shù)字人生產(chǎn)廠商無需從零搭建平臺,可以專心開發(fā)應用。
最難的還是應用層。實際上數(shù)字人技術沒有太大差別,大多數(shù)都是國外開源的技術。
所以,數(shù)字人不是一個技術問題,而是設計和運營的問題,關鍵是要想清楚用它干什么,怎么能多發(fā)揮一些價值。以及如何做出IP,讓數(shù)字人有靈魂、有性格、有品牌,進而更好地去做商業(yè)轉(zhuǎn)化。
這就像MCN公司發(fā)掘了一個很好看的素人,要成為網(wǎng)紅或者明星還需要一些包裝手法。
邱肅川在元宇宙行業(yè)深耕多年,他認為:“數(shù)字人最終還是叫人,它還是社會分工的一個產(chǎn)物。在面向社會的時候,還是要提供特定的功能。它有什么用,決定了它值多少錢?!?/p>
與此同時,數(shù)字人也存在侵犯隱私、電信詐騙等風險。一旦把自己的素材給了數(shù)字人公司,他們就有了你一套從聲音到形象的復刻素材,如果信息泄漏,影響會非常大。
我們現(xiàn)在很多支付都是人臉識別,如果我們的形象素材被非法使用,可能會導致財產(chǎn)流失。很多詐騙公司還會利用視頻造假或者用克隆的形象給親友打視頻電話,從而實施詐騙。
現(xiàn)在的解決方式是,如果數(shù)字人是商用,那每個數(shù)字人形象都必須有專項使用權的授權函,否則就不能用。
盡管如此,當前很多場景都是對現(xiàn)實世界的功能性替代和優(yōu)化,數(shù)字人的想象空間還有待挖掘。
數(shù)字人更大的一個應用場景是在虛擬空間,相當于在現(xiàn)實世界里開辟了一個平行宇宙,會產(chǎn)生新的需求,創(chuàng)造新的生產(chǎn)和消費活動。
這個空間里有虛擬的數(shù)字經(jīng)濟,有不同的人物、場景、經(jīng)濟體、各種各樣的玩法。
這相當于進入了一場游戲,只是游戲里的人物都是隔著屏幕才能看到,NPC都是程序直接設定的。
而在虛擬世界,真人的數(shù)字分身和數(shù)字人共同享有一個游戲世界,有經(jīng)濟系統(tǒng)、文明系統(tǒng)、社交系統(tǒng),也有獨特的價值創(chuàng)造。
之前邱肅川的朋友做過虛擬演唱會,第一季是虛實結合,取景都在上海大劇院,交響樂團也是實際的,所有參與演唱會的明星全都是數(shù)字明星。
后來第二季的時候他們就想:既然都進入數(shù)字世界了,為什么還要遵循物理規(guī)律?我們的舞臺為什么不能搬到我們之前去不了的地方,比如在深海里,在火山上,在太空里?
“你之所以愿意進入這種故事里,是因為它帶給你完全不一樣的體驗,讓你到去不了的地方,做原來做不了的事。這在邏輯上是可行的,就是要等到相關技術、協(xié)議、標準、規(guī)范真正被大規(guī)模解決?!?/p>
“我不知道它什么時候會爆發(fā),這個過程要多長,但是它一定會走到那里去?!鼻衩C川相信。
作者:阿空;編輯:齊馬
來源公眾號:商隱社(ID:shangyinshecj),探尋商業(yè)世界的隱秘角落。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @商隱社 授權發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
這么好的文章竟然沒人看