交互型數(shù)字人發(fā)展現(xiàn)狀
作為AI的應(yīng)用場景之一,數(shù)字人在市場上的普及度比大模型高很多??梢宰鳛橹悄芸头獯饦I(yè)務(wù)問題或者辦理業(yè)務(wù),推薦產(chǎn)品。那這個行業(yè)現(xiàn)在發(fā)展如何了?我們來看看作者做的分析。
交互型數(shù)字人是指能與人類進行實時交互對話的數(shù)字人,可以作為智能客服,解答業(yè)務(wù)問題或者辦理業(yè)務(wù),推薦產(chǎn)品。中國電信app首頁的AI筱翼,是一種常見的數(shù)字人智能客服,電信掌上營業(yè)廳功能很多,部分功能不容易找到,通過數(shù)字人語音交互可以直達業(yè)務(wù)頁面。talkie對話界面也有一個形象,但是形象在對話中一直是靜態(tài)的,不屬于交互型數(shù)字人。
一、交互型數(shù)字人基本原理
可交互的數(shù)字人,主要原理是先通過照片或視頻生成數(shù)字人,對話時通過asr識別用戶輸入的問題,然后問題被發(fā)送給數(shù)字人大腦(傳統(tǒng)bot知識庫或大模型)獲取答案,再通過tts將答案轉(zhuǎn)換成音頻,通過音頻驅(qū)動數(shù)字人的唇部和面部,形成數(shù)字人說話視頻,實現(xiàn)真人與數(shù)字人的對話。
數(shù)字人的驅(qū)動能力包括唇部,面部表情和肢體動作。通過音頻驅(qū)動數(shù)字人唇部和面部變化,唇形準確率現(xiàn)在都比較高,數(shù)字人說話時口型和音頻能對上,口型不細看基本沒有破綻。數(shù)字人的肢體動作來源于提前制作好的動作庫。制作數(shù)字人形象時,可以定制常用的動作,比如點贊、比心、手勢引導(dǎo)等動作,將動作和數(shù)字人說話內(nèi)容做好關(guān)聯(lián),數(shù)字人說話時就會觸發(fā)這些動作,肢體動作和面部表情使數(shù)字人說話時更接近人類,更自然。2D真人數(shù)字人和3D數(shù)字人都可以實現(xiàn)實時對話,但兩者在數(shù)字人制作渲染、推理方面,是完全不同的技術(shù)路徑。
二、客戶群體
整個交互型數(shù)字人行業(yè)的服務(wù)對象,目前還是to B大客戶,主要為銀行/證券/保險/運營商/政務(wù)行業(yè)等客戶提供解決方案,最終的落地形式有嵌入手機app,或線下大屏。目前數(shù)字人客服的滲透率還不高,即便金融行業(yè)大公司也還處于數(shù)字人應(yīng)用的探索和試點階段。
在生活中我們能體驗到的,有中國電信app上的AI筱翼,部分城市比如深圳的一些地鐵站有數(shù)字人大屏,承擔真人客服的功能,銀行線下網(wǎng)點的大屏數(shù)字人大堂經(jīng)理。項目價格一般可達百萬級,市場上有數(shù)字人制作/驅(qū)動/NLP和語音全鏈路能力的廠商不多,落地一般由多家廠商參與完成。
這次大模型的春風也刮到了數(shù)字人領(lǐng)域,在大模型的應(yīng)用暢想中,C端一般會提到用數(shù)字人作為個人智能助手或者數(shù)字人陪伴聊天,但是可交互的數(shù)字人目前價格至少幾萬,加上缺少實際場景,所以市場上to?C的數(shù)字人產(chǎn)品很少。來畫出品的AI相框是少見的to?C數(shù)字人,本質(zhì)是提供數(shù)字人形象和聲音定制服務(wù),通過一張照片生成數(shù)字人,以相框作為數(shù)字人的硬件載體,實現(xiàn)實時對話。
圖片來源于網(wǎng)絡(luò)
三、行業(yè)現(xiàn)狀和挑戰(zhàn)
根據(jù)某研究機構(gòu)的公開數(shù)據(jù),2022年整個數(shù)字人行業(yè)的市場規(guī)模將近百億,預(yù)計2025年將達到500億左右。個人推測交互型數(shù)字人目前的市場規(guī)模數(shù)十億。
1、數(shù)字人智能客服對客戶的真實價值有待檢驗。
目前數(shù)字人客服對客戶來說,屬于錦上添花,有時只是一個噱頭,還不能替代真人客服降本增效。數(shù)字人是一個交互入口,真正能為客戶解決的實際問題有限。
在業(yè)務(wù)咨詢場景,傳統(tǒng)的NLP只能進行封閉域?qū)υ挘徽{(diào)侃為人工智障;現(xiàn)在基于大模型和本地知識庫,涉及業(yè)務(wù)問題基于提供的知識庫回答,非業(yè)務(wù)問題用大模型回答,數(shù)字人確實智能了不少,但幻覺問題并未完全解決,部分敏感場合如果編造答案,對企業(yè)有較大的負面影響。而在業(yè)務(wù)辦理場景,不論是之前的文本智能客服,還是現(xiàn)在的數(shù)字人客服,基本沒有辦理復(fù)雜業(yè)務(wù)的能力。
2、實時交互成本高
客服場景一般使用真人數(shù)字人,需要云端渲染,每次回答都需要實時生成一個視頻,再結(jié)合實際客服的高并發(fā)場景,導(dǎo)致實時交互消耗的服務(wù)器資源多,交互成本高。
3、數(shù)字人的表現(xiàn)力,跟真人相比比較生硬。
當前數(shù)字人表情和動作,2D真人類型的靠錄制,沒錄制過的表情和動作數(shù)字人不會做。3D類型的靠動畫師手動制作,生動性依賴動畫師的專業(yè)水平,手動制作高質(zhì)量的動作需要的時間長。有限的動作和表情,讓數(shù)字人在播報大量內(nèi)容時,顯得動作重復(fù)單調(diào),缺乏情感。
好消息是大模型在視頻生成上不斷進步突破。阿里最新的emo模型效果看起來很經(jīng)驗,可以根據(jù)音頻,直接生成頭部運動自然,和面部表情自然的說話視頻。這一新技術(shù)的應(yīng)用,可以顯著提升數(shù)字人對話時的自然程度,解決數(shù)字人表現(xiàn)生硬的問題。非常期待能盡快應(yīng)用到數(shù)字人領(lǐng)域。
四、結(jié)語
交互型數(shù)字人的智能程度取決于背后的大模型,目前垂直行業(yè)大模型的落地應(yīng)用還需要時間。另外受限于實時交互成本高,以及數(shù)字人表現(xiàn)生硬問題,交互型數(shù)字人還處于行業(yè)早期,實際應(yīng)用不多。隨著大模型技術(shù)的不斷發(fā)展,相信這些問題會不斷改善,數(shù)字人會真正走進我們的生活,為行業(yè)和個人賦能。
本文由 @樂活小宇宙 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!