天天爽夜夜爽夜夜爽精品视频,天天躁日日躁狠狠久久,欧美熟妇另类久久久精品

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

交互型數(shù)字人發(fā)展現(xiàn)狀

樂活小宇宙

2024-03-05

0 評論 1541 瀏覽 11 收藏

8 分鐘

作為AI的應(yīng)用場景之一，數(shù)字人在市場上的普及度比大模型高很多?？梢宰鳛橹悄芸头獯饦I(yè)務(wù)問題或者辦理業(yè)務(wù)，推薦產(chǎn)品。那這個行業(yè)現(xiàn)在發(fā)展如何了？我們來看看作者做的分析。

交互型數(shù)字人是指能與人類進行實時交互對話的數(shù)字人，可以作為智能客服，解答業(yè)務(wù)問題或者辦理業(yè)務(wù)，推薦產(chǎn)品。中國電信app首頁的AI筱翼，是一種常見的數(shù)字人智能客服，電信掌上營業(yè)廳功能很多，部分功能不容易找到，通過數(shù)字人語音交互可以直達業(yè)務(wù)頁面。talkie對話界面也有一個形象，但是形象在對話中一直是靜態(tài)的，不屬于交互型數(shù)字人。

一、交互型數(shù)字人基本原理

可交互的數(shù)字人，主要原理是先通過照片或視頻生成數(shù)字人，對話時通過asr識別用戶輸入的問題，然后問題被發(fā)送給數(shù)字人大腦（傳統(tǒng)bot知識庫或大模型）獲取答案，再通過tts將答案轉(zhuǎn)換成音頻，通過音頻驅(qū)動數(shù)字人的唇部和面部，形成數(shù)字人說話視頻，實現(xiàn)真人與數(shù)字人的對話。

數(shù)字人的驅(qū)動能力包括唇部，面部表情和肢體動作。通過音頻驅(qū)動數(shù)字人唇部和面部變化，唇形準確率現(xiàn)在都比較高，數(shù)字人說話時口型和音頻能對上，口型不細看基本沒有破綻。數(shù)字人的肢體動作來源于提前制作好的動作庫。制作數(shù)字人形象時，可以定制常用的動作，比如點贊、比心、手勢引導(dǎo)等動作，將動作和數(shù)字人說話內(nèi)容做好關(guān)聯(lián)，數(shù)字人說話時就會觸發(fā)這些動作，肢體動作和面部表情使數(shù)字人說話時更接近人類，更自然。2D真人數(shù)字人和3D數(shù)字人都可以實現(xiàn)實時對話，但兩者在數(shù)字人制作渲染、推理方面，是完全不同的技術(shù)路徑。

二、客戶群體

整個交互型數(shù)字人行業(yè)的服務(wù)對象，目前還是to B大客戶，主要為銀行/證券/保險/運營商/政務(wù)行業(yè)等客戶提供解決方案，最終的落地形式有嵌入手機app，或線下大屏。目前數(shù)字人客服的滲透率還不高，即便金融行業(yè)大公司也還處于數(shù)字人應(yīng)用的探索和試點階段。

在生活中我們能體驗到的，有中國電信app上的AI筱翼，部分城市比如深圳的一些地鐵站有數(shù)字人大屏，承擔真人客服的功能，銀行線下網(wǎng)點的大屏數(shù)字人大堂經(jīng)理。項目價格一般可達百萬級，市場上有數(shù)字人制作/驅(qū)動/NLP和語音全鏈路能力的廠商不多，落地一般由多家廠商參與完成。

這次大模型的春風也刮到了數(shù)字人領(lǐng)域，在大模型的應(yīng)用暢想中，C端一般會提到用數(shù)字人作為個人智能助手或者數(shù)字人陪伴聊天，但是可交互的數(shù)字人目前價格至少幾萬，加上缺少實際場景，所以市場上to?C的數(shù)字人產(chǎn)品很少。來畫出品的AI相框是少見的to?C數(shù)字人，本質(zhì)是提供數(shù)字人形象和聲音定制服務(wù)，通過一張照片生成數(shù)字人，以相框作為數(shù)字人的硬件載體，實現(xiàn)實時對話。

圖片來源于網(wǎng)絡(luò)

三、行業(yè)現(xiàn)狀和挑戰(zhàn)

根據(jù)某研究機構(gòu)的公開數(shù)據(jù)，2022年整個數(shù)字人行業(yè)的市場規(guī)模將近百億，預(yù)計2025年將達到500億左右。個人推測交互型數(shù)字人目前的市場規(guī)模數(shù)十億。

1、數(shù)字人智能客服對客戶的真實價值有待檢驗。

目前數(shù)字人客服對客戶來說，屬于錦上添花，有時只是一個噱頭，還不能替代真人客服降本增效。數(shù)字人是一個交互入口，真正能為客戶解決的實際問題有限。

在業(yè)務(wù)咨詢場景，傳統(tǒng)的NLP只能進行封閉域?qū)υ挘徽{(diào)侃為人工智障；現(xiàn)在基于大模型和本地知識庫，涉及業(yè)務(wù)問題基于提供的知識庫回答，非業(yè)務(wù)問題用大模型回答，數(shù)字人確實智能了不少，但幻覺問題并未完全解決，部分敏感場合如果編造答案，對企業(yè)有較大的負面影響。而在業(yè)務(wù)辦理場景，不論是之前的文本智能客服，還是現(xiàn)在的數(shù)字人客服，基本沒有辦理復(fù)雜業(yè)務(wù)的能力。

2、實時交互成本高

客服場景一般使用真人數(shù)字人，需要云端渲染，每次回答都需要實時生成一個視頻，再結(jié)合實際客服的高并發(fā)場景，導(dǎo)致實時交互消耗的服務(wù)器資源多，交互成本高。

3、數(shù)字人的表現(xiàn)力，跟真人相比比較生硬。

當前數(shù)字人表情和動作，2D真人類型的靠錄制，沒錄制過的表情和動作數(shù)字人不會做。3D類型的靠動畫師手動制作，生動性依賴動畫師的專業(yè)水平，手動制作高質(zhì)量的動作需要的時間長。有限的動作和表情，讓數(shù)字人在播報大量內(nèi)容時，顯得動作重復(fù)單調(diào)，缺乏情感。

好消息是大模型在視頻生成上不斷進步突破。阿里最新的emo模型效果看起來很經(jīng)驗，可以根據(jù)音頻，直接生成頭部運動自然，和面部表情自然的說話視頻。這一新技術(shù)的應(yīng)用，可以顯著提升數(shù)字人對話時的自然程度，解決數(shù)字人表現(xiàn)生硬的問題。非常期待能盡快應(yīng)用到數(shù)字人領(lǐng)域。

四、結(jié)語

交互型數(shù)字人的智能程度取決于背后的大模型，目前垂直行業(yè)大模型的落地應(yīng)用還需要時間。另外受限于實時交互成本高，以及數(shù)字人表現(xiàn)生硬問題，交互型數(shù)字人還處于行業(yè)早期，實際應(yīng)用不多。隨著大模型技術(shù)的不斷發(fā)展，相信這些問題會不斷改善，數(shù)字人會真正走進我們的生活，為行業(yè)和個人賦能。

本文由 @樂活小宇宙原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于CC0協(xié)議。

該文觀點僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App