大模型加持后,數(shù)字人“更像人”了嗎?

0 評(píng)論 3041 瀏覽 4 收藏 12 分鐘

數(shù)字人的規(guī)?;涞孛媾R著許多挑戰(zhàn),比如人才、成本等等方面。而現(xiàn)在,大模型的出現(xiàn)似乎給數(shù)字人的發(fā)展帶去了新的機(jī)遇。一起來(lái)看看本文的分享和解讀。

北京冬奧運(yùn)AI 虛擬人手語(yǔ)主播、杭州亞運(yùn)會(huì)數(shù)字人點(diǎn)火、新華社數(shù)字記者、數(shù)字航天員小諍……當(dāng)隨著越來(lái)越多數(shù)字人出現(xiàn)在人們生活中,整個(gè)數(shù)字人行業(yè)也朝著多元化且廣泛的應(yīng)用方向發(fā)展,快速拓展到不同行業(yè)、不同場(chǎng)景。

面向C端,數(shù)字人幫助用戶生產(chǎn)內(nèi)容和輔助工作,如:數(shù)字人練口語(yǔ)、和數(shù)字人玩游戲等;面向B端,數(shù)字人是企業(yè)的“工具人”,應(yīng)用于金融、影視、電商、直播等行業(yè),提高行業(yè)生產(chǎn)和運(yùn)營(yíng)效率。

毫無(wú)疑問(wèn),數(shù)字人是一門好生意,但其規(guī)?;涞匾廊幻媾R著人才、成本、場(chǎng)景、技術(shù)等層層困難。其中,最關(guān)鍵的是技術(shù)瓶頸,如何讓數(shù)字人擺脫“空有一副好皮囊”的市場(chǎng)評(píng)價(jià)是一大難題。

然而,隨著大模型的出現(xiàn),數(shù)字人的發(fā)展似乎正在迎來(lái)新的機(jī)遇。

一、大模型賦能數(shù)字人

對(duì)于產(chǎn)業(yè)界而言,數(shù)字人本身并不新鮮。在過(guò)去很長(zhǎng)一段時(shí)間內(nèi),為了又力求數(shù)字人視覺(jué)外形上的高保真呈現(xiàn),生產(chǎn)成本不亞于制作一部專業(yè)級(jí)電影。

瑞銀發(fā)布的數(shù)字人研究報(bào)告指出,高級(jí)虛擬人物的先期投入成本平均為3000萬(wàn)元,后期又需要真人團(tuán)隊(duì)完成拍攝、配音、剪輯。以樂(lè)華娛樂(lè)的虛擬女團(tuán)A-SOUL為例,其一支單曲制作成本約200萬(wàn)元,一場(chǎng)線下演唱會(huì)成本約2000萬(wàn)元。

但即便是如此高昂的成本,也解決不了數(shù)字人的互動(dòng)效果問(wèn)題。由于智能水平不足,與其說(shuō)它是數(shù)字人,更像是一個(gè)沒(méi)有靈魂的數(shù)字皮套。

高成本,再加上互動(dòng)效果不佳,使得數(shù)字人的使用被限制在廠商內(nèi)部或大企業(yè)客戶的試驗(yàn)項(xiàng)目。

因此,當(dāng)具有學(xué)習(xí)能力的生成式大模型顛覆了內(nèi)容制作范式后,面向更廣范圍的中小型企業(yè)用戶、優(yōu)先規(guī)?;涞厥褂玫牧畠r(jià)數(shù)字人成為了可行方案。

據(jù)一名人工智能研究人員介紹,大模型對(duì)數(shù)字人的重塑與賦能主要體現(xiàn)為降本增效。

從技術(shù)角度來(lái)說(shuō),搭建一個(gè)數(shù)字人主要分為建模、驅(qū)動(dòng)、渲染幾個(gè)環(huán)節(jié)。傳統(tǒng)的數(shù)字人主要依托計(jì)算機(jī)圖形學(xué)技術(shù)+真人動(dòng)作捕捉,需要采集大量的真人數(shù)據(jù),深度建模,耗時(shí)長(zhǎng),效率低,成本高。

如今在大模型的加持下,通過(guò)AI算法,基于深度學(xué)習(xí)模型、動(dòng)作模擬、情感模擬等技術(shù),只需要幾分鐘的真人視頻,用大模型訓(xùn)練若干個(gè)小時(shí),就可以生成逼真的數(shù)字人,制作成本大大降低。

不僅如此,數(shù)字人在成本降低的同時(shí),效能也大大提升。

在大模型出現(xiàn)以前,數(shù)字人在外形上差異度較小,而且只能根據(jù)輸入的統(tǒng)一腳本,“照本宣科”地回答問(wèn)題。

在大模型的賦能下,數(shù)字人擁有了“靈魂”,不僅外貌特征可以自定義設(shè)計(jì),智能化、交互性也有了很大提升。比如在一些直播帶貨場(chǎng)景中,數(shù)字人已經(jīng)可以與受眾進(jìn)行基礎(chǔ)互動(dòng)。

比如,百度智能云發(fā)布的曦靈數(shù)字人,大模型的加持下,可以15分鐘快速完成直播間搭建,自動(dòng)生成匹配產(chǎn)品特色的講品話術(shù),開啟智能互動(dòng)問(wèn)答。

在某餐飲品牌的直播間,曦靈數(shù)字人主播自動(dòng)生成直播話術(shù),包含開場(chǎng)破冰、福利放送、暖場(chǎng)話術(shù)、催單話術(shù)等。在這場(chǎng)真人與曦靈數(shù)字人的接力直播中,用戶竟然沒(méi)有絲毫察覺(jué)。

更令人驚訝的事,在真實(shí)6小時(shí)的直播比對(duì)中,數(shù)字人主播僅需真人主播15%的成本,就可獲得真人主播85%GMV。

除了直播帶貨,百度智能云曦靈作為國(guó)內(nèi)首個(gè)大模型全面重構(gòu)的數(shù)字人平臺(tái),還可為企業(yè)提供2D真人、3D寫實(shí)、3D超寫實(shí)的人像,實(shí)現(xiàn)視頻制作、數(shù)字員工、數(shù)字人代言人等多種應(yīng)用。

比如,在曦靈平臺(tái),只需5分鐘的真人視頻,半小時(shí)即可訓(xùn)練人像,錄制100句話語(yǔ),24小時(shí)生成專屬音色庫(kù),相比真人授課成本只需過(guò)去的30%,錄制效率提升20倍。

不難發(fā)現(xiàn),經(jīng)過(guò)大模型重塑與賦能的數(shù)字人,一定程度上擺脫了價(jià)格昂貴、互動(dòng)性差等問(wèn)題,越來(lái)越廣泛地出現(xiàn)在短視頻、直播間中。

同時(shí),數(shù)字人開始朝著更多“身份”進(jìn)軍——銀行理財(cái)師、律師、老師、已逝的名人……數(shù)字人正在成為任何想成為的人,也為這條日漸擁擠的賽道帶來(lái)了新的機(jī)遇。

二、讓數(shù)字人更像“人”

大模型的出現(xiàn)讓數(shù)字人“脫胎換骨”,成為如今最火的創(chuàng)業(yè)賽道之一。

目前市場(chǎng)上主要的數(shù)字人廠商主要有兩類:一類是以百度、騰訊、華為等為代表的科技巨頭,基于自身大模型方面的優(yōu)勢(shì)研發(fā)推出數(shù)字人產(chǎn)品;另一類是以硅基智能、出門問(wèn)問(wèn)、相芯科技等為代表的中小廠商。

多名人工智能領(lǐng)域投資人表示,目前AIGC(生成式人工智能)還處于早期階段,能落地產(chǎn)生利潤(rùn)的不多,數(shù)字人是其中比較少有的商業(yè)化路徑,且已經(jīng)能夠盈利的項(xiàng)目。

但隨著大量的創(chuàng)業(yè)者涌入,行業(yè)競(jìng)爭(zhēng)趨于激烈和同質(zhì)化,賽道逐漸變得擁擠和內(nèi)卷。

內(nèi)卷的一個(gè)表現(xiàn)是價(jià)格越降越低。目前2D數(shù)字人的價(jià)格大多數(shù)已經(jīng)降到千元級(jí)別,有的甚至只需要幾百元。

360集團(tuán)的數(shù)字人營(yíng)銷服務(wù)也顯示,通過(guò)智能營(yíng)銷云平臺(tái)的配套SaaS服務(wù)推廣給客戶,按照會(huì)員用戶每月付費(fèi)的標(biāo)準(zhǔn)估算,一款數(shù)字人的價(jià)格最低幾十元,最高在一、二百元上下。

隨著大量低成本的數(shù)字人涌入市場(chǎng),百元級(jí)別的數(shù)字分身迅速被炒成一本萬(wàn)利的“財(cái)富經(jīng)”。

每到深夜,打開主流平臺(tái),大量的數(shù)字人堅(jiān)守在直播間。隨之而來(lái)的是關(guān)于數(shù)字人的質(zhì)疑聲漸起,諸如效果太假、市場(chǎng)混亂等,導(dǎo)致用戶體驗(yàn)不佳。

有業(yè)內(nèi)人士認(rèn)為,隨著越來(lái)越多的玩家涌入,一些創(chuàng)業(yè)者技術(shù)能力有限,生產(chǎn)的數(shù)字人產(chǎn)品質(zhì)量良莠不齊,容易導(dǎo)致劣幣驅(qū)逐良幣。

一方面,數(shù)字人多用于較為簡(jiǎn)單的環(huán)境、解決較為基礎(chǔ)的問(wèn)題,在場(chǎng)景切換或面對(duì)多輪對(duì)話時(shí),可能出現(xiàn)答非所問(wèn)或陷入死循環(huán)的情況,制約用戶體驗(yàn)。

另一方面,大模型下的數(shù)字人交互體驗(yàn)始終與真人存在明顯差異,比如,在Sora生成內(nèi)容中,無(wú)視物理學(xué)原理、人的手指時(shí)多時(shí)少等問(wèn)題被廣為詬病,可能進(jìn)一步引發(fā)心理方面的“恐怖谷效應(yīng)”。

對(duì)此,也有專家認(rèn)為,需要進(jìn)一步提升技術(shù)創(chuàng)新能力和用戶體驗(yàn)感,在保證數(shù)字人外在擬人效果的同時(shí),優(yōu)化用戶交互體驗(yàn),注重實(shí)時(shí)渲染、光學(xué)捕捉、三維重建、智能人機(jī)交互等新興技術(shù)與自然語(yǔ)言處理、語(yǔ)音識(shí)別、計(jì)算機(jī)視覺(jué)、生成式AI等技術(shù)的研究和應(yīng)用。

“當(dāng)前行業(yè)正在共同突破的技術(shù)目標(biāo)是‘如何讓數(shù)字人變得更像一個(gè)人’,像人一樣去思考”,一位業(yè)內(nèi)人士表示,加快企業(yè)間的技術(shù)協(xié)同,解決交互型數(shù)字人在情緒感知、語(yǔ)義理解等方面的技術(shù)難題是接下來(lái)的重點(diǎn)。

這一系列的挑戰(zhàn)都指向技術(shù)側(cè)。

2024年度《中國(guó)虛擬數(shù)字人影響力指數(shù)報(bào)告》指出,截至2024年2月底,國(guó)家知識(shí)產(chǎn)權(quán)局“專利檢索”數(shù)據(jù)顯示,2023年全年數(shù)字人領(lǐng)域?qū)@暾?qǐng)數(shù)高達(dá)544個(gè),反映出業(yè)界在核心技術(shù)研發(fā)上的強(qiáng)勁勢(shì)頭和深度創(chuàng)新。

從2023年數(shù)字人相關(guān)專利申請(qǐng)機(jī)構(gòu)來(lái)看,以百度、騰訊為代表的老牌互聯(lián)網(wǎng)巨頭,以中國(guó)移動(dòng)、工商銀行為代表的頭部通信、金融機(jī)構(gòu),以小冰公司、世優(yōu)科技、黑鏡科技為代表的頭部數(shù)字人公司形成了技術(shù)端的多強(qiáng)格局。

盡管行業(yè)頭部大廠在AI技術(shù)上擁有了先發(fā)優(yōu)勢(shì),但在產(chǎn)業(yè)高速發(fā)展的過(guò)程中,每個(gè)公司在技術(shù)本身都沒(méi)有絕對(duì)的壁壘,本質(zhì)上技術(shù)背后是人。對(duì)于所有數(shù)字人廠商來(lái)說(shuō),AIGC帶來(lái)機(jī)會(huì)的同時(shí),也成為直面挑戰(zhàn)的起點(diǎn)。

結(jié)語(yǔ)

數(shù)字人正處于風(fēng)口,吸引了大量想分一杯羹的創(chuàng)業(yè)者涌入。但不可否認(rèn)的是,作為一項(xiàng)年輕的技術(shù),數(shù)字人還處于早期階段,市場(chǎng)尚在培育之中。

對(duì)于同處一片紅海中的數(shù)字人公司來(lái)說(shuō),要思考的或許不是如何“卷低價(jià)”,而是通過(guò)技術(shù)的不斷進(jìn)步,讓數(shù)字人“更像人”,提高行業(yè)的整體水位,讓數(shù)字人“活下去”,創(chuàng)造更多的價(jià)值。

來(lái)源公眾號(hào):科技云報(bào)到(ID:ITCloud-BD),云計(jì)算、網(wǎng)絡(luò)安全、人工智能、大數(shù)據(jù)、區(qū)塊鏈領(lǐng)域垂直新媒體。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @科技云報(bào)到 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!