【萬字長文】虛擬人漫談|技術(shù)篇

3 評論 4852 瀏覽 15 收藏 55 分鐘

編輯導語:近些年CG技術(shù)、人工智能技術(shù)等的不斷發(fā)展,催生了虛擬人概念的出現(xiàn)。虛擬人到底是什么呢?本文作者從身體、靈魂、世界、人設(shè)等方面對虛擬人進行了分析,一起來看一下吧。

了解虛擬人賽道產(chǎn)品相關(guān)信息請看我的前兩篇文章:《虛擬人漫談|開拓:產(chǎn)品篇(上)格局與環(huán)境》、《虛擬人漫談|開拓:產(chǎn)品篇(下)產(chǎn)品與商業(yè)》。

01 虛擬人,新科技下的創(chuàng)世神話

想象一下,你是一個創(chuàng)世神,擔負著創(chuàng)世的KPI,你要做點什么?

我想,你大概應該先構(gòu)思好主角,再扔給主角一個世界。

主角首先是一個擁有大腦軀干四肢,眼睛鼻子嘴的生物,姑且把這種生物叫做“人”。

但僅僅這樣還不夠,每個人的身上還要加一點點靈魂,有的多一點風趣幽默,有的多一點審慎優(yōu)雅,各有不同,才會豐富多彩。

最后,再給他們一個世界,賦予天空和大地,賦予植被和海洋,再來點可愛的小動物……這個創(chuàng)世任務的MVP,就差不多算完成了。

在人類的幼年時期,各個文明流域都相對獨立地出現(xiàn)了創(chuàng)世神話,上古中國有盤古開天辟地,女媧摶土造人;《圣經(jīng)》中有上帝七天創(chuàng)世,并在第六天創(chuàng)造了亞當夏娃的故事……一直以來,人類都對自己的起源充滿了好奇與想象,創(chuàng)世神話,是人類對自身起源浪漫探索的開始。

這種對自身充滿探索和向往的欲望一直固化在我們的集體潛意識里,而在科技日漸發(fā)達的今天,我們正逐漸嘗試用科技來擬合一個“人”的誕生過程,這就是“虛擬人”的概念。

“虛擬人”并不是一個常規(guī)意義的有血有肉的人,而是一個綜合了多類技術(shù)而形成的,生活在數(shù)字世界中的“人”。虛擬人概念的催生,也正是得益于近些年來CG技術(shù)、人工智能技術(shù)等的不斷發(fā)展。虛擬人是一個技術(shù)的綜合體,是人類用科技擬合自身的浪漫探索與想象。

02 虛擬人是什么

虛擬人是什么呢?人類理解一個事物的時候往往喜歡首先探究它的概念。對于虛擬人這個概念,很多機構(gòu)試圖給出它的定義,或者是分類,比如有的認為可以分成“虛擬人”、“數(shù)字人”、“數(shù)字虛擬人”,有的認為可以分為“meta hunman”和“AI being”等等。

我本人沒有那么權(quán)威,但也想給虛擬人下一個定義,這個定義是什么呢?那就是:當我提起“虛擬人”這個概念的時候,你的腦海里浮現(xiàn)出了什么?Bingo,那就是虛擬人!

其實,虛擬人本質(zhì)上是對人的一種模擬,對“人”這個概念的解構(gòu),能幫助我們更好地認識虛擬人。如何賦予虛擬人更有價值的生命,也許就要先從對“人”的探索開始。接下來,我們就從一個“人”本身來出發(fā),看看人由哪幾個關(guān)鍵的部分組成。搞清楚了這個之后,針對每一個部分,再來聊一聊,虛擬人是如何通過多種多樣的技術(shù)來擬合人類的。

03 「身體+靈魂」+「世界+人設(shè)」

何為人?針對這個問題,我先拋出一個我認知里的公式:

人=「身體+靈魂」+「世界+人設(shè)」

身體和靈魂,靈與肉,這是組成生命的唯二兩個部分,我想這個結(jié)論應該是大多數(shù)人都能認可的。我這里說的身體可以譯為body,主要是指我們自身上“有形”的那一部分,包括我們的軀干、四肢、手腳,以及看的見的表情動作等;相對的,靈魂可以譯為soul,這里主要是指我們身上那些“無形”的部分,例如我們的感知、意識、知識、感情等。

有了身體與靈魂,我們可以說已經(jīng)得到了一個“人”了,但僅僅這樣還是不夠的。馬克思說過,“人是一切社會關(guān)系的總和”。一個人的社會屬性很重要,對于虛擬人來說也是如此。

對于虛擬人的社會屬性,我也把它簡單概括為兩個方面:世界和人設(shè)。世界代表外部環(huán)境,虛擬人也需要一個生活的空間,一個舞臺,這是外界給TA的;人設(shè)代表內(nèi)部環(huán)境,虛擬人也需要有社會屬性,需要合適的外貌、技能、性格……這是TA回饋給外界的。
那么,以上這四個元素是如何作用的,從技術(shù)的角度又是如何實現(xiàn)的,且聽我細細道來。

1. 身體

從唯物的角度來看,身體是人必不可少的組成部分。這里,我把身體這個元素進一步拆成兩個要素,分別是:靜態(tài)+動態(tài)。

1)靜態(tài)

指人的外觀,對于真人而言,外觀有高矮胖瘦、膚色、男女等區(qū)別,而對于虛擬人而言,還增加了“畫風”這一維度,虛擬人的外觀可以包括二次元、3D、超寫實,甚至賽博朋克等,目前,虛擬人的外形主要靠美術(shù)設(shè)計師和3D建模師共同實現(xiàn)。

2)動態(tài)

指人的動作,一般來說,人的動態(tài)分為三個主要部分:

  1. 軀體動作
  2. 面部表情
  3. 口型動作

這一點對于真人和虛擬人都是比較類似的(虛擬人暫時不涉及動耳朵、動頭皮這種高級藝能)。虛擬人的動態(tài)主要依靠驅(qū)動技術(shù)來實現(xiàn),目前驅(qū)動技術(shù)主要有真人驅(qū)動和AI驅(qū)動兩種流派。

2. 靈魂

就像電影《心靈奇旅》里演的那樣,靈魂也是一個人的重要組成部分。對于虛擬人來說,靈魂主要是通過AI技術(shù)來打造的。這里,我把靈魂也分成了幾個要素:

1)感知

感知是人最生物性的層面,主要是和我們的五感有關(guān),具體來說就是看、聽、說三個部分,分別由眼睛、耳朵、嘴來負責,結(jié)合到AI能力,就是CV、ASR、TTS。

2)認知

認知是在感知的基礎(chǔ)上進一步形成的思考能力,這里我把認知能力進一步分成兩個方面,分別是理性的認知能力感性的認知能力,其中,理性的認知還可進一步分為知識儲備、理解、決策三個層級的能力,對應于AI中的KG、NLP、ML;感性的認知主要指的是利用AI構(gòu)建的情感識別功能。

3)創(chuàng)造

就像我們小學的時候會先學習漢字,學習造句,再學習寫作文一樣,創(chuàng)造是更高一級的智力活動,只有在進行過大量的學習之后,才能進行有效的創(chuàng)造,人如此,虛擬人亦如此,虛擬人的創(chuàng)造主要依賴于生成類的AI算法來進行輸出。

3. 世界

對于一個人,我們要給他一個世界,一個舞臺,這個人才算有了一個全面展示自己的空間,虛擬人亦如此,這個世界就是虛擬人生活的空間。關(guān)于世界,這里我也(強行)分成兩個要素:

1)渲染

渲染就是讓這個虛擬的“人”呈現(xiàn)在我們面前,渲染技術(shù)分為離線渲染、實時渲染等,渲染技術(shù)的選型會直接影響虛擬人的呈現(xiàn)效果,你看到的是4k還是1080p與它有直接關(guān)系,渲染技術(shù)很大程度上決定了虛擬人演出的舞臺效果。

2)終端

虛擬人沒有物質(zhì)性的實體,目前階段我們必須借助終端才能看到它,現(xiàn)在可以承載虛擬人終端的設(shè)備數(shù)量越來越多,移動端、IoT、VRAR等都有大量的空間。在未來,虛擬人技術(shù)也有可能真正和實體機器人進行結(jié)合,變身成真正幾乎“以假亂真”的智能體。

4. 人設(shè)

我們總說明星有人設(shè),其實每個人都有人設(shè)。人生在世,誰又能時時刻刻保持自己永遠都是一個耿直的real boy/real girl呢?我們在面對家人、朋友、同事時,甚至會換上不同的人設(shè)。對于虛擬人而言,這也是一樣的,而且由于虛擬人現(xiàn)在還比較「笨」,不能像真實的小精靈鬼們一樣多種人設(shè)無縫切換,因此,對于每一個虛擬人而言,打造一個專有場景的專有人設(shè)至關(guān)重要。

人設(shè)就是面向社會和公眾在特定場景下所表現(xiàn)出來的品牌、IP等,一個好的人設(shè),不僅僅需要合適的外形風格、肢體動作,也需要合適的知識儲備、談吐風格、甚至創(chuàng)作風格。人設(shè)不是一個技術(shù)類的概念,它更偏向于產(chǎn)品和運營方面。

運營好一個IP類虛擬人,和經(jīng)紀公司運營一個明星的道理是一樣的,甚至有更大的難度,而擁有好的人設(shè)IP運營sense的企業(yè)在虛擬人賽道甚至元宇宙時代里脫穎而出的概率也是極大的。

以上,就解釋清楚了我自己對于虛擬人定義的邏輯框架:

人=「身體+靈魂」+「世界+人設(shè)」

其邏輯腦圖如下圖所示

接下來,我將依照這個邏輯分別簡單展開陳述一下相關(guān)的技術(shù)向內(nèi)容。

04 身體

「身體」又被我進一步分成了兩個要素:靜態(tài)與動態(tài)。靜態(tài)就是我們的外殼,包括頭、軀干、四肢等,動態(tài)就是身體的動作,面部的表情,說話時的嘴形等。

對于一個真實的人來說,這一切都是來的自然而美妙,我們的身體由母親孕育而來,體內(nèi)有無數(shù)的神經(jīng)細胞控制著每一塊肌肉的運動,身體和靈魂是一個有機的整體。但對于虛擬人而言,這一切就沒那么自然了,全要倚賴人類的設(shè)計。其中,靜態(tài)外形的誕生主要依賴于各種建模技術(shù);動態(tài)的產(chǎn)生則要依賴各類驅(qū)動技術(shù)。

對于虛擬人而言,想讓靜態(tài)和動態(tài)聯(lián)動起來,二者之間必須的一個橋梁就是綁定,通過對身體各個骨點的綁定,來達到控制各個身體部分動起來的目的,如下圖所示:

1. 靜態(tài)

靜態(tài)外形的誕生主要依賴于各種建模技術(shù),目前的建模方式主要有以下幾種:

  • 3D軟件建模
  • 儀器采集建模
  • 自動化建模

建模方式一:3D軟件建模

指通過3D建模軟件來人工塑造出3D的模型,該方式人工制作周期較長,但效果可控,是目前應用最廣泛的建模手段。

常用的3D建模軟件有很多,主要有以下幾類:

  • 傳統(tǒng)3D建模:3Dmax、Maya、blender等
  • 雕刻軟件:zbrush、blender等
  • 程序化建模:houdini等

其中,傳統(tǒng)3D軟件主要負責制作低模,雕刻軟件可以輔助制作高模,限于篇幅原因,這里不做過多展開,總之,低模的特點是面數(shù)少,視覺效果一般,但所占計算資源少,運行速度快;高模則正好相反,面數(shù)多,視覺效果好,但占用資源多,容易卡頓。

下面這塊磚頭很好的解釋了高模和低模的區(qū)別(雕刻軟件的「雕刻」二字含義就是精細的雕出坑坑洼洼的細節(jié),使其看上去更真實)。

現(xiàn)代建模流程中一般會使用“烘培”的方法,簡單來說就是底層結(jié)構(gòu)是低模,但是在低模的面上貼上高模的貼圖,類似于「披著羊皮的狼」,達到一種看上去視覺效果很好,運行速度又快的效果。

手工建模有多種工作流程,主要的可以分成傳統(tǒng)模式、次世代模式兩種:

  1. 傳統(tǒng)模式:大概流程是先作低模,然后直接手工畫貼圖,結(jié)構(gòu)上的材質(zhì)等信息全靠人手作畫,這種方式只能做出比較卡通的模型,做不出特別精致的效果。
  2. 次世代模式:大概流程是先做低模,然后用zbrush等軟件做雕刻使其變成高模,然后再把各個面的貼圖拆分,再烘焙回去,這樣一來,模型結(jié)構(gòu)是低模的,上面的貼圖是逼真的高模渲染出來的,因此看上去既真實,又不卡內(nèi)存,次世代模式可以做出非常精致的模型。

3D建模技術(shù)涉及到計算機圖形學、3D美術(shù)等多方面技術(shù),限于篇幅和水平原因,這里敘述的比較淺顯,日后如果有更多研究我會再進行更細致的補充。
開個小差:很多小伙伴應該都聽說過美術(shù)生會經(jīng)常畫人體素描,還會因此產(chǎn)生一些羞羞的聯(lián)想,但其實我作為一個超業(yè)余美術(shù)愛好者,深知人體真的是很難畫的,其難點主要有三:

  1. 人體真的很不規(guī)則,可以設(shè)想,你能見到的大部分物體都是比較規(guī)則的,想想你身邊的床、柜子、桌椅板凳……出于工業(yè)設(shè)計與制造的方便,大多我們用到的物品都是由立方體、圓柱體等基本圖形以及其組合而演變來的,而人體卻是復雜的骨骼外面包裹了復雜的肌肉,既不是全方的也不是全圓的,哪怕是一條簡單的胳膊也包含了微弱的高低起伏,因此是非常難以概括的。
  2. 人的動態(tài)非常豐富,一個人的肢體活動是非常多變的,而多變的肢體活動帶來的是肌肉的拉伸、擠壓和復雜的透視,因此,想做出非常自然的虛擬人姿態(tài)難度是很大的,需要對各個肌肉及其聯(lián)動的數(shù)據(jù)權(quán)重進行大量的微調(diào),是需要非常豐富的建模及綁定經(jīng)驗的。
  3. 人對人的敏感程度非常高,這就好比畫一棵樹,只要我畫了一堆樹葉上去,你可以完全不在乎樹葉畫的是不是和窗外那棵一模一樣,只要能看出來是樹,就可以了;對于人就不是這樣了,世界上有這么多人,卻很難找到兩個長得一模一樣的人,人對于人臉的敏感程度非常高,稍微不像就能看的明顯,因此對于一些高保真的明星偶像的建模,也需要強大的美術(shù)功底才能支撐。

建模方式二:儀器采集建模

相比于手工建模,儀器采集建模是通過儀器掃描的方式來進行建模。該方式成本較高,目前一般用于影視特效制作等領(lǐng)域居多。儀器采集建模技術(shù)分為靜態(tài)掃描建模和動態(tài)光場重建:

  • 靜態(tài)掃描模型技術(shù)是目前的主流,可具體細分為結(jié)構(gòu)光掃描重建與相機陣列掃描重建等。
  • 動態(tài)光場重建技術(shù)是目前重點發(fā)展的方向,不僅可以重建人物的幾何模型,還可一次性獲取動態(tài)的人物模型數(shù)據(jù),并高品質(zhì)重現(xiàn)不同視角下觀看人體的光影效果,具有高視覺保真度。

許多關(guān)于虛擬人的行研報告里都有關(guān)于以上兩種技術(shù)的詳細介紹,例如國海證券的《數(shù)字虛擬人——科技人文的交點,賦能產(chǎn)業(yè)的起點》中,「圖表:主要建模技術(shù)概況」就概括的很好,有興趣的讀者可以找來看看。
建模方式三:自動化建模

自動化建模主要包含以下一些方式:

  • 圖像采集建模:通過采集照片來還原人臉 3D 結(jié)構(gòu)
  • AI建模:利用AI算法直接生成人臉、身體等的建模方式

自動化建模技術(shù)目前還不算特別成熟,建模結(jié)果到直接商用還有一段距離,不過,該類技術(shù)會大大降低建模的人力成本和時間成本。目前已經(jīng)出現(xiàn)了一些支持虛擬人創(chuàng)建的工具化平臺,如英偉達的 Omniverse Avatar、Epic Unreal的 MetaHuman Creator 等。尤其是2022年6月最新發(fā)布的Unreal的MetaHuman Creator ,其效果令人驚艷。

這些平臺的建模精度雖不足以建立超高質(zhì)量的模型,但能夠大幅降低虛擬人建模的成本,讓普通人也能快速擁有屬于自己的虛擬形象。隨著技術(shù)的發(fā)展,自動化建模的效果還會變得越來越好。在未來,這種方式有可能直接實現(xiàn)虛擬人生產(chǎn)流程的自動化,和元宇宙入口、虛擬分身、千人千面等概念聯(lián)系起來,擁有巨大的想象力。

2. 綁定

綁定技術(shù)是動態(tài)與靜態(tài)聯(lián)動的橋梁,簡單來說就是給做好的虛擬小人在關(guān)鍵位置打上點,方便后續(xù)通過驅(qū)動關(guān)鍵點來驅(qū)動小人做出各種表情與姿態(tài)。關(guān)鍵點的位置遍布全身,例如軀干上,手肘、手腕、膝蓋、腳踝等關(guān)節(jié)就是關(guān)鍵點;面部的眼皮、嘴角、眉頭等關(guān)鍵位置也要打上關(guān)鍵點,讓虛擬小人“眉飛色舞”。

筆者自己曾學過簡單的Maya骨骼綁定,簡單來說,軀體部分的綁定的流程如下:

  • 創(chuàng)建骨骼(就是做個火柴人出來)
  • IK等方式添加骨骼的聯(lián)動(例如腳踝抬起時膝蓋也會自然彎曲)
  • 為骨骼蒙皮(就是把虛擬人的「血肉」和「骨骼」的關(guān)鍵點一一對應起來)
  • 調(diào)整權(quán)重(讓虛擬人在運動時肌肉的形變更加自然)

面部的綁定流程和軀體整體而言差不多,只是面部需要人做很多表情,做表情的時候諸如眼皮、嘴形、眉頭、蘋果肌等都會進行聯(lián)動,因此面部綁定所需要的關(guān)鍵點更多更復雜。

隨著技術(shù)的發(fā)展,工業(yè)流程的演進,綁定技術(shù)也在向著更便捷、更高效、更智能、邊際成本更低的方向發(fā)展,關(guān)于這一點可以參看的國海證券《數(shù)字虛擬人——科技人文的交點,賦能產(chǎn)業(yè)的起點》中的「圖表:綁定環(huán)節(jié)的技術(shù)革新」。

3. 動態(tài)

完成以上兩步之后,我們就可以通過驅(qū)動的方式讓虛擬人動起來。整體而言,虛擬人可以分為交互型、非交互型兩種。
非交互型主要通過設(shè)置預制動作來讓人物動起來,類似于動畫片的原理,不能實現(xiàn)實時互動。

交互型虛擬人是我們的重點。交互型虛擬人需要靠驅(qū)動技術(shù)來驅(qū)動動作、表情、嘴形,這樣,虛擬人才能做到根據(jù)外界刺激進行反饋的效果。交互型數(shù)字人的驅(qū)動可以分為傳統(tǒng)驅(qū)動方法和智能驅(qū)動方法。

1)傳統(tǒng)驅(qū)動方法

可以分成光學動作捕捉、慣性動作捕捉、Track 設(shè)備+IK 算法的動作捕捉等方法,現(xiàn)階段,光學式和慣性式動作捕捉占據(jù)主導地位。傳統(tǒng)驅(qū)動方法一般需要”真人+動捕設(shè)備”來進行驅(qū)動,這個后臺的真人又稱為“中之人”

2)智能驅(qū)動方法

智能驅(qū)動是指通過AI技術(shù),例如CV、ASR、TTS等來對虛擬人進行驅(qū)動,該方式造價成本低,可以無限拓展,在未來有很大的想象空間。不過現(xiàn)階段AI技術(shù)有限,一般需要結(jié)合合適的場景,通過較多垂直領(lǐng)域的訓練才能達到商業(yè)可用的效果。

關(guān)于這一部分,我同樣參考了國海證券《數(shù)字虛擬人——科技人文的交點,賦能產(chǎn)業(yè)的起點》中的「圖表:主要捕捉技術(shù)特性對比」和「圖表:主要驅(qū)動技術(shù)概況」。我覺得這份材料的很多總結(jié)簡潔到位,是一份非常不錯的參考材料。

05 靈魂

其實用“靈魂”這個詞只是為了表達“身體與靈魂”這一概念的方便,其實我更想表達的是類似于“頭腦、意識”這樣的一個抽象的概念,與身體的“物質(zhì)性”相對應,它屬于人的“非物質(zhì)”那一部分,我姑且把它稱為“靈魂”。關(guān)于「靈魂」我想分為3個層面來介紹,分別是感知、認知和創(chuàng)造。虛擬人的「靈魂」主要需要依賴各種AI技術(shù)來進行賦能。

1. 感知

感知是人最生物性的層面,主要是和我們的五感有關(guān),具體來說就是看、聽、說三個部分;目前,直接的知覺、嗅覺等技術(shù)還不成熟,也許未來的腦機接口、體感設(shè)備等技術(shù)會在這些方面有所突破。

虛擬人的感知技術(shù)主要依賴于人工智能,在感知層面,人工智能技術(shù)當下整體而言是成熟的,不成熟的部分短時間內(nèi)也難有重大突破,因此一般需要結(jié)合具體場景,通過合理的產(chǎn)品設(shè)計和精細化運營等方式來達到可用的程度

看:計算機視覺CV

計算機視覺技術(shù)可以幫助虛擬人“看”到物體,并作出一定程度的簡單分析。計算機視覺技術(shù)主要依靠深度學習中的CNN網(wǎng)絡(luò),一般的技術(shù)應用均為CNN的變種。CV技術(shù)主要有以下幾類應用。

1)分類

給定一張輸入圖像,圖像分類任務旨在判斷該圖像所屬類別,例如,檢測出一張照片中的主角是貓還是狗等,常用的分類網(wǎng)絡(luò)包括AlexNet、VGG-16/VGG-19、ResNet等

2)檢測

在圖像分類的基礎(chǔ)上,給出圖像中的目標包圍盒,常用的目標檢測算法包括:

  • 基于候選區(qū)域的目標檢測算法,如R-CNN、Fast R-CNN、Faster R-CNN等
  • 基于直接回歸的目標檢測算法:如YOLO、SSD等

3)分割

可以進一步分為語義分割、實例分割,均可理解為更加精細的檢測任務,常用算法包括Mask R-CNN等。

下圖非常形象地表示出了CV的幾種關(guān)鍵任務,分別是:

  • 分類
  • 檢測
  • 語義分割
  • 實例分割

CV類技術(shù)有非常廣泛的應用,例如人臉識別、姿態(tài)識別、障礙物識別等,這些具體的應用技術(shù)均可以和虛擬人賽道進一步結(jié)合來滿足虛擬人的不同應用場景。

聽:語音識別ASR

將聽到的聲音轉(zhuǎn)化成語言的技術(shù),主要分為聲音接收和聲音識別兩個部分。
聲音接受部分主要依賴于硬件、環(huán)境及聲源,一般來說,較高級的聲音接收設(shè)備、噪音較小的環(huán)境,發(fā)音標準且音量適中的聲源均會提升聲音接收的質(zhì)量。

聲音識別部分主要依賴于機器學習及其中的深度學習等AI技術(shù),主要可分為傳統(tǒng)方法和端到端方法:

  • 傳統(tǒng)方法:需要先提取聲音信息特征,例如MFCC、LPCC等,這里主要涉及信號處理相關(guān)知識;提取特征后再采用HMM、語言模型等綜合得出識別結(jié)果。
  • 端到端方式:主要依托于深度學習技術(shù),由于語音本身是具有時序性的(倒放的語音很難聽懂),因此語音識別主要依托以RNN為基礎(chǔ)的時序類深度學習模型,例如其衍生出的LSTM、GRU等,來完成語音到文字的轉(zhuǎn)化工作。

說:語音合成TTS

把文字轉(zhuǎn)化成語音播放出來的技術(shù)就是TTS技術(shù),能形成自然、流暢、動聽的聲音是TTS技術(shù)所追求的目標。

從技術(shù)的角度來看,TTS系統(tǒng)主要分為前端系統(tǒng)和后端系統(tǒng):
前端系統(tǒng)負責對文字進行分析,并形成一份“發(fā)音指南”,里面包括每個字的讀音音素、連讀、重音、停頓、多音字讀法等,這份“發(fā)音指南”就像一個發(fā)音“說明書”,會傳給后端。

后端系統(tǒng)按照前端生成的“發(fā)音說明書”,負責把聲音合成出來,目前主流的后端合成技術(shù)有兩大類,分別是“拼接法”和“參數(shù)法”。

  1. 拼接法:先通過真人錄制聲音,再根據(jù)“說明書”把需要的聲音片段拼合起來,這種方法優(yōu)點是聲音本身自然動聽,缺點是人力成本高,且流暢度容易出現(xiàn)問題。
  2. 參數(shù)法:用聲音信號的參數(shù),如基頻、頻譜等來表示聲音,將“聲音說明書”中每一個音素的“參數(shù)”找出來,合成對應的聲音;參數(shù)法的優(yōu)點是成本低,缺點是機械感比較明顯,不夠自然,不過該方法會隨著技術(shù)發(fā)展效果越來越好,應用范圍也會越來越廣;目前比較主流的參數(shù)法一般是使用端到端的方法,例如Tacotron2、WaveNet等。

2. 認知

認知是在感知的基礎(chǔ)上進一步形成的思考能力,這里我把認知能力進一步分成兩個方面,分別是理性的認知能力和感性的情感識別能力。

理性認知能力

1)知識:知識圖譜KG

知識主要依賴于知識圖譜技術(shù)。知識圖譜是給知識形成的一個以三元組

實體<—>關(guān)系<—>實體

為核心的邏輯圖,例如以中國城市為主題的邏輯圖,就是下列形態(tài):

其中,“中國”、“北京”、“遼寧”、“沈陽”等都是實體,“是直轄市”、“是省”、“是省會”等就是關(guān)系。

知識圖譜可以在任意知識領(lǐng)域運用,例如金融業(yè)有銀行理財知識圖譜、保險知識圖譜等;農(nóng)業(yè)領(lǐng)域有動植物知識圖譜、農(nóng)作物知識圖譜等;一個好的知識圖譜就是一個邏輯清晰的知識寶庫。

知識圖譜可以以圖數(shù)據(jù)庫、三元組數(shù)據(jù)庫等形式進行存儲。如果把知識圖譜“喂”給一個虛擬人,該虛擬人就有了這個方面的豐富知識。例如,銀行業(yè)務導引虛擬人就需要非常豐富的銀行業(yè)務知識,文旅導游虛擬人就需要對導游相關(guān)知識非常了解……

知識圖譜能快速賦予虛擬人以某一方面的專業(yè)知識,堪比《西游記》中的孫悟空吃掉一本書立刻就能掌握書中內(nèi)容了。知識圖譜的完善對于虛擬人的應用意義非凡,而知識圖譜本身技術(shù)難度不大,其完善主要的門檻在于對于垂直細分行業(yè)的深度理解。

2)理解:NLP

通過感知,虛擬人可以獲得外界的信息。通過CV「看到」的信息,通過ASR「聽到」的信息,都可以轉(zhuǎn)化成語言文字的形態(tài)。但僅有感知還是不夠的,虛擬人不僅要能獲取信息,還需要理解這些信息所代表的真正意圖,明白感知到的信息的含義,才能做出下一步的動作。

NLP技術(shù)的全稱是自然語言處理技術(shù),重點就是理解語義信息,主要包括詞法分析、句法分析、語義分析、情感分析等幾個部分。通過NLP技術(shù),可以做以下事情:

  • 對一句話進行分詞(主要針對中文等語言,英文就不用了)
  • 分析出每個詞的詞性,判斷是名詞還是動詞,是形容詞還是副詞等
  • 分析出句子的語法結(jié)構(gòu),例如主謂賓等
  • 分析出各個部分的施事受事關(guān)系,例如“我打你”,“我”是施事,“你”是受事
  • 通過語氣詞、“喜歡”、“討厭”等關(guān)鍵詞分析出句子的情感傾向

通過以上種種環(huán)節(jié),虛擬人便可以通過NLP技術(shù)來理解感知到的信息的含義,識別出信息的意圖,便于后續(xù)做出進一步的反饋等交互動作。

3)決策:數(shù)據(jù)智能ML

決策能力是人的一項重要素質(zhì),對于虛擬人來說,也可以通過AI的方式提升決策能力,而這一能力的提升主要依賴的就是各種數(shù)據(jù)智能模型。

簡單來說,數(shù)據(jù)智能就是通過搜集某一問題的大量歷史數(shù)據(jù),再通過機器學習的某個算法擬合出該問題的函數(shù)模型,并依據(jù)函數(shù)模型對未來做出預測與決策。例如,可以通過某一產(chǎn)品的歷史銷量分析出該產(chǎn)品未來的銷量走勢;可以根據(jù)球隊的歷史勝負情況來預測未來某一場球賽的結(jié)果等,宛如那年夏天的章魚保羅。

常用的可以用于決策建模的機器學習算法非常多,從有無標簽可以分為有監(jiān)督、無監(jiān)督、半監(jiān)督;從任務類型可以分為分類、回歸、聚類、時序預測等。經(jīng)典的機器學習算法很多,例如決策樹、支持向量機、XGBoost等等,篇幅原因不做具體展開,感興趣的讀者可以看一看周志華老師的西瓜書。

對于數(shù)據(jù)智能任務而言,模型其實并不難,現(xiàn)階段真正難的是是否有足夠多的有價值的數(shù)據(jù)。互聯(lián)網(wǎng)、金融等企業(yè)相對而言有效數(shù)據(jù)的收集意識較強,但很多傳統(tǒng)企業(yè),收集數(shù)據(jù)的意識還較弱,目前也正在數(shù)字化轉(zhuǎn)型當中。隨著數(shù)字化轉(zhuǎn)型的進程,虛擬人也會有越來越多的應用。

情感識別能力

人不僅需要理性,也需要感性。親情、友情、愛情,人與人之間的交往往往是感性大于理性的。對于虛擬人而言,除了理性方面的知識、理解、決策等能力,對于情感的把握也是應該具備的品質(zhì)。能夠進行情感識別、情感反饋的虛擬人,在目前還是藍海的陪伴型虛擬人賽道有著巨大的用戶價值和商業(yè)價值。

情感識別是一項綜合的能力,例如,通過CV技術(shù),虛擬人可以分辨人的表情是開心還是難過;通過ASR技術(shù),虛擬人可以通過聲紋來分析說話人的說話語氣是高興還是壓抑,甚至是憤怒;通過NLP技術(shù),虛擬人可以分析說話人說話的內(nèi)容中,是否含有強烈的表達態(tài)度的語氣詞,例如“喜歡/不喜歡”、“垃圾”、“太贊了”……

心理學家羅伯特·普拉切克提出了情緒輪,內(nèi)含8種基本情緒,可以作為情緒識別標簽設(shè)計的依據(jù)。

情感識別的能力目前已經(jīng)在輿情控制、課堂教學等領(lǐng)域得到了一定的應用,但整體而言現(xiàn)階段還不夠成熟,還有巨大的探索空間。

3. 創(chuàng)造

就像我們小學的時候會先學習漢字,學習造句,再學習寫作文一樣,創(chuàng)造是更高一級的智力活動。只有在進行過大量的學習之后,才能進行有效的創(chuàng)造,人如此,虛擬人亦如此。

目前,“創(chuàng)造”主要是用在虛擬人的創(chuàng)作領(lǐng)域,例如AI作畫、作詩、寫新聞稿、開放式聊天等等,主要依賴的是以GAN為基礎(chǔ)的生成式模型。

整體而言,創(chuàng)造類技術(shù)目前成熟度不高,僅在一些規(guī)范性比較強的領(lǐng)域如新聞稿等有一些成功案例,更多的應用還集中在概念展示階段,距離真正大規(guī)模商用,還有一段距離。距離產(chǎn)生美,這也給虛擬人未來的潛力提供了巨大的想象空間。

06 世界與人設(shè)

之所以分成「身體+靈魂」、「世界+人設(shè)」,是因為前兩個代表個體,后兩個代表外界。而在后兩個元素中,「世界」是外面給我們的,是由外而內(nèi)的,人設(shè)是我們給外面的,是由內(nèi)而外的,美妙嗎?非常美妙。

1. 世界

世界,就是虛擬人生活的周圍環(huán)境。在有了一個虛擬人之后,我們還需要給它一個載體,一個舞臺,讓虛擬人走到臺前來發(fā)揮它的價值。構(gòu)建虛擬人世界的技術(shù),我想談兩個點,分別是渲染和終端。

1)渲染

渲染,就是把做好的模型呈現(xiàn)在屏幕上的過程,或者說需要通過數(shù)學計算的方式,把做好的模型變成計算機屏幕上一個個像素點的顯示RGB值,來完成實際顯示的過程。渲染主要涉及到的技術(shù)是計算機圖形學,這一過程需要大量的關(guān)于頂點位置、顏色、光照等的計算,也會消耗大量的計算資源。

渲染主要可以分為離線渲染和實時渲染,其中,離線渲染主要用在電影、廣告等可以提前做好無需交互的場景里,允許花費較長時間,因此效果很好,但成本也很高;實時渲染主要用在游戲、直播等需要實時互動的場景里,對時間比較敏感,因此效果略弱于離線渲染。

Unity和Unreal以往都是用來制作游戲的游戲引擎,二者都是實時渲染的利器。雖說比不上離線渲染的效果,但二者的制作水平也在不斷升級,目前新出的Unreal5,其能夠達到的渲染效果已經(jīng)非常優(yōu)質(zhì),實時渲染的效果正在一步步向離線渲染逼近。

(注:本圖來自國海證券《數(shù)字虛擬人——科技人文的交點,賦能產(chǎn)業(yè)的起點》)

另外,近些年來發(fā)展的PBR技術(shù)對于虛擬人的發(fā)展也至關(guān)重要。PBR 是基于真實物理世界的成像規(guī)律模擬的一類渲染技術(shù)的集合,它使得渲染效果突破了塑料感。該項技術(shù)使虛擬數(shù)字人皮膚紋理變得真實,進而有助于突破恐怖谷效應。常見的幾款 3D 引擎,如 UE4,Unity 3D 5等,均有了各自的 PBR 實現(xiàn)。

實時渲染技術(shù)的發(fā)展可以讓虛擬人在交互的環(huán)境下提升用戶體驗,對于VR、AR等賽道的普及與發(fā)展有極大的助力。
2)終端

當前,虛擬人沒有實體,是需要依托屏幕來顯示的,因此虛擬人需要生活在終端里,虛擬人如果有實體,那就不叫虛擬人,叫機器人了。其實,現(xiàn)在已經(jīng)有材料等領(lǐng)域的科學家在研究非常類似于人表皮組織的材料,以期待能做出幾乎以假亂真的“人形機器人”,該項技術(shù)近期也取得了一定的突破性成果。2022年6月,日本東京大學宣布,世界上首次成功開發(fā)出人工培養(yǎng)的“活”皮膚覆蓋的手指型機器人。但該類技術(shù)距離真正成熟還有很遙遠的距離,而且也面臨著社會倫理等方面的巨大挑戰(zhàn)。

總的來說,最近一段時間,虛擬人還是要深度依賴電子終端的。隨著科技的發(fā)展,虛擬人能夠活躍的終端種類也越來越豐富,我簡單總結(jié)了一些我能想到的各類終端,分類并不嚴謹,只是一個大致的羅列:

  • 常規(guī)終端:手機端、PC端、電視大屏端
  • IoT:智能家居、智能座艙等終端
  • 產(chǎn)業(yè)終端:銀行導覽、商場導購等
  • 新終端:VR、AR、裸眼3D全息等

2. 人設(shè)

最后,再來聊一聊人設(shè)。

和上面的內(nèi)容相比,人設(shè)是一個非技術(shù)的概念,按說不應該放在「技術(shù)篇」來講。但是它偏巧又很重要。我們每個人都有一個最本真的“我”和一個社會的“我”,我們面對不同的人會帶上不同的面具,這一點對于虛擬人來說是一樣的。在技術(shù)整體水平基本無法拉開差距的時候,對于一個虛擬人產(chǎn)品而言,更重要的就是是否有一個好的人設(shè)。

不同場景、不同設(shè)定的虛擬人,其人設(shè)是完全不同的,這給產(chǎn)品、運營、技術(shù)都帶來了很大的挑戰(zhàn)。

好的虛擬人一定是一個好產(chǎn)品。一個好的產(chǎn)品,有三個要素是必不可少的,分別是敲門磚,護城河,生命線。敲門磚決定門檻,護城河決定優(yōu)勢,生命線決定盈利。對于虛擬人而言,這三個概念可以這樣理解:

1)敲門磚

敲門磚就是好的人設(shè)。虛擬人對于人設(shè)的塑造非常重要,如果是一個虛擬偶像,那就需要好的IP、靚麗的外形、活潑的肢體語言,甚至是唱跳、創(chuàng)作等能力;而如果是一個銀行的虛擬員工,TA就應該像萬千打工人一樣,簡約、專業(yè),可靠……總之,是否有一個和場景搭配的外形設(shè)計,是否有足夠切合的性格設(shè)計,是否能夠依托于一個IP或者品牌,都對虛擬人的后續(xù)運營工作至關(guān)重要。

2)護城河

優(yōu)秀的人設(shè),要結(jié)合扎實的產(chǎn)品設(shè)計和優(yōu)質(zhì)的技術(shù)實現(xiàn)才有可能達到。不同的人設(shè),其產(chǎn)品的細節(jié)設(shè)計也是不同的:一個“小女孩”的人設(shè)說話一般是俏皮的,一個職員的人設(shè)說話一般是專業(yè)親切的,這對于產(chǎn)品話術(shù)的設(shè)計提出了考驗。

從身體外形的角度,虛擬人可以分為二次元、類人、超寫實、未來科幻等不同風格;從人格靈魂上來講,一個銀行引導型虛擬人需要具備豐富的金融行業(yè)知識、一個虛擬偶像需要具備唱歌跳舞,甚至是歌曲創(chuàng)作等能力;一個陪伴老人的虛擬人,可能需要豐富的醫(yī)療、保健方面知識和對情感的感知與回饋……

人設(shè)的打造既要滿足產(chǎn)品的需求,又要兼顧到技術(shù)的邊界……可以說,一個成功的虛擬人IP的打造,是非常不易的。

3)生命線

對于任何一個偶像類的強人設(shè)型虛擬人,其二創(chuàng)能力非常重要,二創(chuàng)能力可以讓用戶自發(fā)參與其中,形成優(yōu)質(zhì)的生態(tài)圈,同時也對后續(xù)的商業(yè)化變現(xiàn)有巨大增益;好的二創(chuàng)離不開運營的引導支持,這對于虛擬人來說也至關(guān)重要,可以說,二創(chuàng)能力就是虛擬人產(chǎn)品的生命線,決定了虛擬人產(chǎn)品是石沉大海還是強勢出圈,是否能可持續(xù)發(fā)展。

關(guān)于人設(shè),很多人認為虛擬人的一個優(yōu)勢就是不會翻車,畢竟近期劣跡藝人太多,很多公司都因為劣跡藝人受到了影響,虛擬人似乎是一個零差評零緋聞的不錯選項。但是其實,對于虛擬人來說,運營翻車的例子也比比皆是,這也對虛擬人的運營人員提出了巨大考驗。

07 趨勢&邊界

虛擬人賽道是一個技術(shù)的綜合體,任何一項技術(shù)的不完善、不成熟,都制約著虛擬人的“類人”程度??偟膩碚f,虛擬人有三條技術(shù)路徑:

  1. 純?nèi)斯?/li>
  2. 人工+AI
  3. 純AI

純?nèi)斯さ姆绞匠杀具^高,純AI的方式技術(shù)暫不支持,目前基本采用的是人工+AI的方式,但隨著科技的進步,這一流程中的AI部分占比會越來越多,虛擬人整體的制作流程也會成本更低、時間更短。

對于虛擬人賽道的發(fā)展,我們當下要做的事情是:

  1. 明確技術(shù)邊界,并知道不同環(huán)節(jié)不同技術(shù)下的效果、成本和收益
  2. 找到合適的場景,通過場景本身的制約、細分領(lǐng)域的打磨來完成應用
  3. 積極擁抱技術(shù)創(chuàng)新

邊界代表當下,趨勢代表未來,我在這里想淺盤一下主要的技術(shù),并對未來進行一些分析。

1. 邊界與當下

1)傳統(tǒng)方法仍有局限

建模(maya、3Dmax等)、驅(qū)動(中之人動捕)、渲染(Unity、Unreal等)方面,已有的非AI類的工具、技術(shù)均已較為成熟,但依舊存在著一些問題,例如成本較高、制作周期長、實時渲染效果有限且對設(shè)備要求高、過于依賴中之人等。

AI等智能化、自動化等技術(shù)的發(fā)展正在改變以上領(lǐng)域的流程,未來隨著智能化和自動化的發(fā)展,建模、驅(qū)動、渲染等工作會朝著成本更低、時間更短、門檻更低、效果更好的方向發(fā)展。成本的下探至關(guān)重要,成本及門檻下探到一定程度,虛擬人的應用場景才會由B端過渡到C端。

2)AI能力有待提高

AI能夠賦予虛擬人以大腦,AI技術(shù)水平的發(fā)展直接決定了這個虛擬人是否“弱智”。目前,AI能力的成熟度尚不平均,感知類技術(shù)如CV、ASR、TTS等技術(shù)已經(jīng)能夠做到較好的水平,一些AI公司如科大訊飛等也均有相關(guān)能力的提供,成熟度較高;而認知能力需要深度的業(yè)務知識加成和大量的訓練數(shù)據(jù)支撐;情感類能力、創(chuàng)作類技能目前尚不成熟,距離大規(guī)模商業(yè)落地還有一段距離,目前需要依賴精細化的產(chǎn)品設(shè)計和運營。

3)其他需要關(guān)注的點

我們需要關(guān)注的點不僅僅是AI、CG等高度相關(guān)的技術(shù),對于周邊的技術(shù)例如基礎(chǔ)設(shè)施建設(shè)、VRAR技術(shù)、芯片及算力、邊緣計算能力等的發(fā)展,也需要高度重視;同時,偏產(chǎn)品和運營維度來說,對于IP設(shè)計、人物設(shè)計、二創(chuàng)運營等能力,也需要引起足夠重視。

2. 趨勢與未來

未來虛擬人相關(guān)技術(shù)的發(fā)展將會有幾個大的趨勢:

  • 視覺效果更加美觀、流暢、炫酷,這依賴于計算機圖形學、硬件計算能力、顯示設(shè)備、建模及渲染工具等的發(fā)展。
  • AI等智能化技術(shù)發(fā)展,賦予虛擬人越來越聰明、人性化的大腦,越來越能夠像一個真實的人一樣和人類交流,去體察、決策、陪伴。其中,AI要向兩個方向重點發(fā)展,一是具體行業(yè)的know-how積累,二是情感型陪伴能力的提升。
  • 工作流朝智能化、自動化方向發(fā)展,流程縮短、成本降低,若能端到端的生成可用的虛擬人,將為虛擬人的低門檻大批量制作提供可能。
  • 隨著VR、AR、IoT等賽道的發(fā)展,虛擬人可以活躍在越來越多的終端上,隨之帶來的就是更多的應用場景和能力挑戰(zhàn)。
  • 當成本與門檻足夠低時,就有了人均一個甚至人均多個虛擬人的可能。在元宇宙中,虛擬人可以作為NPC、也可以做真人的第二分身,之后無論是結(jié)合千人千面、還是結(jié)合NFT等概念,都有了無限的想象空間。
  • 未來有可能出現(xiàn)真正的類人機器人形態(tài)的人工智能體,屆時虛擬人將不僅能夠生活在屏幕中,還會有一個實實在在的軀體,但就像克隆技術(shù)一樣,這樣的技術(shù)雖然能夠代表AI、材料、醫(yī)療等諸多學科的科技前沿,但是否符合倫理道德,是否能夠商用,將是一個大大的問號。

在網(wǎng)上,看到了百度李士巖的一段話,很有趣。他認為:數(shù)字人是基于計算機平臺的交互載體,將呈現(xiàn)段落式發(fā)展。

當下所處的平面計算時代,主要以服務型與表演型數(shù)字人應用為主,下一個階段是更大的時代,暫時定義為空間計算時代??臻g計算時代計算平臺呈現(xiàn)的信息不再是平面的,而是實時三維的,屆時核心用戶的行為大概會有社交、獲取商品、信息消費、獲得服務四類,那么能夠提供個性化交互、能提供情緒價值和內(nèi)容價值的虛擬分身是必選項,能夠提供人文情感關(guān)懷、又能保證效率的服務型數(shù)字人則是另一種應用形態(tài)。在未來的空間計算時代,一定會產(chǎn)生比現(xiàn)在平面計算時代更大的市場。

08 結(jié)語

一不小心就廢話了很多內(nèi)容,其實之所以想寫這個主題,原因就是我對虛擬人這個賽道很感興趣。而之所以對虛擬人賽道感興趣,主要是以下幾個原因:

一是從專業(yè)的角度來講,我過去一直是工作在AI賽道的,人工智能的本質(zhì)是對智能體的模擬,虛擬人技術(shù)是對人工智能技術(shù)的綜合應用,也是人工智能體的初級階段,這讓我對TA產(chǎn)生了極大的好奇,很想一探窺之;

二是出于個人的一點私心,本人雖是理科生,但對人文科學與藝術(shù)領(lǐng)域一直非常感興趣;虛擬人賽道和許多科技類賽道不同,更像是科技與人文的交點,在科技發(fā)展的同時也充斥了關(guān)于藝術(shù)、文化、倫理等的討論,讓我心向往之;

三是一點無厘頭的想象,我從小就是一個幻想能力極強的小孩,被二次元深深吸引,我小的時候很喜歡看《數(shù)碼寶貝》這類動畫片,倒是挺希望有一天能和這些電視里的英雄說說話的。就當下而言,試問如果熊大熊二喜羊羊能開口說話,和孩子來一番互動教學,是不是也美滋滋的?

出于以上一些原因,我盡個人的綿薄之力對虛擬人進行了一個調(diào)研,并且想把調(diào)研的內(nèi)容進行梳理,希望能給讀者帶來一點點收獲

對于虛擬人這個賽道,我自己也是一個初學者,目前尚不是行業(yè)內(nèi)的工作者,以上內(nèi)容及觀點主要是通過自學以及基于網(wǎng)絡(luò)材料的調(diào)研形成的。水平非常非常有限,很希望各位業(yè)內(nèi)人士能夠指出我的錯誤和不足,我都會悉心聽取。
十分感謝大家。

參考材料:

  1. 國海證券《數(shù)字虛擬人——科技人文的交點,賦能產(chǎn)業(yè)的起點》
  2. 頭豹研究院《2022年中國虛擬人產(chǎn)業(yè)發(fā)展白皮書》
  3. 天風證券《虛擬數(shù)字人:元宇宙的主角破圈而來》
  4. 華麗智庫《全球時尚虛擬人物研究報告》
  5. 中銀證券《虛擬人行業(yè)深度研究》
  6. 中國傳媒大學《中國虛擬數(shù)字人 影響力指數(shù)報告》2021年度
  7. 艾媒咨詢的《2022年中國虛擬人行業(yè)發(fā)展研究報告》
  8. 頭豹研究院《2022年AI驅(qū)動虛擬人行業(yè)概覽》
  9. 量子位《虛擬數(shù)字人 深度產(chǎn)業(yè)報告》
  10. 安信證券《元宇宙之中國優(yōu)勢:虛擬數(shù)字人,分發(fā)與流通環(huán)節(jié)的新戰(zhàn)場 》
  11. 安信證券《虛擬數(shù)字人的長短期展望:IP 與賦能》
  12. 達摩院《阿里小蜜數(shù)字人互動決策的探索與落地》

PS:部分資料源自網(wǎng)絡(luò),目的是為了更好的說明所講的問題,如有侵權(quán)可以聯(lián)系我進行刪除,不勝感激。
 

本文由 @進擊的唐猜 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 不管怎么說,我還是很期待虛擬人的發(fā)展的,希望未來可以看到虛擬人的好的發(fā)展

    來自浙江 回復
  2. 數(shù)字人是基于計算機平臺的交互載體,將呈現(xiàn)段落式發(fā)展

    來自中國 回復
  3. 曾經(jīng)我也以為虛擬人不會翻車,但后來才發(fā)現(xiàn),也許未來AI控制的虛擬人翻車概率低點,但現(xiàn)在采用中之人的虛擬人翻車概率一點也不低,還是需要公司和團隊好好運營維護才行。

    來自廣東 回復