無限暖暖:AI 數字人微表情背后的技術密碼與未來展望

0 評論 572 瀏覽 1 收藏 22 分鐘

前段時間,疊紙游戲的《無限暖暖》正式公測,細膩生動的人物表現,其實是大量用了數字人的技術。這篇文章,我們就來分析一下數字人技術在微表情下的處理。

隨著《無限暖暖》的公測,游戲中暖暖細膩生動的表情變化,她的眼神流轉、嘴角微合,眉毛挑動,無數的微表情使她仿佛是一個有著真實情感和生命的少女。讓玩家們深刻感受到虛擬角色所蘊含的無限魅力。這不僅彰顯了疊紙游戲公司在人物表情刻畫上的卓越實力,更引發了我們對 AI 數字人與人類情感互動的深度思考。

不管在動畫還是在游戲中,能夠用3D技術讓寫實風格的角色栩栩如生的內容產品,依然是十分缺位的。這幾年 AI 數字人正逐漸走進我們的生活。AI 數字人正逐漸融入我們的生活,從虛擬助手到娛樂角色,它們不斷拓展著我們對人機交互的認知邊界。然而,一個不容忽視的挑戰隨之而來 —— 恐怖谷效應。當 AI 數字人的外觀和行為接近人類,但又無法完全達到人類的自然和真實時,可能會引發人們內心的不安和不適。如何巧妙地跨越這一障礙,實現 AI 數字人與人類之間更加自然、深入的情感共鳴,成為了科技領域亟待解決的重要課題。

圖源:《閃耀暖暖》游戲PV

一、疊紙游戲人物表情刻畫的出色之處

疊紙游戲在3D人物表情刻畫方面表現卓越,以《無限暖暖》為例,暖暖能依據不同情境展現出多樣且精準的表情動作。開心時笑容燦爛、眼含笑意;思考時眉頭微蹙、眼神專注;驚訝時雙目圓睜、嘴巴微張,每個表情都生動傳達出當下情緒。哪怕在定格拍照時,也會像真人一樣充滿各種小動作,而不是僵硬不動。

(圖源:《無限暖暖》游戲實機錄制)

《戀與深空》借助全 3D 建模,讓人物的神態動作更加逼真自然,復雜情感得以細膩呈現,如角色在細微的情感交流時的,掩飾,假裝,糾結與掙扎,通過面部表情的細微變化展現得淋漓盡致。

(圖源:《戀與深空》游戲實機錄制)

《閃耀暖暖》憑借精美建模與豐富表情系統,使暖暖在不同場景中展現出相應情感,搭配時自信滿滿,面對挑戰時堅毅果敢,哪怕是待機時,也會有眼神和微表情變化,極大增強了游戲沉浸感。

(圖源:《閃耀暖暖》游戲實機錄制)

“我們在意每一個眼神的含義,每一個微表情的潛臺詞。”——疊紙團隊

疊紙公司在面部動捕技術方面采用了多種先進設備和方法,以確保捕捉到的角色表情和動作盡可能真實。尤其特別關注角色的眼神捕捉,因為眼神是傳達角色情感的重要手段。通過面部動捕技術,捕捉到動捕演員的眼神變化,并將其應用到3D角色上,使角色能夠更準確地反映出細膩的情感和意圖,更有真人感,活人感。AI 技術上,他們利用深度學習技術對面部表情進行捕捉和分析,通過訓練神經網絡識別人臉和動畫角色表情,提取角色表情信息,獲得動畫角色骨骼參數,并結合人臉幾何信息對臉部關鍵點骨骼參數進行修正。

他們在面部動捕技術上的應用不僅提升了游戲中的逼真度,還通過細致的表情捕捉和眼神分析,增強了角色的情感表達能力,使得游戲角色更加生動和真實。疊紙團隊在 3D 人物微表情研究上成果顯著。《戀與深空》的開發過程中,疊紙團隊注重面部表面材質和陰影效果,配合骨骼動畫、法線紋理和變形體修型,讓微表情動作更加逼真。

(圖:疊紙公司的動捕設施)

二、AI 賦能的 3D 人物在人設和情感表達方面的挑戰

1. 情感真實性難題

AI 數字人在模擬人類情感真實性方面面臨著巨大挑戰。人類的情感是內心深處復雜體驗與對外界感知的綜合反映,其產生機制涉及生理、心理和社會等多個層面的相互作用,是一個極為復雜且內在驅動的過程。例如,一個人在經歷失去親人的痛苦時,不僅僅是表面上的悲傷表情,還伴隨著內心深處的痛苦、無助、回憶等多種復雜情緒的交織,這些情緒會通過微妙的微表情、語氣變化、肢體語言等多種方式自然流露。

然而,AI 數字人要準確模擬這種真實情感,就必須深入理解人類情感的本質和產生根源。目前,盡管 AI 技術在數據處理和模式識別方面取得了一定進展,但在理解人類情感的微妙之處仍存在很大困難。AI 數字人主要依賴大量數據訓練來學習情感表達,但數據往往只能反映表面現象,難以捕捉情感背后的深層次原因和復雜的心理變化。例如,在面對同樣的情境時,不同人可能會因為個人經歷、性格特點和文化背景的差異而產生截然不同的情感反應,而 AI 數字人很難像人類一樣根據具體情境進行靈活而真實的情感表達。

2. 情感連貫性考驗

人類的情感在不同情境和時間中具有連貫性,這是由個人的性格和長期形成的情感傾向所決定的。一個樂觀開朗的人,在大多數情況下都會展現出積極向上的情感反應,無論是面對日?,嵤逻€是重大挑戰,他們的樂觀態度會貫穿始終,在表情、語言和行為上都呈現出一致性。比如,在遇到困難時,他們可能會微笑著鼓勵自己和他人,積極尋找解決問題的方法,這種積極的情感狀態在不同場景中得以延續。

相比之下,AI 數字人要建立穩定的人設和情感邏輯并非易事。它們需要在各種不同的場景中做出符合預設人設的情感表達,否則就會給人一種不真實、不穩定的感覺。例如,一個被設定為溫柔善良的 AI 數字人,如果在某些場景中突然表現出冷漠或暴躁的情緒,就會破壞其整體人設,降低用戶對其的信任和代入感。目前,AI 數字人在情感連貫性方面的表現還不盡如人意,難以像人類一樣在不同情境下保持一致且自然的情感反應。

3. 人設復雜性增加表達難度

成功的人設包含豐富的性格特點、背景故事和價值觀,這些元素需要在不同情境中通過微表情和情感表達自然地體現出來。不同的微表情和肢體語言能夠反映出一個人的性格特征和當下情緒。一個自信果斷的人在做決策時,可能會微微點頭、眼神堅定,同時表情嚴肅專注,這些微表情和肢體動作共同展現出其果斷的性格特點。

對于 AI 數字人來說,要準確展現人設的復雜性,需要具備高度的智能和靈活性。它們必須能夠根據不同情境和交互內容,精準地選擇合適的微表情和情感表達方式。然而,目前的 AI 技術在理解和處理人設的復雜性方面還存在很大的局限性,很難像人類一樣根據豐富的內在特質進行自然而恰當的情感表達,從而在一定程度上影響了其在復雜人設塑造方面的能力。

三、虛擬數字人技術架構與關鍵技術

1. 技術架構概述

虛擬數字人基礎技術架構涵蓋 “五橫兩縱”?!拔鍣M” 包括人物生成、人物表達、合成顯示、識別感知、分析決策等五大技術模塊,用于數字人制作交互。人物生成在 2D 和 3D 數字人中有不同體現,3D 數字人需額外使用三維建模技術,當前靜態掃描建模為主流,動態光場三維重建技術雖具優勢但尚未普及。人物表達包含語音生成和動畫生成,動畫生成中的驅動技術以智能合成和動作捕捉為主要生產方式,渲染技術進步使數字人皮膚紋理更真實。合成顯示涉及終端顯示技術,識別感知包括語音語義識別、人臉識別、動作識別等,分析決策依靠知識庫、對話管理等。“兩縱” 則指 2D、3D 數字人,二者在技術要求和呈現效果上存在差異,3D 數字人相對 2D 數字人在視覺效果和交互體驗上更具優勢,但制作成本和技術難度也更高。

2. 建模技術:從靜態到動態的發展

早期靜態掃描建模技術以結構光掃描重建為主,精度可達 0.1 毫米級,但掃描時間長,在友好度和適應性方面欠佳,主要用于工業生產、檢測領域。如今,相機陣列掃描重建成為人物建模主流方式,毫米級精度且高速拍照掃描,滿足數字人掃描重建需求,國際上如 IR、Ten24 等公司將其商業化用于好萊塢大型電影制作,國內凌云光也成功應用于電影、游戲、虛擬主播等項目。動態光場重建是最新深度掃描技術,可忽略材質直接采集三維世界光線并實時渲染動態表演者模型,包含人體動態三維重建和光場成像兩部分,具有采集數據全面、光影效果真實等優勢,雖目前技術尚未完全成熟,但已成為數字人建模重點發展方向,微軟、谷歌等公司積極開展相關研究,國內清華大學、商湯科技等也在同步推進。

(根據用戶臉部生成的車載智能助手 圖源:百度數字人)

3. 驅動技術:實現生動動作的關鍵

嘴型動作的智能合成已應用于 2D 和 3D 虛擬數字人,其底層邏輯是建立在輸入文本到輸出音頻與視覺信息的關聯映射上,通過對采集數據的模型訓練實現。除嘴型動作外,其他動作如眨眼、微點頭、挑眉等目前多采用隨機策略或腳本策略循環播放預先錄制好的視頻 / 3D 動作,未來有望通過智能分析技術實現自動化。動作捕捉技術是目前最成熟且呈現效果最好的動作生產方式,根據實現方式不同可分為光學式、慣性式、電磁式及基于計算機視覺的動作捕捉。光學式動作捕捉通過對目標上特定光點監視和跟蹤完成,基于 Marker 的光式動作捕捉常用,精度高但造價高昂且對環境要求高;慣性動作捕捉基于慣性測量單元 IMU,價格相對低廉但精度較低且會產生累計誤差;基于計算機視覺的動作捕捉近年來興起,通過采集及計算深度信息完成,精度較高且被檢測對象無需穿戴裝備,但受外界環境影響大,算法開發難度也較大。

( 圖源:阿里云數字人官網

4. 渲染技術:突破恐怖谷效應

渲染技術分為實時渲染和離線渲染。實時渲染圖形數據實時計算與輸出,每秒至少渲染 30 幀,計算資源有限,渲染質量欠佳,適用于對實時性要求高但對畫面質量要求相對較低的場景,如小型 APP 等,常用引擎有 Unreal 引擎和 Unity 引擎等。離線渲染圖像數據非實時計算與輸出,渲染時間長但計算資源豐富、計算量大,渲染質量高,適用于對畫面質量要求極高的場景,如電影特效制作等。隨著 PBR(Physically Based Rendering)渲染技術進步和重光照等新型渲染技術出現,數字人皮膚紋理更真實,突破了恐怖谷效應,使虛擬數字人在外觀和動作上更接近人類,提升了用戶的接受度和沉浸感。

(百度數字人葉悠悠 圖源:小侃星球app截圖)

四、虛擬數字人未來發展趨勢與智能座艙應用前景

1. 總體發展趨勢

未來虛擬數字人制作技術將朝著更加簡單、一體化、自動化的方向發展,采集制作流程有望實現簡單化、一體化,通過迭代式提升真實感。例如,同步獲取模型、身體、表情等所有數據,無需穿戴專業傳感設備,使數字人在特定環境下與真人難以分辨,人們可更加自然地與其交流互動。全雙工技術將使數字人具備一次喚醒、多輪對話、智能糾錯等能力,實現多場景、多領域的融合,交互方式更加智能化,逐步具備 “看”“聽”“說”“懂” 等全方位能力,緊跟時代潮流,深入融入影視、金融、文旅等各個領域,充分發揮應用價值,其市場價值也將不斷得到釋放。同時,隨著 90 后、Z 時代消費者逐漸擁有自主消費能力,他們對二次元、動漫人物形象的消費水平穩步提升,為虛擬數字人產業帶來新的發展機遇,諸多品牌也樂于與虛擬數字人合作,挖掘其商業價值。

2. 在智能座艙中的應用前景

在智能座艙領域,AI 數字人具有廣闊的應用前景。從交互體驗層面來看,智能座艙車載數字人可以借助高精度 AI 檢測技術實時捕捉乘客動作和表情,實現與數字形象的實時互動,使乘客可通過肢體動作或語音指令與虛擬角色互動,享受沉浸式娛樂體驗,增強駕駛過程中的情感陪伴感,減少疲勞。

在功能拓展方面,未來 AI 數字人將成為智能座艙的全方位智能助手,不僅能處理簡單任務,如接電話、播放音樂,還能承擔復雜任務,如根據實時路況、駕駛者偏好和車輛狀態提供個性化導航建議,在車輛故障或保養時及時提醒并提供解決方案和服務信息。

從視覺呈現角度,全息投影技術將為 AI 數字人帶來全新展現形式,如車載全息數字人有望成為 “人 — 車 — 家” 三屏融合的重要一環,基于云端及本地動態行為數據庫,根據不同場景驅動虛擬人形象,營造充滿科技感和未來感的氛圍。

此外,AI 數字人還將在智能座艙的個性化定制方面發揮重要作用,用戶可根據喜好定制其形象、聲音、性格等特征,使其成為專屬智能伴侶,同時在提升駕駛安全性方面也具有巨大潛力,可精準監測駕駛者狀態,在疲勞或不適時發出警告并采取安全措施,有效降低交通事故發生率。

(圖:領克的AI虛擬助理JOJO在聆聽、發言時都有相應的動作適配,形象生動)

五、總結

微表情和情感表達在人類交流和心理學研究中占據重要地位,相關研究成果為 AI 數字人的發展提供了重要參考。疊紙游戲在人物表情刻畫上的成功經驗,展示了當前在微表情呈現方面的較高水平。然而目前,AI 數字人在微表情和情感表達上還是有很大的不足,仍面臨諸多挑戰。未來,可以借鑒游戲業的先進經驗,更深入的結合心理學研究成果,進一步探索人類情感產生和表達的內在機制,以及先進的技術手段,如持續優化建模、驅動和渲染技術等,不斷提升 AI 數字人的情感表達能力。

從行業發展來看,虛擬數字人產業已呈現出蓬勃發展的態勢,市場規模不斷擴大,技術不斷創新,應用領域日益廣泛。隨著技術的不斷進步和市場需求的持續增長,AI 數字人有望在更多領域發揮重要作用,為人們帶來更加真實、自然、富有情感的交互體驗,實現與人類更加深入的情感共鳴,最終跨越恐怖谷效應,成為人類生活和工作中不可或缺的一部分。疊紙團隊在技術研發上的不斷探索和創新,為游戲行業及虛擬數字人產業的發展提供了寶貴的借鑒和啟示。

那么,你認為 AI 數字人在未來的發展道路上,還會在哪些領域產生深遠影響?在提升情感表達能力方面,還有哪些技術與人文的深度融合?歡迎大家在評論區分享自己的見解,讓我們共同見證 AI 數字人的成長與變革,一起探索這個充滿無限可能的數字未來!

本文由 @INFP怡伶設計 原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 它玩起來要的配置好高的哇,能不能優化一下這方面

    來自廣東 回復