有“情商”能表達情緒的AI!從Hume AI看語音助手的變革
語音助手正在變得更加智能,變得越來越有能力解釋人類語言中的情感、語境,甚至語音的細微差別。這篇文章里,作者就從Hume AI出發,來探索語音助手的變革與未來,一起來看。
可能是新奇,也可能是接地氣,在現如今市面上卷生卷死的無數聊天機器人中,人們天然對那些表現出類人情緒的 AI 有著更多好感。
無論是去年 12 月新浪微博推出的“陰陽怪氣、已讀亂回”評論機器人“評論羅伯特”,還是 Inflection AI 旗下“聰明又善良”的聊天機器人“Pi”,都憑借著或賤或暖的人設,在社交媒體頻頻出圈。
但要說到情感的抓取與表達,沒有什么比得過語音,一個輕微的音調變化、簡短的語氣詞,就能讓人腦補出思緒萬千。
不久前,Hume AI 推出了能夠識別情緒的同理心語音界面(EVI),就像 Suno 徹底改變音樂制作模式,Sora 重塑視頻制作流程一樣,EVI 將大語言模型(LLMs)與表達測量完全集成為移情大語言模型(eLLM),重新定義了我們對于此前冰冷的生成式 AI 的認知。
圖源:Hume AI
AI正在試著理解用戶的感受,開始變得察言觀色起來。
一、AI 不僅知道你在說什么,也知道你在想什么
經過不斷的訓練,AI 已經能夠做到對人們輸入的指令做出反饋,當給出提示時,經過訓練的模型會預測最可能的下一個單詞或字符來生成文本,通過持續迭代這一過程直至生成所需長度的文本。
這很難說是 AI 知道自己在說什么,在很多人看來,AI 似乎只是在玩詞語接龍游戲,不知道自己生成的長篇大論的最終含義,這也意味著 AI 對于輸入的上下文的理解也存在著局限性,對于 AI 系統來說,理解人類交流的微妙語言、諷刺、歧義和其他復雜性仍然具有挑戰性。
那如果我們為 AI 模型加上一個情緒輸入接口,AI 是否就能理解人類的情緒和感受了呢?
圖源:Hume AI
在 AI 領域,就有一家名為 Hume AI 的紐約初創公司正在進行這種突破性的研究。該公司由 Google DeepMind 前研究員 Alan Cowen 領導,其使命是通過引入稱為移情語音接口 (EVI) 的先進語音人工智能,徹底改變人機交互。
EVI 被譽為世界上第一個具有“情商”的人工智能。當我們實際體驗下來,的確能感受和其他語音 AI 不一樣的人文關懷。
EVI 的入門很容易,只需要允許站點訪問設備麥克風,就可以與聊天機器人暢所欲言,無論你正在經歷什么情緒,都會在 EVI 面前得到即時反饋。
當你興奮地向 EVI 打招呼時,它同樣也會情緒激動地對你進行回應。
而當你向 EVI 提問時,它會體會你的情緒,并給出深思熟慮的回答(由于上下文原因,EVI 只給出了簡短的回復)。
體驗下來,EVI 有很多亮點。一是語音識別準確清晰,即使是在存在輕微噪音的環境下,EVI 還是能準確識別出連貫的語句,并轉化為文字和提現語音情緒的條狀圖。
二是聊天過程輕松愉快。除了感受語音輸入方的微妙語氣之外,EVI 還能主動接下話茬,不會把天聊死。
但還處在持續開發階段的 EVI 也還能挑出一些不足?;蛟S是因為 EVI“情商”過高了,用戶語句銜接速度不能過快,需要留出一些反應時間給 EVI“思考”,否則 EVI 很容易表現得畏畏縮縮、前言不搭后語,出現像遠程新聞記者連線延遲那樣的尷尬情況。
其次是情緒識別,從聊天界面可以看到,除了十分明顯的情緒(興奮、悲傷、憤怒等)外,EVI 對其他的情緒識別分類過于精細,這是普通人難以察覺的,我們無法正確判斷 EVI 情緒識別的準確性。
從 Hume AI 官網展示的信息,EVI 能夠識別和響應 53 種不同情緒。這一從聲音中辨別情緒的能力來源于包括全球數十萬人的受控實驗數據在內的全面研究,EVI 正是基于對不同文化來源聲音和面部表情的復雜分析,才構成了 AI 情緒識別能力的基礎。
圖源:Hume AI
根據 Hume AI 的說法,EVI 的情緒感知能力都要歸功于移情大語言模型(eLLM),這使得 EVI 能夠根據上下文和用戶的情緒表達來調整所使用的詞語和語氣。
通過在豐富的情感表達數據集上訓練深度神經網絡,Hume AI 打造了一個在理解和傳達情感細微差別方面表現出色的 AI 模型,遠遠超出了當前 AI 技術所能達到的上限。
除此之外,Hume AI 還在 EVI 的研究中融入了一種被廣泛應用在心理語言統計、分析領域的技術——語義空間理論(SST)。通過廣泛的數據收集和先進的統計模型,SST可以精準繪制人類情感的全譜圖,揭示人類情感狀態之間的連續性,使得EVI具備很多擬人化的特色功能。
具有“情商”的 EVI 影響是巨大的,理解和響應人類情感的能力代表著 AI 技術的重大飛躍。
EVI 代表了人工智能技術的重大飛躍,因為它具有理解和響應人類情感的能力。與僅依賴口頭命令、冰冷輸出正確回答的傳統語音助手不同,EVI 能夠辨別人類語音的細微差別并相應地調整其響應,這一點在醫療保健、教育等客戶服務領域差別更深。
圖源:網絡
想象一下,在學習壓力過大,學生心理問題日漸增多的情況下,EVI 能夠化身虛擬導師,感知學生情緒并為其提供個性化幫助,提供同理心支持;在零售行業,EVI 同樣也能充當一把虛擬客服,能夠根據客戶語音變化及時調整語氣,而不是只會回復“在呢親~”。
在這些更需要人文關懷的領域,EVI的應用潛力幾乎是無限的。
正因為此,Hume AI 不久前就就從 EQT Ventures、Union Square Ventures 和 LG Technology Ventures 等知名投資者那里籌集了 5000 萬美元的 B 輪融資。這家初創公司的吸金能力表明了業界對這種 AI 情感解決方案的信心。
此外,Hume AI 還能夠與 GPT 和 Claude 等大型語言模型無縫集成,公司準備為其平臺 API 推出 beta 模式,允許開發人員將這一技術集成到各種應用程序中,這無疑將為跨時代的語音助手問世鋪平道路。
從 Siri 到 EVI,語音助手的智商水平終于快要回歸正常。
二、語音助手的演變
Hume AI 目前只在其官網開放訪問,但可以預見的是,以語音情緒識別為特色的聊天機器人最終的歸宿還是要融入智能硬件,成為貼身又貼心的智能助理。
搭載硬件設備后,語音助手已成為智能化時代中的重要工具,徹底改變了我們與設備交互的方式。從毀譽參半的 Siri 到 AI 驅動的個人助理,語音助手的發展簡直令人驚嘆。
語音助手的發展可以追溯到 20 世紀 50 年代,當時開發的語音識別系統如 IBM 的 Shoebox 和貝爾實驗室的 Audrey,只能識別少量單詞或短語。
而后的 90 年代,計算能力的提高和互聯網的出現帶來了更先進的語音識別系統,包括 Dragon NaturallySpeaking 和早期的語音激活虛擬助手憑借強大的語音識別和轉錄功能處于領先地位。
隨后,以 Siri 為代表的的對話式語音助手在與智能手機的碰撞中走入現代,蘋果 Siri、谷歌 Now、微軟 Cortana 以及亞馬遜 Alexa 等都是里程碑式的應用。
如今,以 OpenAI 和 Hume AI 為代表的科技公司通過提高語音 AI 系統的理解相應能力,為語音助理創建更加個性化和自然的交互,“真正的語音助手”誕生于 AI 之下。
圖源:Amazon
這些聰明的助理已成為我們日常生活的重要組成部分,以前所未有的方式簡化流程并增加便利性。
幾年前,語音助手還只能做簡單的問答、生硬的信息推薦、以及講冷笑話,現在,理解口語、分析上下文并使用自然語言處理 (NLP) 和機器學習技術提供相關信息并執行請求已經成為語音助手的基本功能。
這種復雜程度意味著語音助手不再只是被動的工具,而是主動的幫助者,能夠提供建議、記住偏好并適應個人用戶模式,人們可以通過語音命令實現對硬件產品應用的召之即來。
在 AR 眼鏡上,類似的應用已經有很多,語音助手已成為產品的標配功能。
星紀魅族全新 XR 品牌“MYVU”就搭載了“FlymeAR”交互系統,并采用全新的 Aicy 語音助手。
雷鳥 X2 Lite AR 眼鏡加入大模型語音助手 Rayneo AI,主打對多模態信息交互能力和場景的探索。
OPPO 則在巴塞羅那 MWC 大會期間展示了其最新的智能眼鏡產品原型 OPPO Air Glass 3,搭載了基于 OPPO AndesGPT 大語言模型的語音助手,可以執行語音提問、搜索等基本工作。
圖源:OPPO
而從這幾款產品已經推出的功能來看,AR 眼鏡語音助手的發力領域基本集中在信息檢索、任務管理、媒體娛樂、路線導航以及語言翻譯上。
特別是任務管理功能,用戶可以使用語音助手來幫助他們管理任務和日程安排,使用語音助手發送通知、發出提醒、安排約會、建立待辦事項列表和設置提醒,可以幫助用戶梳理必要事項。
這基本也是 AI 模型在 AR 眼鏡上的應用方向,語音助手的智能化體現在與眼鏡的交互以及應用程序的調用上,就像影視劇中的配角,不是最重要卻處處需要,還要靠它帶出主角。
再加上類似于前面提到的 EVI 移情大語言模型,語音助手對于情緒的理解加深,對于語言理解的能力加倍。隨著不斷的研究和開發,這些助手將變得更加直觀、具有情境感知能力并融入我們的生活。
根據 Salesforce Research 的一項數據,27%的消費者每天都會在電子產品中使用 AI 語音助手,隨著 AI 能力的增強,這一數字預計還會增長。
三、未來的 AI 語音助手
更加人性化的 AI 有助于 AR 眼鏡打造更加智能的語音助手,這使得類似于 EVI 的情感聊天模型在 AR 領域能夠發揮更大的作用。
Hume AI 首席執行官兼首席科學家艾倫·考恩 (Alan Cowen) 就表示,如果我們想以更加自然的方式使用 AI,那么 AI 同理心的展示就至關重要。
“當前 AI 系統的主要局限性在于,它們受到膚淺的人類評級和指令的指導,這很容易出錯,并且無法挖掘其巨大潛力,無法找到讓人們快樂的新方法?!?/p>
而 Hume AI 也并不是唯一一家嘗試將情感融入 AI 技術的公司。
英國公司制造的人形機器人 Ameca 就能夠觀察周圍環境并與人交流,其面部表情逼真,能夠展示出表現不同情感的面部表情。
圖源:網絡
不久前,韓國蔚山國立科學技術研究院(UNIST)的科學家們還研制出了一種類似于“面膜”的可穿戴設備,能夠通過傳感器捕捉捕捉微小的動作和發聲,并利用個性化皮膚集成面部接口(PSiFI)系統執行無線數據傳輸,實現實時情緒識別。
其開發者 Jiyun Kim 認為,這款可穿戴設備可用于 VR 數字人服務等應用,根據用戶的情感提供定制服務。
圖源:UNIST
但 AI 對人類情感的窺探帶來的除了人性化之外還有隱私擔憂。
此前,一些面部情緒識別 AI 技術就因為難以解決的數據安全技術而被科技公司們無奈關停。
2022 年,微軟宣布停止銷售根據面部圖像猜測人類情緒的技術,并將不再提供不受限制的面部識別技術。
而在更早之前也有消息傳出谷歌從其用于解讀情緒的工具中屏蔽了 13 種計劃中的情緒,并對四種現有的情緒進行了審查。在隱私泄露的可能性之下,谷歌正在權衡一種可以直接描述表情動作的新系統,而不試圖將表情動作與情緒聯系起來。
人類的語音中也包含了許多的隱私信息,很難說在注重數據安全的時代,未來的 AI 語音情緒識別技術不會受到同樣的限制。
但可以確定的是,對于隱私的擔憂并不會影響未來 AI 改變語音助手形態的趨勢。
隨著蘋果全球開發者大會(WWDC)的召開在即,科技界對 Siri 的重大演變充滿期待。許多人認為 Siri 2.0 的新階段有望將生成式 AI 的進步帶到語音助手領域的最前沿。
傳聞中 Siri 2.0 的升級自然也包括了更多個性化和自然對話功能,大家都希望能看到更加親切的 Siri。
而除此之外,有更多消息表明,Siri 在接入大模型后,將不再只是單純的語音助理,而將升級為多模態智能助手,承擔更多的生成式 AI 功能。
不久前,蘋果推出了 ReALM 模型,其類似于谷歌 Gemini,能同時處理文本和視覺效果。
與 GPT-3.5 不同的是,ReALM 注重于破譯對話和視覺上下文,可以將屏幕的視覺內容轉換為文本、注釋及空間細節,這使得 ReALM 能夠以文本方式解釋屏幕內容,從而有助于更精確地識別和理解屏幕上的信息。
ReALM 將被用于專門破譯對話中模棱兩可的引用和指代,將大大提高 Siri 理解上下文相關查詢的能力。這直接帶來的是 Siri 個性化定制能力的提高。
通過 ReALM 學習用戶的交互行為,Siri 可能更準確地預測用戶的需求和偏好,根據過去的行為和對上下文的理解來建議或啟動操作。Siri 有望成為最懂你的“人”。
借助機器學習技術,語音助手可以不斷提高其性能。AI 從用戶交互中一邊學習,一邊調整反應和理解,語音助手可以在識別語音模式的過程中提高語言理解能力,甚至可以使用機器學習根據先前的數據定制其響應。
這意味著未來語音助手不僅僅只是信息獲取和應用操作的入口,而是將作為學習與模仿者,在一次次的對話中記錄用戶的喜好,更深入理解用戶需求,提供更加個性化和預測性的支持。
可以看到,在與人類的友好互動中逐步理解人類、適應人類已經成為語音助手未來的主要主題之一。
語音助手越來越有能力解釋人類語言中的情感、語境,甚至語音的細微差別。這種接近人類的情商水平可以為更加個性化和富有同情心的互動開辟道路,將虛擬助手轉變為真正的合作伙伴。
同時,語音助手與其他技術的結合有望釋放它們的潛能。通過與 AR/VR 相結合,語音助手可以提供身臨其境的交互式體驗。不僅帶來了技術進步,還為 AI 注入新的可能性:理解并尊重人類情感的復雜性。這將改變我們與機器互動的方式,進而改變我們與彼此互動的方式。
作者:VR陀螺
來源公眾號:VR陀螺(ID:vrtuoluo),XR行業垂直媒體,關注VR/AR的頭部產業服務平臺。
本文由人人都是產品經理合作媒體 @VR陀螺 授權發布,未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。