與智能設備對話,什么是好的聊天對話體驗?

0 評論 5523 瀏覽 26 收藏 14 分鐘

導語:與智能設備交流是人類的夢想,隨著語音技術的發展,這一夢想正在變為現實。百度體驗設計團隊致力于智能設備對話體驗設計及研究,部分研究成果發表在國際知名學術會議MobileHCI(中國計算機學會CCF指定的B類會議),現將文章部分內容與大家分享和交流。

過去四十年,人與機器之間的交互媒介在不斷進化,自然語言對話作為新一代的人機交互媒介,近些年得到廣泛的關注和應用;從智能家居設備到智能手機助手,從智能客服到智能情感陪伴,人們可以與越來越多的設備進行自然語言對話。

小度智能音箱 /?語音助手Siri?/?數字人服務 /?智能機器人

按照對話的主題和目的,可以將人與機器的自然語言對話分為兩種類型:任務型對話、聊天型對話。

  • 任務型對話以完成用戶的特定任務為目標,用戶的交互意圖明確,例如用戶通過語音對話完成預定機票和購物等任務。
  • 聊天型對話不具體幫助用戶完成某個特定任務,而是通過用戶與設備之間的開放式對話,安撫用戶情緒或滿足閑聊和娛樂的需求;有研究表明,具有聊天功能的智能產品更容易獲得用戶的信任,并提升用戶的整體使用體驗。

與智能設備對話的兩種類型

從用戶體驗的角度,任務型對話體驗可以通過對用戶完成任務的情況進行評價,例如可以采用任務完成率、時間效率等指標;然而,針對聊天型對話體驗目前還缺乏有效的評估方法和框架。

本文從用戶體驗的視角出發,探索適用于聊天型對話體驗的評估方法。

在研究方法上,采用定性和定量相結合的方法,首先通過定性研究的方法收集評估指標,然后通過定量研究的方法對指標體系進行優化和驗證,以搭建一套信效度良好、可廣泛應用的評估體系。

研究分為三個階段:

  • 定性收集評估指標,確保收集到的指標全面且有意義;
  • 將指標體系應用于智能設備測試,通過定量的方法進行評估體系的建構和優化;
  • 對評估體系的模型進行應用和驗證,得到評估指標間的權重系數,確保評估體系科學和可靠。

研究過程與研究方法

一、從0到1:全面收集聊天型對話評估指標

為確保指標全面、有意義且容易讓用戶理解,收集過程經歷了3個步驟:

  1. 參考以往的關于任務型對話和聊天型對話的研究,選取合適的指標;然后通過頭腦風暴,更全面地收集,此階段共收集45個評估指標;
  2. 結合智能設備產品專家的建議,篩選與用戶實際需求相匹配的評估指標。然后請專家評估指標重要性和易理解程度,刪除不適合聊天對話體驗評價和重要性低的指標,保留了24個指標;
  3. 邀請普通用戶對指標的易理解程度進行評價,對表述不清、難以理解或有歧義的指標進行修改或刪除;最終,形成由20個指標組成的聊天體驗評估體系。

最初收集的20個聊天對話體驗評估指標

二、去偽存真:構建聊天型對話評估指標體系

1. 用戶測試

我們將階段一得到的評估指標應用到人機聊天測試中,通過用戶測評數據的統計分析及定性訪談進一步優化評估指標,并通過探索性因子分析探索指標體系的結構。

共有38名被試參與了用戶測試,年齡在20-40歲之間,男性18人,女性20人;所有被試均為智能音箱聊天功能使用經驗用戶,其中,經驗豐富者(每天聊天3次以上)和經驗較少者(每周聊天3次以下)各一半。

用戶測試場景

在用戶測試過程中,我們選擇了5款主流且具有聊天對話功能的智能音箱,分別標記為智能音箱A、智能音箱B、智能音箱C、智能音箱D、智能音箱E。

被試按照隨機順序,分別與5款智能音箱圍繞4類話題進行聊天對話,4類聊天話題分別為:調侃類、建議咨詢類、話題聊天類、情緒排解類。

用戶測試中的4類聊天對話話題

被試與智能音箱聊天對話結束后,將分別對各智能音箱聊天對話的體驗進行打分,打分采用10點李克特量表,1分代表非常不滿意,10分代表非常滿意;最后,被試需要完成關于聊天體驗評估指標重要性的Kano問卷。

2. 指標構建與優化

38個被試分別體驗5款智能音箱的聊天對話功能后,將每個用戶每款音箱的數據作為一個樣本數據,共得到有效樣本數據168份。

結合Kano模型、相關性分析、多重共線性診斷與定性訪談的用戶反饋,優化評估指標,包括對指標進行刪除或合并,以及對部分指標的描述進行修正;優化后的指標如下表所示,共計包括15個評價指標。

優化后的聊天對話體驗評估指標

我們對優化后的15個指標進行探索性因子分析,采用最大方差法旋轉因子,抽取特征值大于1的因子;最終提取了2個因子,累積方差貢獻率為68.0%,探索性因子分析結果如下表所示。

探索性因子分析結果

綜合考慮因子1和因子2所包含的各項指標,我們分別將這兩個因子命名為“聽懂連續對話及內容質量”和“表達方式及聲音”,從而得到評估指標的體系結構。

在探索性因子分析的基礎上,我們進一步計算了每一個指標在整體滿意度上的權重,最終的聊天體驗評估體系結構及權重系數如下表所示。

評估體系結構及權重系數

三、應用實踐:聊天型對話評估指標體系應用

1. 測量結果

我們將建立的聊天對話評估體系應用于5款智能音箱聊天體驗的評估,因文章篇幅原因,具體評估和計算過程不贅述,評估結果如下表所示,該評估體系可以用于橫向對比各智能音箱聊天系統能力。

基于評估體系的聊天對話體驗測量

2. 聊天對話示例

接下來,我們針對評估體系中權重相對較高的幾個指標,如內容質量相關的內容有價值、開啟新話題、聯系上下文等指標,以及表達方式相關的表達多樣化、表達自然流暢等指標;選取部分用戶與設備聊天對話的具體示例,以便大家對什么是好的和不好的聊天對話體驗有更直觀的感受。

內容有價值:

用戶期望通過聊天對話獲得有價值的內容,尤其在“建議咨詢”的聊天場景下。

對話示例1(用戶正向評價)

對話示例2(用戶負向評價)

開啟新話題:

在聊天模式下,用戶不希望輕易把天聊死,希望智能設備能夠主動留下話茬。

對話示例3(用戶正向評價)

聯系上下文:

用戶期望與智能設備聊天時,聊天過程能聯系上下文,不要前后邏輯矛盾。

對話示例4(用戶負向評價)

表達多樣化:

用戶期望設備的回復內容更多樣化和豐富,以避免讓用戶覺得是設定好的程序。

對話示例5(用戶正向評價)

對話示例6(用戶負向評價)

表達自然流暢:

用戶期望自然流暢的表達,聊天對話符合人們日常說話用語和習慣。

對話示例7(用戶正向評價)

對話示例8(用戶負向評價)

四、小結

以智能音箱聊天對話體驗評估為課題,本研究提出了一套完整的評估方法,并建立了針對聊天型對話體驗的指標體系和評估框架,該指標體系及其權重一定程度上反映了用戶對聊天對話體驗的需求和關注程度,可以為后續產品體驗優化提供參考方向。

然而,本研究也存在一定的局限性,一方面,目前多數智能設備會同時具備任務型對話和聊天型對話兩種能力,從用戶視角可能無法清晰區分兩種自然語言對話場景;另一方面,由于與智能設備對話仍處于探索期,產品迭代很快,用戶的預期也會隨之改變;因此,評估指標體系的權重也可能發生變化,未來可能需要持續監測和修改評估指標體系。

參考文獻:

Chat with Smart Conversational Agents:How to Evaluate Chat Experience in Smart Home. Xiantao Chen, Jiaqi Mi, Menghua Jia, Yajuan Han, Moli Zhou, Tian Wu. MobileHCI 2019.

 

作者:百度技術中臺UER小分隊

本文由 @Du Design 原創發布于人人都是產品經理。未經許可,禁止轉載

題圖由作者提供

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!