語音交互——對話設(shè)計原則

0 評論 19283 瀏覽 65 收藏 16 分鐘

編輯導(dǎo)語:對話設(shè)計是語音交互設(shè)計中的重要環(huán)節(jié),有效的對話設(shè)計可以讓用戶擁有更加流暢的體驗,并在幫助用戶解決相應(yīng)問題時,給予用戶一定的溫度感。本篇文章里,作者總結(jié)了人機交互中對話設(shè)計的原則與注意事項,一起來看一下。

為用戶解決問題,建立有溫度的對話交流是設(shè)計師的共同愿景。對話設(shè)計是語音交互中最重要的一環(huán),也是最能體現(xiàn)智能助手智商和情商的一環(huán),它將直接影響用戶和計算機之間的交流。

筆者按照自身經(jīng)驗,以及Google、亞馬遜和阿里提供的語音交互設(shè)計指南,總結(jié)了以下內(nèi)容供各位設(shè)計師作參考。

對話設(shè)計前你需要了解的事項:

一、考慮計算機的局限

語音交互設(shè)計是設(shè)計人類和計算機之間的對話,因此我們在設(shè)計前要考慮技術(shù)的優(yōu)勢和不足。

在很多方面,計算機都很容易超越人類,它們可以快速找到并共享信息;不厭倦被問到重復(fù)的問題,不會被命令給冒犯到。

但是計算機在很多方面都不如人類。技術(shù)的局限性引入了人與人對話中不會發(fā)生的場景,例如人機對話時需要以特定的單詞或短語開頭,例如“Ok Google”;用戶說的話需要轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù)才能被計算機理解,中途出現(xiàn)一些不穩(wěn)定因素都會導(dǎo)致計算機理解失敗,這些局限性應(yīng)該提前提示用戶。

另外,當你的語音系統(tǒng)還達不到很聰明、隨意交流的程度,那么就不應(yīng)該讓用戶誤認為它可以達到。提前讓用戶了解到語音系統(tǒng)的局限可以規(guī)避用戶問一些千奇百怪的問題。

二、確認用戶場景

為了實現(xiàn)個性化和場景化設(shè)計,我們可以通過技術(shù)手段獲取用戶地址、時間和用戶身份(包括聲紋、用戶注冊信息)等信息,在設(shè)計對話腳本前我們需要考慮以下幾個場景相關(guān)的問題:

  1. 用戶在哪里?所處的環(huán)境是怎樣的?
  2. 用戶正在做什么?
  3. 用戶使用的是什么設(shè)備?
  4. 用戶要完成什么任務(wù)?目標是什么?
  5. 用戶的期望和意圖是什么?

三、明確你要設(shè)計的技能是什么?

不同類型的技能面向不同的用戶群體和用戶場景,在設(shè)計前明確要設(shè)計的技能是什么。

2019年亞馬遜Alexa的技能總數(shù)已經(jīng)超過100,000項,技能類型包括娛樂游戲、新聞、教育、生活、趣味搞笑、效率、天氣、音樂影視、智能家居、運動、飲食、財經(jīng)、當?shù)亍⒙眯薪煌?、電影電視、公共服?wù)、社交、購物、車聯(lián)網(wǎng)。而音樂影視、游戲娛樂、生活和智能家居19種分類,而音樂影視、游戲娛樂、生活和智能家居技能占絕大多數(shù)。所有的技能都可以分為播報型、指令型和互動型三類。

1. 播報型

為用戶提供內(nèi)容服務(wù),例如音樂、新聞、百科、食譜、故事等等。

2. 指令型

為用戶和生活服務(wù)建立一座工具橋梁,幫助用戶解放雙手,通過語音就能控制家居、發(fā)送短信、叫外賣等等。

3. 互動型

用戶通過多輪對話的方式與設(shè)備交互。主要用于在娛樂領(lǐng)域,如問答測試、情景探險、識圖對話、聽音唱歌等功能。

2019年亞馬遜Alexa團隊針對用戶評論、評分、參與度、用戶體驗和創(chuàng)新性5個維度公布了Alexa十大技能,都屬于播報型和互動型技能,其中七項是游戲和問答測試類型,另外三項分別是Spotify音樂,導(dǎo)游冥想和TED演講。

四、明確你要設(shè)計的對話類型是什么?

不同的技能對應(yīng)著不同的對話類型,從應(yīng)用場景的覆蓋面看,對話類型可以分為開放域(Open-domain)和封閉域(Closed-domain)兩大類。

開放域?qū)υ掝愋蜎]有太多限定的主題或明確的目標,用戶和語音助手之間可以進行各種話題的自由對話,它更像一種圖靈測試,難度很大,需要大量的知識庫和復(fù)雜的模型,一般用于閑聊場景。

封閉域?qū)υ掝愋屯ǔ薅ㄔ谝欢▓鼍爸?,有若干明確的目標和限定的知識范圍,目標也更加清晰明確,例如正常人不會和電商導(dǎo)購交流情感問題。

正因如此,封閉域?qū)υ掝愋蛯υ挼馁|(zhì)量要求更高,錯誤的容忍度更低,它需要一個垂直領(lǐng)域建立的模型和知識圖譜。封閉域?qū)υ掝愋鸵话阌糜谌蝿?wù)、問答或者娛樂場景。

基于以上的總結(jié),對話類型主要分以下四種,它們有各自的特點。

1. 任務(wù)類型

任務(wù)類型的對話指在特定條件下為帶有明確目的的用戶提供信息或者服務(wù)。

在智能家居場景下,一般可以通過單輪對話實現(xiàn)設(shè)備的操控。如果用戶的需求需要多輪互動,那么任務(wù)類型的對話需要通過詢問、澄清和確認來幫助用戶明確目的。

任務(wù)類型的對話主要用于智能助手應(yīng)用上,例如Siri、小愛同學和天貓精靈。

  • 特點:設(shè)計起來比較復(fù)雜,非常依賴意圖識別技術(shù),通常使用意圖識別+多輪對話+對接內(nèi)容提供商的API和知識圖譜。
  • 目標:用最短的對話輪次來完成用戶的任務(wù),通過對話所獲取的信息轉(zhuǎn)換成需要的參數(shù)。比如“明天北京天氣怎么樣”。地點是北京,時間是明天,意圖是天氣。這些都要在意圖設(shè)計時提前設(shè)計好。

2. 問答類型

問答類型的對話需要回答“怎么設(shè)定鬧鐘”、“什么是巡航系統(tǒng)”等問題,而這些問題也是一種任務(wù),所以問答類型和任務(wù)類型的對話有一定的相似性。

問答類型的對話一般用于客服機器人上,例如京東的JM客服機器人和阿里的云小蜜客服機器人。它們能和用戶進行基本溝通并自動回復(fù)用戶有關(guān)產(chǎn)品或服務(wù)相關(guān)的問題,當問題回答不了時可以轉(zhuǎn)向人工客服,降低企業(yè)客服運營成本的同時兼顧用戶體驗。

  • 特點:意圖設(shè)計非常簡單,一般抓住關(guān)鍵詞“為什么”和“是什么”即可,然后通過FAQ+對接內(nèi)容提供商的API和知識圖譜回答用戶的問題。
  • 目標:用最短的對話輪次來回答用戶的問題。

3. 閑聊類型

前面提到閑聊類型的對話屬于開放域類型,因此它是一種沒有明確目的的對話,語音助手不知道用戶下一句話會說什么,主要根據(jù)用戶對話中出的關(guān)鍵詞進行回復(fù)。閑聊類型的對話一般用于智能助手應(yīng)用上。

  • 特點:不精準,不可控。機器的回復(fù)會在閑聊庫當中,通過檢索給出相應(yīng)的回復(fù)。
  • 目標:對話輪次越多越好,一直聊下去就行。

4. 游戲/娛樂類型

游戲/娛樂類型的對話結(jié)合了任務(wù)和閑聊類型的特點,還要結(jié)合游戲類型、趣味性等因素進行設(shè)計,一般用于智能助手應(yīng)用上。

  • 特點:腳本分支多,游戲型還需要考慮故事線,設(shè)計起來比較復(fù)雜。
  • 目標:讓用戶放輕松。

五、提前定義好智能助手的人物設(shè)定

智能助手的人物設(shè)定會影響回復(fù)話術(shù)的設(shè)計,所以提前確認好智能助手的核心關(guān)鍵詞和畫像可以避免后續(xù)回復(fù)話術(shù)的修改。

六、了解對話的關(guān)鍵因素

Google的設(shè)計師通過解構(gòu)那些我們習以為常的自然對話中的規(guī)則和慣例,挖掘出一個好的VUI對話的關(guān)鍵因素。

在語音交互設(shè)計指南Actions on Google Design中提到,構(gòu)建一個好的VUI對話需要考慮以下4個部分。

1. 話輪轉(zhuǎn)換(Turn-taking)

在對話交流中,我們會在一些往返的微妙信號中輪流說話。如果沒有有效的輪換,會導(dǎo)致對話過程中雙方同時說話,或者對話內(nèi)容會不同步并且難以被理解的情況。

因此輪到用戶說話時,智能助手應(yīng)該發(fā)出清晰的信號,例如音效提醒。用戶說話時智能助手不要貿(mào)然強行打斷。如果是詢問用戶問題,那就不要在用戶回答的時候又突然插入一些其他問題或者指令。

2. 對話線索(Treading)

在自然交流中,對話中的上下文、對話隨時間演變的方式等對話元素都會連貫地交織在一條主線上。對話中的對話線索可以幫我們更容易跟上對話流的節(jié)奏。

3. 利用語音固有的效率

人們經(jīng)常使用較為簡短的口頭表達方式,因為他們能夠洞察出大家在說什么。基本上我們都可以感知出一個對話中的“言外之意”,也知道有些東西是不需要被直接說出來的。但是VUI中的隱喻必須能夠彌補人類語言中看似不合邏輯、非理性的部分。

4. 預(yù)測不同的用戶行為

人們會用不同的詞語和風格去描述同樣的事情,這取決于他們自己的情景語境和自己早前經(jīng)驗產(chǎn)生的對 VUI 的預(yù)期,因此 VUI 應(yīng)該支持這些差異,用戶才能擁有一個無損的體驗。

七、遵循會話“合作原則”

有研究表明,人們對技術(shù)的反應(yīng)就像對另一個人的反應(yīng)一樣。這意味著用戶在和智能助手交互時,也會依賴他們現(xiàn)有的人與人對話方式。

美國語言哲學家格萊斯(Paul Grice)認為,在人們交際過程中,對話雙方似乎在有意無意地遵循著某一原則,以求有效地配合從而完成交際任務(wù)。因此,格賴斯提出了會話中的“合作原則”,語音交互可以考慮跟從對話合作原則進行設(shè)計。

  • 量的準則:所說的話應(yīng)該滿足且不超出交際所需的信息量。
  • 質(zhì)的準則:不要說自知是虛假和缺乏足夠證據(jù)的話。
  • 關(guān)系準則:所說的話要貼切, 要與交談目的和方向有關(guān)系,不說不相干的話。
  • 方式準則:所說的話要簡潔明了,別拐彎抹角產(chǎn)生歧義。

然而,人們在實際言語交際中,并非總是遵守“合作原則”,有些時候人們會故意違反合作原則。格萊斯把這種通過表面上故意違反“合作原則”而產(chǎn)生的言外之意稱為“特殊會話含義”,它是需要依賴特殊語境才能推導(dǎo)出來的含義。

舉個例子:A和B在談?wù)撘徊侩娪啊?/p>

A:“你覺得這部電影怎么樣?。俊?/p>

B:“場面倒是很壯觀,服裝也很耀眼?!?/p>

表面上B并沒有回答A的問題說出這部電影怎么樣,但是不可否認的是,B的話語有自己的內(nèi)在意義。B的回答暗指除了耀眼的服裝和壯觀的場面,電影本身并沒有什么吸引人的地方。這內(nèi)在意義需要通過語境推斷出來,這樣的含義就是特殊會話含義。

盡管大部分的幽默源于特殊會話含義,但我們在設(shè)計腳本過程中,盡量避免使用這種對話方式,避免用戶一時半刻理解不了這句話的意思。

八、對話不存在“出錯”的概念

邏輯和準確性不是萬能法則,人類口語表達通常會呈現(xiàn)出各種毫無道理的話。用戶任何請求都是有目的的,他們總是希望完成某些任務(wù),即使沒有明確說出來。

這時候,不要管用戶說了什么,不要把它當成是一個錯誤來處理,而是考慮如何把它轉(zhuǎn)變?yōu)橐粋€機會,把它當做是對話中的轉(zhuǎn)折點,用新的方式來處理,從而推進更順暢、更自然的溝通。

以下方法有助于把“錯誤”轉(zhuǎn)化為對話交互中自然的一部分:

  1. 不要把技術(shù)上的“出錯”當做用戶的錯誤。
  2. 對于不同類型的“出錯”提供對應(yīng)適合的處理方式。
  3. 通過提供幫助來避免出錯。
  4. 要知道在什么情況下放棄。
  5. 使完成任務(wù)的路徑更強,來掩蓋錯誤。

#專欄作家#

薛志榮,微信公眾號:薛志榮,人人都是產(chǎn)品經(jīng)理專欄作家。暢銷書《AI改變設(shè)計-人工智能時代的設(shè)計師生存手冊》作者,全棧開發(fā)者,專注于交互設(shè)計和人工智能設(shè)計。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于CC0協(xié)議。

專欄作家

薛志榮,微信公眾號:薛志榮,人人都是產(chǎn)品經(jīng)理專欄作家。暢銷書《AI改變設(shè)計-人工智能時代的設(shè)計師生存手冊》作者,全棧開發(fā)者,專注于交互設(shè)計和人工智能設(shè)計。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于CC0協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!