針對(duì)“語(yǔ)音助手”類產(chǎn)品,淺談對(duì)話式交互設(shè)計(jì)
今天給大家分享一篇針對(duì)“語(yǔ)音助手”類產(chǎn)品的對(duì)話式交互進(jìn)行討論的文章,希望帶給你更多幫助。
說到語(yǔ)音設(shè)計(jì)大家腦海里會(huì)浮現(xiàn)出各種科幻場(chǎng)景,其實(shí)語(yǔ)音設(shè)計(jì)離我們并不遠(yuǎn),可能我們太過于熟悉,以至于忽視它的存在。
剛好自己對(duì)這一領(lǐng)域充滿好奇,就以Siri、天貓精靈和小愛同學(xué)這三款產(chǎn)品體驗(yàn)為本,結(jié)合《語(yǔ)音用戶界面設(shè)計(jì)》這本書的內(nèi)容,寫了這篇文章。
本文主要針對(duì)“語(yǔ)音助手”類產(chǎn)品的對(duì)話式交互進(jìn)行討論。
一、前世今生
看看這段話:“業(yè)務(wù)查詢請(qǐng)按1,手機(jī)充值請(qǐng)按2”。每次撥打10086時(shí),都能聽到這樣的回答。
這種語(yǔ)音交互形式叫“交互式語(yǔ)音應(yīng)答(Interactive Voice Response,IVR)”,這也是語(yǔ)音設(shè)計(jì)的第一個(gè)階段,起源于20世紀(jì)90年代。
還有我們熟悉的電話訂票,電話股票交易等,都屬于這個(gè)階段的產(chǎn)物。
這個(gè)階段的語(yǔ)音設(shè)計(jì),為復(fù)雜的功能提供了自助的語(yǔ)音處理方案。語(yǔ)音交互的內(nèi)容已經(jīng)提前設(shè)定好,用戶帶著疑問作出特定的回答,語(yǔ)音系統(tǒng)就會(huì)給出指定的答案。
接下來的時(shí)代,各種智能設(shè)備普及了,也誕生了Siri、Google Now等語(yǔ)音助手,以及這幾年挺火的智能音箱。
如:小愛同學(xué)、天貓精靈和騰訊聽聽等,幾乎所有的行業(yè)巨頭都參與這場(chǎng)盛宴,這是語(yǔ)音設(shè)計(jì)的第二個(gè)階段,也是目前所處的階段。
二、設(shè)計(jì)核心點(diǎn)
語(yǔ)音交互是一種包含豐富信息的互動(dòng)形式,在設(shè)計(jì)語(yǔ)音交互時(shí),可以從對(duì)話模式、引導(dǎo)式回答、自然溝通作為設(shè)計(jì)的核心考慮點(diǎn)。
1. 對(duì)話模式
談?wù)Z音設(shè)計(jì)就離不開討論語(yǔ)言溝通,在日常生活中,人們之間的對(duì)話溝通從語(yǔ)速、用詞和前后對(duì)話的內(nèi)容等,就可以讓對(duì)方了解到說話者表達(dá)的內(nèi)容和情緒的變化。
(1)單輪對(duì)話
單輪對(duì)話是指對(duì)話內(nèi)容不包含情景,沒有關(guān)聯(lián)上下文內(nèi)容。這種對(duì)話模式導(dǎo)致語(yǔ)音交互更偏向于簡(jiǎn)短的操作任務(wù),過于復(fù)雜的操作任務(wù),則需要分解成簡(jiǎn)短的口令。
比如:“播放陳奕迅的歌”大多數(shù)語(yǔ)音系統(tǒng)是可以識(shí)別的;而如果說“介紹下陳奕迅”,然后再說“播放他的代表歌曲”,這種需要上下文關(guān)聯(lián)、復(fù)雜的對(duì)話模式,現(xiàn)階段大多數(shù)語(yǔ)音助手是無法識(shí)別的。
(2)連續(xù)對(duì)話
語(yǔ)音交互的對(duì)話模式還有另一種類型,它們搭載了自然語(yǔ)音處理系統(tǒng),使用場(chǎng)景也打破單輪對(duì)話的限制,它們就是聊天機(jī)器人,也叫伴侶式機(jī)器人。
它們定位更偏向模擬人類對(duì)話,研究人機(jī)對(duì)話的領(lǐng)域。相信未來語(yǔ)音助手也可以結(jié)合對(duì)話式聊天模式,實(shí)現(xiàn)自然聊天并準(zhǔn)確的進(jìn)行功能操作。
比如:小米的小愛同學(xué),有一個(gè)隱藏的技能“打開閑聊”,開啟后可以進(jìn)行連續(xù)對(duì)話模式。微軟小冰也是聊天機(jī)器人方面比較成熟的產(chǎn)品之一。
2. 引導(dǎo)式回答
在單輪對(duì)話模式的限制中,需要特別留意語(yǔ)音系統(tǒng)的回答,引導(dǎo)用戶正確使用簡(jiǎn)短的語(yǔ)音對(duì)話。
(1)確認(rèn)模式
語(yǔ)音交互的確認(rèn)模式,可以分為顯性確認(rèn)與隱性確認(rèn)兩種類型。
顯性確認(rèn),是一種強(qiáng)制用戶確認(rèn)的方式。主要用于涉及錢財(cái)或者會(huì)帶來嚴(yán)重影響的操作行為中。
當(dāng)用戶說幫我充個(gè)話費(fèi)時(shí),這里涉及錢財(cái)支出,則語(yǔ)音系統(tǒng)應(yīng)該重復(fù)一次即將執(zhí)行的命令,用戶確認(rèn)答復(fù)后,平臺(tái)再進(jìn)行對(duì)應(yīng)的操作。
比如:讓天貓精靈幫忙充話費(fèi),天貓精靈在進(jìn)行支付前,會(huì)讓用戶確認(rèn)一次充值內(nèi)容,當(dāng)用戶給予肯定回答后,天貓精靈才會(huì)進(jìn)行充值支付操作。
隱性確認(rèn),是根據(jù)識(shí)別的可信度進(jìn)行弱確認(rèn)的方式。
系統(tǒng)對(duì)語(yǔ)音內(nèi)容進(jìn)行打分評(píng)級(jí),當(dāng)可信度等級(jí)為高時(shí),確認(rèn)是可信的命令,直接執(zhí)行對(duì)應(yīng)的操作。無需用戶再進(jìn)行確認(rèn),或重復(fù)一次反饋結(jié)果。
比如:對(duì)Siri說“打開支付寶付款碼”,Siri會(huì)直接打開支付寶軟件的付款碼頁(yè)面,并在界面弱提示正在打開支付寶。這個(gè)過程不需要用戶再去確認(rèn),因?yàn)檫@是一個(gè)可信的操作。
當(dāng)可信度等級(jí)為中等時(shí),系統(tǒng)執(zhí)行對(duì)應(yīng)的操作后,還需要對(duì)操作進(jìn)行隱性確認(rèn),讓用戶知道為什么會(huì)執(zhí)行當(dāng)前的操作。
比如:在晚上對(duì)天貓精靈說“早上好”時(shí),天貓精靈會(huì)播放晚間資訊,并告知現(xiàn)在是晚上,明天上午說“早上好”可以播放資訊等。
如下圖所示(晚間資訊通過語(yǔ)音播放,界面沒有展示文本)。
當(dāng)可信度等級(jí)為低時(shí),系統(tǒng)應(yīng)該明確告知用戶,無法識(shí)別有效的語(yǔ)音內(nèi)容。
總的來說,隱性確認(rèn)是讓用戶知道為什么會(huì)這樣操作,用戶收到語(yǔ)音系統(tǒng)的反饋就行。顯性確認(rèn)則是需要用戶明確確認(rèn)的過程。
(2)錯(cuò)誤引導(dǎo)
現(xiàn)階段語(yǔ)音系統(tǒng)無法避免錯(cuò)誤識(shí)別或無法識(shí)別的情況。
出錯(cuò)不要緊,如何改善機(jī)器的錯(cuò)誤反饋才是重點(diǎn)。
當(dāng)機(jī)器無法識(shí)別或識(shí)別的內(nèi)容屬于低可信度時(shí),機(jī)器需要引導(dǎo)用戶去用正確的語(yǔ)句結(jié)構(gòu)來對(duì)話,千萬不要自作聰明地嘗試回答。
比如:跟Siri對(duì)話時(shí),如果Siri沒有檢測(cè)到語(yǔ)音,則會(huì)通過界面,給予文字反饋;超時(shí)沒說話時(shí),則會(huì)展示“你可以這樣問我”的引導(dǎo)頁(yè)。
當(dāng)遇到Siri無法回答的問題時(shí),則會(huì)給予簡(jiǎn)單的文字引導(dǎo)。
跟小愛同學(xué)對(duì)話時(shí),經(jīng)常會(huì)遇到跑題的情況。這種過度自信的回答很容易給用戶帶來負(fù)面感受。
(3)語(yǔ)音之外的反饋
對(duì)于語(yǔ)音助手類產(chǎn)品來說,語(yǔ)音是一種交互方式,但不是唯一的。產(chǎn)品一般會(huì)搭配硬件和軟件來使用。
所以除了語(yǔ)音之外,不要忽略其他反饋的渠道。
同時(shí)語(yǔ)音交互有自身的優(yōu)勢(shì),可以不受物理位置的影響,可以簡(jiǎn)單快捷的上手學(xué)習(xí),不需要去學(xué)習(xí)界面的操作。但是界面交互也有自身優(yōu)勢(shì),如展示列表類內(nèi)容等復(fù)雜信息。
比如:讓小愛同學(xué)播放歌曲時(shí),小愛同學(xué)會(huì)通過語(yǔ)音形式播放對(duì)應(yīng)的歌,但也會(huì)在界面中靜默展示播放列表。
除了界面的輔助反饋外,也不要忘記物理反饋。在喚醒小愛同學(xué)和天貓精靈時(shí),這兩個(gè)音箱都會(huì)亮起燈光,用于示意已經(jīng)喚醒設(shè)備,正在接收語(yǔ)音內(nèi)容中。
3. 自然溝通
對(duì)于自然溝通的語(yǔ)音設(shè)計(jì)來說,可以嘗試以下幾個(gè)方向。
(1)個(gè)性化
每個(gè)人都有自己的說話方式,跟機(jī)器進(jìn)行對(duì)話也會(huì)帶著自己的習(xí)慣。每個(gè)語(yǔ)音系統(tǒng)也可以有自己的個(gè)性,這是設(shè)計(jì)者可以考慮塑造的機(jī)器人格。
比如:分別問天貓精靈、小愛同學(xué)、Siri“你喜歡什么顏色”,可以得到三種不同類型的回答。
如圖可以看出Siri、天貓精靈和小愛同學(xué)都有自己的性格差異。
當(dāng)調(diào)戲Siri和小愛同學(xué),不斷重復(fù)它們的回答時(shí)。
Siri會(huì)帶有情緒地說“奇怪,難道這里有回音”。而小愛同學(xué)會(huì)帶有情緒地說“別鬧,我才是小愛”。
甚至問Siri圓周率是多少時(shí),它還會(huì)加上一些“無意義”的語(yǔ)氣詞,如“呼氣!”。
可惜的是,Siri并不是真正模擬呼氣的過程,而是用平緩的語(yǔ)氣念出了“呼氣”兩個(gè)字,這也許是出于對(duì)“恐怖谷理論”的擔(dān)憂吧。
(2)本土文化
本土文化也是自然溝通的考慮因素之一,不同文化所用的語(yǔ)言不同,導(dǎo)致在選詞造句上都存在很大的差異。
像日常溝通中,人們會(huì)用上諺語(yǔ)來表達(dá)自己想描述的內(nèi)容。在語(yǔ)音助手類產(chǎn)品中,Siri是做得比較好的。
比如:當(dāng)遇到英文單詞時(shí),Siri會(huì)用中文讀出來。說謝謝時(shí),Siri會(huì)引用“一家人不說兩家話”這樣的地方用語(yǔ)來回答。
(3)語(yǔ)意分析
對(duì)于實(shí)現(xiàn)自然溝通來說,語(yǔ)意分析算是重點(diǎn),也是難點(diǎn)之一。在很多語(yǔ)言中,同一個(gè)詞在不同場(chǎng)景下說出來,經(jīng)常表達(dá)著不同的含義。
像“晚上好”,我們也可以用“晚安”來表達(dá)?!霸缟虾谩鄙踔量梢允÷詾橐粋€(gè)“早”字,在語(yǔ)音設(shè)計(jì)的過程中,建立用戶詞庫(kù)以及關(guān)鍵詞歸類,可以更自然的分析用戶的語(yǔ)意。
通過通配符和邏輯表達(dá)式,系統(tǒng)可以更好的識(shí)別含義相近的語(yǔ)句。
將“電腦慢”這樣的關(guān)鍵詞定義為通配符,并將“名詞+形容詞”的語(yǔ)句表達(dá)式定義為歸為同一類邏輯。系統(tǒng)就可以認(rèn)為“電腦慢”、“電腦很慢”、“電腦真的很慢”等等相近含義的語(yǔ)句歸為同一含義。這有點(diǎn)像微信公眾號(hào)的關(guān)鍵詞自動(dòng)回復(fù)一樣。
通過建立詞庫(kù)的形式,也能實(shí)現(xiàn)更自然的語(yǔ)意分析。
詞庫(kù)有兩種建立的方案,一種是將整理歸納好的詞庫(kù),提前內(nèi)置到語(yǔ)音助手中。另一種則是提供自定義功能,讓用戶在日常使用中,不斷去教育,修正語(yǔ)音助手的詞庫(kù)。這就像輸入法的詞庫(kù)設(shè)計(jì)一樣。
比如:對(duì)天貓精靈說關(guān)閉、睡覺、閉嘴、安靜等,都可以觸發(fā)設(shè)備的關(guān)閉操作。而小愛同學(xué)有“小愛訓(xùn)練”,用戶可以自定義關(guān)鍵詞并定義該關(guān)鍵詞要執(zhí)行的操作。
這是主動(dòng)去教育語(yǔ)音助手,形成用戶獨(dú)有詞庫(kù)的方式。
通過分析語(yǔ)句中的通配符,未來還有很多可能性。
當(dāng)人感覺到生氣時(shí),常用命令式的對(duì)話,同時(shí)會(huì)用上情緒用詞,通過這些詞匯,語(yǔ)音助手可以更精確的識(shí)別使用者的情緒變化,做出更自然的回復(fù)。
但在準(zhǔn)確率還無法保證的情況下,謹(jǐn)慎把語(yǔ)音助手做得過分“智能”,因?yàn)樽R(shí)別錯(cuò)誤率過高,更容易引起用戶的負(fù)面情緒。
(4)過度關(guān)懷
想象下,你跟朋友說“晚安”,朋友回復(fù)你“晚安,做個(gè)好夢(mèng)哦。明天深圳的天氣是晴轉(zhuǎn)多云……”
可能偶爾一兩次,還會(huì)覺得這位朋友好貼心,睡覺前還告訴你明天的天氣。但長(zhǎng)期接觸后,就會(huì)覺得這位朋友好啰嗦,這個(gè)故事來源于小愛同學(xué)的晚安反饋,每次說晚安都過度關(guān)懷用戶。
對(duì)于語(yǔ)音助手來說,雖然趨勢(shì)是擬人化,但設(shè)計(jì)者要把握擬人的程度,語(yǔ)音助手自身提供的語(yǔ)音反饋應(yīng)該是簡(jiǎn)明的單一操作。復(fù)雜的組合操作應(yīng)該由輔助屏幕來呈現(xiàn),或是由用戶自定義語(yǔ)音任務(wù)來觸發(fā)。
三、總結(jié)
語(yǔ)音交互相對(duì)界面交互,還存在一些缺點(diǎn):在公共場(chǎng)景使用會(huì)有點(diǎn)尷尬。有些用戶存在心理障礙,不適應(yīng)跟機(jī)器對(duì)話。豐富的信息內(nèi)容也不合適單獨(dú)用語(yǔ)音來表示。
雖然存在這些缺點(diǎn),但是語(yǔ)音交互還是會(huì)成為未來主流交互方式之一。它可以釋放雙手,學(xué)習(xí)門檻也更低,用戶直覺的說出操作就行,不需要去學(xué)習(xí)界面交互。更具有同理心,通過語(yǔ)氣、音量、語(yǔ)調(diào)、語(yǔ)速等就可以獲知使用者心情的變化。
最后,在語(yǔ)音交互的設(shè)計(jì)中,我們可以遵循一些原則:
- 保護(hù)用戶的隱私。
- 保持自然的溝通。
- 保持簡(jiǎn)短的回復(fù)。
- 提供明確的反饋。
- 對(duì)識(shí)別內(nèi)容的支持修正。
- 了解語(yǔ)音識(shí)別的局限性。
作者:mufly
來源:https://www.ui.cn/detail/439773.html
本文由 @mufly 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
讀了您的文章對(duì)我很有幫助 謝謝