智能語音交互應(yīng)該如何設(shè)計?
編輯導(dǎo)語:隨著亞馬遜、小米、阿里巴巴等大公司都推出了智能語音產(chǎn)品,智能語音交互設(shè)計成為了一個值得探索的領(lǐng)域。語音交互如何設(shè)計才能達到更自然的交互反饋、更好的傳達情感,這是目前需要解決的問題。對于用戶來說,希望能與智能產(chǎn)品建立親切的信任感,越相處越好用。AI時代,深知我者,才能久居我心。
一、語音交互需求價值
說到語音交互需求價值,總有一種不言而喻的感覺,語言作為人類信息傳遞的主要媒介,用其進行溝通交流,是一種遵循本能的行為。從我們記憶機器命令的鍵盤輸入,到按機器提示的點擊觸碰行為,這類需要我們?nèi)ダ斫鈾C器的方式,隨著科技的不斷突破,也迎來了轉(zhuǎn)變。
語音交互除了幾乎不需要任何學(xué)習(xí)成本外,更有意義的是,解放了作為輸入的雙手(是不有種人類實現(xiàn)直立行走的偉大意義),人們可以同步開展其它任務(wù),并且也調(diào)動了人類聽覺的感官體驗,而不用完全局限在視覺上。
下面就來說說如何設(shè)計一款語音交互產(chǎn)品,先說說語音交互產(chǎn)品設(shè)計的整體流程框架,再對其中各環(huán)節(jié)涉及的問題展開說明。
二、流程框架
查閱了亞馬遜Alexa語音界面設(shè)計規(guī)范和Google的語音界面設(shè)計規(guī)范后,結(jié)合自己的解分為五個關(guān)鍵步驟:調(diào)研→定位→設(shè)計→測試→完善。
調(diào)研—— 挖掘語音交互使用場景
定位—— 聚焦產(chǎn)品定位,創(chuàng)建用戶畫像
設(shè)計—— 設(shè)計狀態(tài)流程圖,編寫腳本,建立原則
測試—— 真人感受,在線模擬測試
完善—— 數(shù)據(jù)+案例分析,優(yōu)化調(diào)整。
1. 調(diào)研:用戶場景的選擇
雖說語音交互(VUI)帶來了便利,但并不是說現(xiàn)有的交互方式都可以完全替換,想想畢竟文字的形式不也還存在嘛。其簡單快捷的方式對需要復(fù)雜信息的呈現(xiàn),需要時間思考反饋的產(chǎn)品反而會增加復(fù)雜度。
Google給出了3條指導(dǎo)原則:
- 人們可以快速做出回答的場景。比如用戶輸入不需要思考的基本信息;
- 快捷,可以省去中間交互的時間,強執(zhí)行操作比如給XX打電話(搜索框輸入XX,點擊查詢,撥打的步驟合并一步提交后臺處理);
- 雙手已被占用,需要并行處理其它任務(wù)場合。比如開車的時候,做飯的時候,記筆記的時候,這些場合雙手多數(shù)是被占用的。
2. 定位:創(chuàng)建人物畫像
語音交互是在模擬人的行為,建立的虛擬人的形象,也會讓人們將現(xiàn)實中人的行為與其關(guān)聯(lián)。字正腔圓的新聞聯(lián)播是嚴(yán)謹真實的,少兒節(jié)目是活潑可愛的,相聲綜藝是輕松詼諧的。
在設(shè)計對話前,定位出產(chǎn)品態(tài)度,才好選擇詞語風(fēng)格,句子結(jié)構(gòu)。
3. 設(shè)計交互對話
設(shè)計分為三個步驟:邏輯狀態(tài)圖——對話腳本編寫——解決方案分級
1)圍繞用戶產(chǎn)生的結(jié)果狀態(tài),梳理出邏輯圖
機器與人的對話存在多種可能性,除了完成核心場景外,還要考慮意外的情況。用戶輸入 不在范圍內(nèi),用戶不按提示操作,用戶重復(fù)輸入多次,用戶沒有回應(yīng)等等。
但是這些都不算用戶輸入錯誤,這個概念是不存在的,都是一種狀態(tài),需要引導(dǎo)到正常會話下圖是未展開細節(jié)的狀態(tài)流程圖示例。
喚醒——響應(yīng)——輸入——理解——輸出
(橘色是人的輸入,綠色是機器輸出,無色是處理邏輯):
2)對每個狀態(tài)編寫對話體驗?zāi)_本
3)結(jié)合情感化設(shè)計的解決方案分級
從用戶體驗劃分為三個層級,滿足人們功能、心理、自我探索共鳴需求。
- 功能級:期望對話的產(chǎn)品更像一個自然人亞馬遜Alexa設(shè)計規(guī)范指出人類對話的核心特點:串聯(lián),有上下文的相關(guān)性輪流,你說一句我說一句的互動潛在效率;省略詞,簡潔高效的本能多樣性:一句話可以有多種表達形式。
- 心理級:激發(fā)未知好奇心人類天生有好奇心,喜歡新事物,計算能力強是機器的優(yōu)勢,如果每次對話,同樣的問題會有不同的回答,用戶會主動想去體驗互動。
- 自我探索級:觸發(fā)情感共情人是有感情的生物,一本記滿日記的本子,陪你走南闖北的行李箱,何況是一只會說話的產(chǎn)品。并且經(jīng)過時間的磨合,她越來越懂你,記得上次你查詢的內(nèi)容,記得你上次問的問題。會喚起你小伙伴在身旁的感覺。
4. 測試
1)大聲的朗讀出來,聽起來是口語,而不是書面語言;
2)谷歌在線模擬器 ?https://developers.google.com/assistant/console/simulator。
5. 迭代完善
1) 結(jié)合用戶反饋,數(shù)據(jù)統(tǒng)計進行分析
比如:對于用戶同一個問題提出多次原因可能是:
- 答案不是用戶想要的;
- 用戶忘記了第一次答案;
- 用戶頑皮這時候可以結(jié)合人工理解,大多數(shù)用戶選擇進行優(yōu)化。
2)示例中等待時間5秒按Cathy Pearl書中試驗得出,這個值可以根據(jù)不同產(chǎn)品用戶的反應(yīng)速度調(diào)整。
三、設(shè)計中考慮的因素
從用戶,產(chǎn)品,信息內(nèi)容,傳達方式中的問題與語言特征依次說起。
1)用戶意圖的識別
人們問的問題,因為個體差異,關(guān)注的點不同,需要的結(jié)果也會不一樣。
比如:今天出門需要帶傘么?
——男性:關(guān)注下雨;
——女性:關(guān)注日曬。
區(qū)別個體差異,讓用戶覺得你懂他,體驗到產(chǎn)品的溫度。
2)產(chǎn)品人格塑造
我們在與他人交流的時候,會注意場合,自我形象,用連接詞進行話語的過渡。語音交互,作為一個擬人化產(chǎn)品,這些也是要考慮的。
- 自我形象:面向小朋友的教育軟件,要樹立一個勇敢權(quán)威的形象,而他們本身就是可愛的,就不應(yīng)該再加入賣萌的話術(shù)。而客服類語音,由于客戶面對問題會存在不耐心煩躁的情緒,就可以用幽默的話術(shù)緩解一下氣氛。
- 注意場景:在公共場合,話語要簡潔,高效解決問題。在私人空間,比如家,可以網(wǎng)絡(luò)語化、逗逗樂。
- 過渡詞:人們談話的時候,不會拘泥于一個話題,會不斷展開話題,比如:對了、其實、但是…
3)控制內(nèi)容范圍
語音交互實質(zhì)是連接產(chǎn)品服務(wù)與用戶需求,所以答案要么和產(chǎn)品有關(guān),要么和產(chǎn)品無關(guān)。有關(guān)的是基于產(chǎn)品本身的有限搜索信息庫。無關(guān)的用兜底的話術(shù)結(jié)束(這個功能我還在努力學(xué)習(xí))還有一種是引導(dǎo)用戶,結(jié)合著視覺,羅列出和主題相關(guān)的選項,引導(dǎo)用戶找到答案。
4)信息口語式傳達
口語在表達的時候,為了簡潔方便,并沒有按著嚴(yán)格語法(主謂賓,定語*+名詞的結(jié)構(gòu)),省略的、不連續(xù)會被大腦自然補齊,比如:
CASE1:
點餐,來一杯拿鐵,大杯加冰,而書面表達可能說,他點了一大杯加冰的拿鐵;
CASE2:
詢問天氣:今天天氣怎么樣?(隱含用戶現(xiàn)在所在的城市)。
繼續(xù)詢問,那杭州呢?(隱含還是問的天氣)
書面表達是事后信息重整理,口語表達是大腦同步傳遞,先表達中心,然后補充細節(jié)。用戶信息輸入后,留出一段停頓的時間,再執(zhí)行命令,會更符合說話的節(jié)奏。
四 技術(shù)及其現(xiàn)狀
語音交互的信息流處理步驟如下:
1)語音識別 ASR :聽清用戶說話
處于單模式狀態(tài):喚醒對話,再喚醒再對話的方式,反映到現(xiàn)實是這樣場景:
小明,播放周杰論的告別氣球。
小明,聲音大些。
小明,再大些。
小明,循環(huán)播放。
小明,播放Remix版。
你每次說話都要帶上別人的名字。目前大部分產(chǎn)品是單輪對話,采用一問一答交替形式,對用戶糾正信息,打斷對話是不做響應(yīng)處理的,期待技術(shù)發(fā)展后續(xù)可以是邊聽邊思考的信息流狀態(tài)。
2)語義理解NLU :聽懂用戶的話
語義理解要做到智能除了字面含義外,用戶意圖識別,情緒識別,對話的上下文信息關(guān)聯(lián)都是要考慮的因素。
3)信息搜索Info Search :最強大腦
依賴于檢索的準(zhǔn)確率,召回率。
4)語言生成NLG:生成結(jié)果
分為三個級別:
- 簡單數(shù)據(jù)合成并;
- 模版化輸出,比如:導(dǎo)航的語音播報;
- 高級版模擬人類表達,它理解用戶意圖,結(jié)合知識圖譜,比用戶多想一步等,解決其本質(zhì)需求。說兩個例子,暢想一下:
CASE1:
用戶:小明,杭州氣溫多少度?
語音:杭州今天氣溫10~14度,未來3天有小雨,主人出門建議多帶件換洗衣物(用戶之前通過語音查詢了機票酒店信息,或者上次主人問了這個問題后,有5天都沒有再用設(shè)備,因為不在家)。
CASE2:
用戶:小明,來首歌吧!
語音:(識別出語調(diào)興奮)好,播放了一首歡快的high歌。
用戶:小明,放首歌!
語音:(識別出語音的低落)好,播放了一首正能量的歌。
這一部分的可關(guān)聯(lián)的空間還很大。說個題外話,語音是人類所擅長的,對其的預(yù)期會高,有時說話像個孩子的樣子,有時反而還會討喜。所以還要結(jié)合心理預(yù)期維度的研究。
5)TTS :播放給用戶聽
目前可以選擇喜歡的明星的聲音,以及AI主持人。
總結(jié)
無論從市場應(yīng)用的硬件載體覆蓋面(智能音箱、智能手表、智能導(dǎo)航儀等),行業(yè)應(yīng)用廣泛推廣(醫(yī)療,教育,公檢法,車聯(lián)網(wǎng),泛娛樂等),還是聚焦在產(chǎn)品設(shè)計,技術(shù)優(yōu)化上,以及符合人體本能行為需求價值上,還是作為AI時代的入口,這個方向都是很有趣的,歡迎開撩~~
本文由 @大魚海棠 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
寫得不錯~