場景化體驗(yàn)設(shè)計(jì)的新思路:語音交互

1 評論 19958 瀏覽 90 收藏 14 分鐘

語音交互在場景化的體驗(yàn)中能發(fā)揮更好的效果,是因?yàn)檎Z音本身就是一個(gè)對話的過程。當(dāng)你置身于特定場景下時(shí),你的語音指令才具備特殊的意義!

一直以來,我們使用的是以視覺界面交互為主的3C產(chǎn)品。iphone,Google Glass,Apple Watch,以及增強(qiáng)現(xiàn)實(shí)的Magic Leap, Microsoft Hololens,這些產(chǎn)品都在主打視覺交互,期望用戶在視覺界面上完成他們的需求任務(wù)。這些產(chǎn)品需要用戶將全部注意力都集中在界面上,用戶需要專注于界面的交互體驗(yàn),因此,無法在同一時(shí)間做其他的事情。

但在現(xiàn)實(shí)生活中,我們往往并不在同一時(shí)間只專注于同一件事情的。而語音交互在這方面則具備潛在的優(yōu)勢,它能夠讓你在同一時(shí)間處理多項(xiàng)任務(wù)。

值得注意的是,最近幾年針對語音交互的體驗(yàn)設(shè)計(jì)研究開始興起:Android和iOS 手機(jī)開始構(gòu)建自己的語音交互生態(tài),智能汽車為了解放雙手,也開始研究語音交互的玩法。這些都證明了企業(yè)和市場對于語音交互潛在優(yōu)勢的的認(rèn)同。語音交互開始逐漸進(jìn)入到人們的日常生活當(dāng)中。

當(dāng)你在專注于某一件事時(shí),最快捷的在同一時(shí)間獲取其他事物相關(guān)信息的方式就是語音交互,它不會被圖像交互所打擾。

屏幕快照 2016-10-05 下午1.08.29

當(dāng)你在騎行的時(shí)候,Siri在你耳邊提醒你臨近會議的準(zhǔn)確時(shí)間和地點(diǎn),并為你語音導(dǎo)航,同時(shí)為你口述剛剛收到的短信息—所有的動作都沒有打斷你的騎行運(yùn)動。

這就是語音交互的優(yōu)勢所在。不過這只是我對于Siri語音交互的未來期許,現(xiàn)實(shí)情況是Siri在Apple Watch上只提供視覺反饋,并沒有像iphone和ipad上一樣具備語音回饋。

而通常當(dāng)我在使用語音請求時(shí),我的眼睛和手常常在忙于其他的事情:當(dāng)我正在騎自行車回家的路上時(shí),我會對我的watch說,“Hey Siri,開始自行車健身課程。”然后我不得不在騎行過程中低頭查看我的watch是否打開了健身應(yīng)用并且開始記錄我的進(jìn)程。這是及其不方便的,并且很危險(xiǎn)。

語音交互在場景化的體驗(yàn)中能發(fā)揮更好的效果,因?yàn)檎Z音本身就是一個(gè)對話的過程。當(dāng)你置身于特定場景下時(shí),你的語音指令才具備特殊的意義!

當(dāng)你在高速公路行駛中對你的輔助駕駛系統(tǒng)發(fā)出“slow down”的指令時(shí),系統(tǒng)會將速度由120公里每小時(shí)降到100公里每小時(shí);而當(dāng)你在市里的道路行駛時(shí)”slow down“的指令可能會使你的車速從60公里每小時(shí)降到40公里每小時(shí)。

怎樣設(shè)計(jì)語音交互體驗(yàn),才能使其發(fā)揮場景化的優(yōu)勢?Nielsen的啟發(fā)式可用性原則依然適用于語音式的交互方案。

系統(tǒng)狀態(tài)的視覺反饋

亞馬遜的語音產(chǎn)品Echo,是一款場景化的語音交互智能硬件。相比Siri和Google now,亞馬遜的產(chǎn)品團(tuán)隊(duì)充分理解了語音交互場景化的潛在優(yōu)勢,并結(jié)合自己的電商基因,將Echo打造成了更加智能的私人家庭助理。下圖是Echo的升級產(chǎn)品Echo dot,將與近期發(fā)售。

Echo內(nèi)置的LED 燈可以提示Echo是否接收到了語音指令,但不像視覺界面,用戶并不能從中理解系統(tǒng)處理語音指令的過程。語音交互需要花費(fèi)更多的精力判斷和預(yù)測用戶指令所處的情景和上下文關(guān)系,并且向用戶解釋其所處在流程中的什么位置。

feature-smarthome

預(yù)防錯(cuò)誤和及時(shí)更正

對于設(shè)計(jì)師與開發(fā)工程師來說語音設(shè)計(jì)中最困難的就是要面對大量無用的語音輸入信息。交互過程中的語音輸入是無法像GUI那樣規(guī)范化的。在GUI中,用戶可以借助文字提示和視覺界面組件來引導(dǎo)他們完成操作;標(biāo)題,導(dǎo)航條,按鈕以及留白等無時(shí)無刻在引導(dǎo)用戶完成頁面跳轉(zhuǎn)操作。

相比之下,語音交互的流程顯得更加直接。在語音交互中,用戶只能依靠有限的語音提示以及短期記憶來完成操作,這就需要設(shè)計(jì)師將流程簡潔化。

設(shè)計(jì)師需要去設(shè)計(jì)一套盡可能的避免用戶錯(cuò)誤語音輸入的流程,以及預(yù)測用戶可能的錯(cuò)誤并及時(shí)提示用戶糾正錯(cuò)誤。像GUI那樣去有意識的設(shè)置語音輸入的流程和規(guī)則,只會增加語音交互流程的復(fù)雜程度,同時(shí)也會提高錯(cuò)誤率。運(yùn)用云計(jì)算、大數(shù)據(jù)、神經(jīng)網(wǎng)絡(luò)、智能學(xué)習(xí)等技術(shù)來幫助系統(tǒng)識別用戶的自然語言、判斷用戶指令是目前的主流研究方向。

現(xiàn)有的第三方智能語音服務(wù)商有很多,國內(nèi)如科大訊飛,對于自然語言的理解錯(cuò)誤率已經(jīng)降低了許多。Echo能夠主動檢測到激活短語,尤其是在現(xiàn)實(shí)環(huán)境中常見的的雜音背景下。比如當(dāng)產(chǎn)品在播放音樂的時(shí)候給它一個(gè)語音指令讓其停止。

Echo Alexa對于自然語言的理解能力很強(qiáng),并且能夠在在復(fù)雜的背景音中辨別語音指令。這是更加符合真實(shí)使用場景的設(shè)計(jì)。Alexa能夠根據(jù)情景和上下文關(guān)系來判斷指令:當(dāng)你發(fā)出設(shè)置一個(gè)新的倒計(jì)時(shí)時(shí),Alexa很準(zhǔn)確地作出判斷并回應(yīng):

第二個(gè)倒計(jì)時(shí)設(shè)定40分鐘,現(xiàn)在開始倒計(jì)時(shí)。

Siri則這樣回應(yīng):

你的倒計(jì)時(shí)已經(jīng)運(yùn)行,還有9分42秒,想要更改它嗎?

用戶操作的自由度、效率以及流暢度

在視覺界面交互中,用戶的行為指令已經(jīng)被預(yù)先設(shè)計(jì)好了,通過識別下滑、點(diǎn)擊、雙擊等交互行為以及用戶所處的頁面位置,系統(tǒng)能夠快速判斷用戶的指令并作出準(zhǔn)確的反饋。而在語音交互中,用戶可以發(fā)出不同的語音指令來期望獲得同一個(gè)反饋,而系統(tǒng)需要去分析輸入指令所處的場景和上下文關(guān)系,從而做出準(zhǔn)確合理的信息反饋。

比如,在GUI中,標(biāo)有“yes”文本的按鈕代表著“是”的指令;而在語音交互中,用戶可以使用以下語句:“Sure”,“Absolutely”, “Uh-huh”, “Yes, please”。

雖然不如可穿戴設(shè)備那樣隨身攜帶,但Echo Alexa能夠在一定距離內(nèi)高效精準(zhǔn)的判斷語音指令,即使是在復(fù)雜的背景噪音下;你還可以在做其他事的同時(shí)向Echo輸出指令,一心二用,這意味著在可檢測距離內(nèi)Echo的靈活性要高于搭載Siri的移動設(shè)備。

簡潔明了是關(guān)鍵

在文章創(chuàng)作中,我們可以將要表達(dá)的信息內(nèi)容全面詳細(xì)地寫下來,文章的關(guān)鍵信息會隱藏在段落中,通過直述、隱喻等表達(dá)方法展示給讀者。我們不會期望讀者會閱讀每一個(gè)文字,只要讀者能夠體會到文字的含義即可。但在語音交互設(shè)計(jì)中,這樣的寫作手法是奢望且不被允許的。所有的信息需要簡潔明了,任何復(fù)雜的表述方式都有可能讓用戶陷入困惑。

在心理學(xué)設(shè)計(jì)中已經(jīng)提到,人類的短暫記憶只能記住最多4到5個(gè)事物,這就限制了語音交互產(chǎn)品每次向用戶展示的信息數(shù)量。

善于引導(dǎo)

尼爾森的另一個(gè)啟發(fā)式可用性原則:

引導(dǎo)強(qiáng)于記憶。

交互設(shè)計(jì)師在GUI設(shè)計(jì)中會想方設(shè)法的通過使用隱喻式設(shè)計(jì)來引導(dǎo)用戶去操作,減輕了用戶的記憶負(fù)擔(dān)。而在語音交互中,隱喻式引導(dǎo)設(shè)計(jì)卻無從下手,用戶需要記住回到菜單或上一頁的方法,系統(tǒng)必須試著去理解用戶指令的意思,并且輸出恰當(dāng)?shù)奶崾疽龑?dǎo)用戶正確的操作,而不是誤導(dǎo)用戶、讓用戶不得不重啟整個(gè)流程。一個(gè)在任何時(shí)機(jī)下都可觸發(fā)的“help”指令是必須的,當(dāng)用戶在忘記具體操作指令的時(shí)候及時(shí)得到系統(tǒng)幫助。

除了遵循尼爾森的啟發(fā)式可用性原則之外,為了增強(qiáng)對場景化的理解,語音交互系統(tǒng)需要更加智能的去自主學(xué)習(xí)用戶與環(huán)境,大數(shù)據(jù)的輔助也能夠更好地加速這一進(jìn)程。受制于人工智能與大數(shù)據(jù)的總體發(fā)展與應(yīng)用的限制,Echo也存在很明顯的劣勢,那就是無法理解復(fù)雜的語句。

例如線上購物,當(dāng)你一件一件的添加商品到購物列表時(shí)是很容易的。但當(dāng)你一次性的輸出多個(gè)商品指令時(shí),Echo經(jīng)常會“誤解”你的本意,例如下面這段對話:

User: Alexa, add milk to the shopping list.

Alexa: I’ve added milk to your shopping list.

 

User: Alexa, add eggs to the grocery list.

Alexa: Eggs added to your shopping list.

 

User: Alexa put butter on the shopping list.

Alexa: I’ve added butter to your shopping list.

 

User: Alexa add cereal to the shopping list.

Alexa: I’ve added cereal to your shopping list.

 

User: Alexa put cheddar cheese on the shopping list.

Alexa: Cheddar cheese added to your shopping list

 

User: Alexa put sugar, flour and salt on the shopping list.

Alexa: I’ve added sugar flour salt to your shopping list.

總結(jié)

語音交互是更具有場景化的體驗(yàn)設(shè)計(jì)方法。它能夠幫助用戶在特定場景下同時(shí)完成多項(xiàng)任務(wù)和工作。語音交互在設(shè)計(jì)上相較于GUI會面臨更加苛刻的條件限制。

在沒有視覺反饋的情況下,語音交互系統(tǒng)需要充分的理解用戶所在的場景與用戶習(xí)慣,精確判斷用戶的指令與上下文之間的關(guān)系,并結(jié)合場景做出正確的反饋。受制于用戶的短期記憶能力和語音信息的繁雜程度,語音交互流程應(yīng)當(dāng)更加簡潔直接與多樣,并預(yù)先評估用戶可能的語音指令,以便做到快速理解和迅速反饋。

適當(dāng)?shù)恼Z音反饋與引導(dǎo)可以幫助用戶減輕記憶的壓力,并避免用戶迷失。充分借助云計(jì)算、大數(shù)據(jù)、神經(jīng)網(wǎng)絡(luò)、智能學(xué)習(xí)等技術(shù)來幫助語音交互系統(tǒng)增強(qiáng)對場景和用戶的理解。

推薦閱讀

https://www.nngroup.com/articles/voice-interaction-ux/

https://medium.com/rain-drops/usability-heuristics-meet-voice-experience-design-7aaead3d77b0#.ee1o8zu3k

https://www.amazon.com/All-New-Echo-Dot-2nd-Generation/dp/B01DFKC2SO/ref=sr_1_1?ie=UTF8&qid=1474963942&sr=8-1&keywords=echo+dot

#專欄作家#

薛斯塔,微信公眾號:luxdesign2015。人人都是產(chǎn)品經(jīng)理專欄作家。海歸交互,對體驗(yàn)設(shè)計(jì)有著濃厚興趣,崇尚科技創(chuàng)新解決用戶需求、改革行業(yè)服務(wù)模式;資深尤文蒂尼。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 方言能聽懂?

    回復(fù)