谷歌是怎么設計語音界面的 ?對話設計六原則
文章分享了VUI設計的六項原則,這些原則是日常對話的延展,希望對你有所幫助。
新時代的界面將會突破現有的格局。界面將不再被滑動、輕觸和點擊局限,取而代之的是更自然細膩的語言呈現形式。 用于GUI(圖形用戶界面)的設計技法和設計語言在語音交互這個全新的領域不再適用,VUI(語音用戶界面)設計的新浪潮將基于『對話』- 這個我們最先學會而且最擅長的交流方式。
『對話』這種媒介既復雜又系統,定義原則比小學生的校訓還要微妙、壓人。 例如,不要用 “而且” 作為對話的開場,或者不可以打斷別人講話。我們與其他人對話交流時可以自然地應對各種復雜情況,這幾乎成為了我們的第二本能。但是,如果我們不能真正理解『對話』的本質和其內在機制,就貿然開始設計人機對話,得到的用戶體驗通常是令人抓狂的。語音是一種個人標志,體現了一個人的社會身份;也因此人們對它的標準極高。用戶在使用過設計不佳的VUI后反映:這些VUI讓他們覺得愚蠢、可笑,甚至覺得被科技愚弄了。這些用戶也因此表示不愿再次使用。事實上,這些都是可以避免的。
下文給VUI設計師們介紹六項原則,這些原則是日常對話的延展。它們可以輔助設計師完成對話設計,并且引領VUI設計師進入以用戶為中心的界面設計新時代。
一、 給VUI賦予形象
你可能覺得一個簡單的語音應用不需要形象,但這不是需不需要的問題。對比下面這兩個日歷應用的例子:第一個例子展示了未經設計的助手形象(persona);第二個則具有經過設計的形象。
對話1
用戶:在日歷里添加一個預約
VUI:請說出 “日期”
用戶:8月2日
VUI:請說出 “開始時間”
用戶:1點
VUI:請說出 “持續時間”
用戶:哦,一個小時左右
VUI:請說出 “主題”
用戶:性能評估
VUI:確認中,8月2日1點,持續一小時,是否正確?
用戶:是
VUI:該事件現已在您的日歷中
未經設計的VUI形象
對話2
用戶:在日歷里添加一個預約
VUI:沒問題,哪一天的?
用戶:8月2日
VUI:謝謝,什么時候開始?
用戶:1點
VUI:那么,預計要開多久?
用戶:哦,一個小時左右
VUI:最后,我只需要記錄一個簡短的標題
用戶:性能評估
VUI:搞定!讓我重復一遍:8月2日1點,持續一小時,我記得對嗎?
用戶:對
VUI:贊!已經在你的日歷上了
這個VUI的形象是經過設計的
不管在不在你的計劃之中,所有的語音都會映射出一種形象。就像第一個例子,按說應該是沒有形象設計的VUI,卻在“友善”、“樂于助人”等性格屬性上評價不高,在“無聊”的上的得分卻很高。
經過幾十萬年的演變,我們人類無法不用性格特征來評價一段語音,就連智能手表或GPS系統的語音也逃不過這種評價。這可不是主管觀點,這是有據可查的事實。社會語言學家(如,拉波夫 1964?①)的研究表明即使是極少的語音樣本,也會讓人產生對于演講者性格、形象方面的印象。我們早已進化成可以根據人的聲音來總結評判別人的專家。
曾有一個讓人印象深刻的研究(Giles & Powesland 1975?②?),研究者要求一些教師根據三樣東西來評估8名虛構的學生:一個書面文字樣本,一張照片和一段語音演講樣本。研究結果令人驚訝 – 由語音樣本產生的有利印象壓過了書面文字和照片的負面印象。相反,學生的語音樣本帶來的不良印象則會壓過其他兩個內容帶來的有利印象。其他研究表明,我們依靠語音交流在很多方面評價別人:友善度、誠實度、可信度、智力、教育水平、守時與否、慷慨度、浪漫程度、優越程度和就業適合度等??傊赫Z音具有很大的能量。
總結
不要讓你VUI的形象未經設計、隨意地產生。從最開始就要瞄準創造最理想的形象來代表你的品牌。它們是什么樣子的?它們聽起來是怎么樣的?最重要的是,它們如何行動?在體驗落地過程中,以形象設計作為根基;并確保形象具有一致性。
更多有關形象設計的信息請訪問 Actions on Google,代碼實驗室:Crafting a Character。
二、 推進對話
在日常對話中,似乎有很多疑問句都可以用簡單的肯定或否定來回答。但實際上,它們詢問的信息遠不止肯定或否定。下面有兩個這樣的例子:
對話3
A:你知道派對會有誰來參加么?
B:知道。
這個問題想要得到的答案并不是簡單的肯定或否定。
對話4
A:可以給我唱首歌么?
B:不可以。
只用『可以』和『不可以』來回答這個問題并不滿足對話性的預期。
你可能會覺得奇怪,這些作答的人為什么顯得很不配合。這是因為在這兩段對話中,作答的人違反了一個對話核心原則 – 量的準則(Maxim of Quantity)③。根據這個對話行為原則,說話的人應向聽者提供滿足推進對話交流所需的信息量。如果作答的人只按字面意思回答一個問題,而沒有提供可以推進話題的有效信息,對話互動是無法形成的。在上面的例子中,我們永遠也無法知道誰會來參加派對或者拒絕唱歌的充分理由。
這些說話的人調了我們的胃口,虛擬助手也有可能做出和他們一樣的事。比較下面兩種處理因為價格上浮引起用戶不快的方法:
對話5
用戶:好,可以支付了。
VUI:目前這個時間,送餐費暫時調整為7.99美元,因為美味面條家接單量過大。你還想繼續進行支付嗎?
用戶:不了……
這個VUI沒有成功將對話向前推進,迫使互動嘎然而止了。
對話6
用戶:好,可以支付了。
VUI:我必須要告訴你,這個餐廳今天晚上8點到9點的運費是7.99美元,你還想繼續下單嗎?
用戶:不了……
VUI:這樣的話,這附近還有一些類似的餐廳。你感興趣嗎?
用戶:好,為什么不呢。
VUI:好的。附近還有另外兩家面館:馬爾文區的涂鴉面館,另外一個:谷流的斯塔意面。
這個VUI為用戶提供了更多的選擇,像自然的人類對話一樣保持對話的持續推進。
顯然,第二個VUI的形象更得力,更叫人喜歡。但是,不是只有你的智能助理具備推進對話的社會智慧,你的用戶也有,而且這種本能是無法被壓制的。以下是用戶嘗試推進對話的例子,用戶的行為就好像他們正與人類交談一樣:
對話7
產品:那么,幾個人要去?
用戶:呃……有我妻子和我
這個用戶希望VUI可以從他給出的個人信息中推算出人數
這個時候,如果識別機制被設計成只識別數字的話,例如“兩個”;用戶就會收到輸入錯誤的提示。而這個用戶只不過是提供了更多的信息。如果識別器實在無法處理這樣的回答,可以嘗試用輕松愉悅的語言風格將對話引回正軌。比如,“對不起,有多少人?(上升語調)”。研究表明,識別出錯時,用戶通常只需要一個簡短的提示。沒有必要強調錯誤,也不要用機械而俗套的提示語;例如“很抱歉,我不明白?,F在,請用數字說出你們的人數?!蹦憧梢哉f:“比如,二個?!?/p>
總結
設計對話流時不能只關注字面意思。你需要嘗試預判:VUI什么時候應該提供更多信息,什么時候需要識別來自用戶的附加信息。這樣才能保持對話的推進。你還需要意識到,業界所謂的“識別錯誤”實際的根源在于:人類樂于(在對話中)提供更多的信息,推動交流。
三、簡短、有效
語音與文字不同,語音是伴隨著時間流動的。時間越長,聽者就越難理解。我們大腦能處理的信息量是有限的,一旦超出,就會對短期記憶造成負擔?!奥牎蓖徽J為是被動的;相反“說”被認為是主動的,高效的。事實上,聽也會耗費不少精力。所以你的VUI需要給聽眾休息的時間,也給他們一個機會說話,這是很重要的。比較這兩個例子:第一個VUI給聽者壓迫感,第二個則更加簡潔。
對話8
VUI:天空航空47航班下午1點從紐約肯尼迪機場起飛,下午1點45分到達波士頓羅根機場。行倉航空234航班下午2點15從紐約肯尼迪機場起飛,下午3點45到達波士頓羅根機場。藍鳥航空260航班下午3點45從紐約肯尼迪機場起飛,下午4點30分到達波士頓羅根機場。天運航空52航班下午5點從紐約肯尼迪機場起飛,下午5點45分到達波士頓羅根機場。你想要哪一個?
用戶:……哈?!
這個VUI給用戶的信息量大到令人窒息。
對話9
VUI: 向你展示4個航班:下午1點、2點15、3點45 和下午5點。 你想聽其中一個的更多信息嗎?
用戶: 2點15的那個
VUI:好的。下午2點15,行倉航空234航班,從紐約肯尼迪機場起飛。下午3點45到達波士頓羅根機場。你要預訂嗎?
用戶: 啊,好啊。
這個VUI保持簡短、扼要;提供了更自然、愉悅的交互。
與書面文字的永久性相反;語音是短暫的,轉瞬即逝的,且語音的傳達方式是線性的。在VUI設計中,不相關的信息尤其令人反感。因為與GUI不同,用戶無法略過一些內容。強迫用戶處理沒用的信息,是在浪費用戶的寶貴時間。在我看來,人們討厭機器客服的首要原因就是:冗長的廢話。許多VUI設計師和開發人員將不相關的信息強加于大眾,比如:促銷活動、向上銷售和教育引導。你肯定對這樣的語音引導耳熟能詳:“ 請輸入您的十位電話號碼,從區號開始?!?/p>
用戶收益是關鍵。人們找東西或做事的時候,不愿意浪費時間或繞圈子。研究表明,在做同一件事上,如果VUI沒有明顯的優勢用戶不會選擇使用VUI。不然意義何在呢?因此,成功的VUI設計需要在相關性和便利性上都提供更優的用戶收益。
總結
保持信息簡短且有用,給用戶說話的機會。確保信息對用戶有意義,可以給用戶帶來明顯收益。不要過早陷入冗長的細節。
四、利用語境
要讓對話真正有效,我們必須注重語境。一個優秀的對話參與者需要通曉對話的來龍去脈,熟記已說過的轉折點及關聯點,并具備用戶情景意識(比如:用戶正身處國外,用戶所在的地方將有一場暴風雨,或者用戶今天曾三次嘗試修改某種設置)。
同樣,VUI設計也要盡可能地利用用戶的語境。如果用戶之前提供過一些信息,那VUI的回應最好基于已有信息。比如,用戶已經做了什么,用戶已經知道了什么,用戶在對話中已經說過了什么。明顯的忽略上下文語境,會直接損害用戶對智能助手的印象。有個眾所周知的VUI反例:“請聽仔細,因為我們的菜單選項最近有更改”,這里還有另一個版本:
對話10
VUI:請仔細聽好,我們最近在選項上做出了一些改變。
雖然這段語音本意是輔助用戶,實際卻用無關緊要的信息浪費了用戶的時間。
這種語音提示就是我所說的那種“VUI 糙貨”中的典型,它的粗糙在于自以為是地忽略了用戶的語境。來讓我們看看它那些一廂情愿的假設吧:它假設用戶之前打過電話;它假設之前打過電話的用戶當時聽到的選項是修改前的版本(實際上,用戶可能幾分鐘前才打過電話);它假設“最近”的意思會被理解成是“最近幾個月”;它還假設聽過老版本選項的用戶真能記住當時的選項是什么!由于忽視了用戶的語境,這條提示對絕大多數聽者來說毫無用處,而我們也已經分析過為什么VUI中的無用信息令人尤為反感。
總結
我們在業界討論了太多的個性化,人工智能,以及數據驅動創新。但其實,在設計中只要做到追蹤對話的來龍去脈,保持對用戶語境的意識,就可以有效地提升用戶對人工智能的看法。
五、用語序和強調引導用戶的注意力
制定單條語音的語言結構時,VUI對已提及內容的意識是相當重要的。否則,斷了“來龍去脈”的對話會給聽者的理解造成負擔,并導致模糊的不適感??纯催@兩個不同的VUI回復(用戶要求在不存在的日期預訂航班):
對話11
用戶:預訂…6月31號的。
VUI:其實只有30天,在您說的六月中。
這條語音把新信息放在前面,舊信息放在后面;打破了正常對話的“重點后置”原則 。
對話12
用戶: 預訂…6月31號的。
VUI:事實上,6月只有30天。
這條語音把新信息放在了句尾,更合理。
為什么第一段語音奇怪而且機械,而第二段更像自然對話呢?“重點后置”原則給出了解釋。根據這一對話原則(本文的引用經過簡化)語言使用者對語言的信息排布具有無意識的預期。按照默認的規則,“新”信息出現在句子的末尾或接近末尾處,并用語氣強調;而“舊”信息則出現在前面。在你剛剛聽到的例子中,“30天”是新信息,所以它應該出現在最后并有適當的重音。在聽起來很奇怪的版本中,舊信息“六月”錯誤地扮演了新信息的角色。事實上,“六月”不該放置在句子末尾,也不該使用語氣強調;這樣才能聽起來更加自然。
違反“重點后置”原則會給交流增添沒必要的阻力。反之,遵循用戶對信息結構的預期不僅可以令體驗更自然、順暢,也可以讓用戶更加確信VUI確實聽明白了自己的意思。
對話13
用戶:印度的總理是誰?
VUI: 印度的總理是納倫德拉·莫迪
先陳述已知的信息,讓用戶知道機器聽清了自己所說,從而加強用戶對技術的信任。
這個例子表明,把舊的信息(印度總理)放前面,用戶會馬上知道機器正確識別到了“印度總理”。相反的,如果VUI說的是“意大利總理”,那用戶就沒必要花費精力去聽后面的名字了。
總結
利用用戶對語序和重音運用的預期,把用戶的注意力集中在重要的事情上。盡可能地把已知信息放在新信息的前面!(除非,你的VUI形象是效仿《星球大戰》Yoda大師而設計的。④)
六、 不要教用戶怎么下達指令 – 語言是自然的
我個人最痛恨的業余VUI設計典型是“教用戶怎么說話”。下面有兩個例子:
對話14
VUI:如果需要更多選擇,說“更多選擇”。
VUI:如果想聽更多,說“繼續”。
這些提示模擬了典型的按鍵界面(按鍵語音客服),它們正在教育用戶該如何交流。
這些信息暗指用戶需要學習怎么說話,不然VUI不會給你這樣的提示。諸如此類的提示還有很多:“如果需要什么,請說/請做什么”。這種提示帶有一些按鍵語音客服的痕跡;類似“技術支持請按1;支付和結算請按2”。事實上,這種信息是有價值(但是僅限于按鍵交互的領域),因為沒有人從小就知道“1” 代表 “技術支持”。設計師和開發者賦予鍵盤的意義是用戶無法通過直覺理解的。但在VUI的世界里這樣的提示聽起來就很荒謬了。這暴露了設計者沒有真正理解VUI。對大眾來說VUI的意義和收益在于:說話是自然而然的; VUI是不需要學習的。
看看下面這個愉悅的對話式提示的例子:
對話15
VUI:重播?回復?聽下一條?
這一提示充分利用了對話的結構,舒適、自然、使人親近。
很難想象有人會聽不懂這樣簡單、直接的提示。如果他們真的沒有聽懂,你可以自再次提示。我們已經討論過簡潔、有效、和利用語境的重要性。再重復一遍,只在必要時使用錯誤提示。
總結
在VUI設計中避免教用戶怎么下達指令。如果你必須對一個指令做出解釋時,那就說明哪里出錯了,你需要回去返工。與其手把手的教用戶說話;為什么不問用戶一個問題,給用戶機會說話呢?聽起來耳熟嗎?這就是聊天啊!
隨著讓人耳目一新的聊天機器人、語音助手和語音應用的持續問世,我們現在有機會傳播一個觀點:對話是用戶體驗成功的關鍵。這可不僅僅意味著使用接地氣的語言,比如用“you’re”替代“you are”,或使用“哦”和“謝了”。你要知道,對話是大自然最偉大的杰作之一,也是我們通過聲音交流的最有力方式。最明智的做法是:效仿這些和人類一樣古老的對話法則。而第一步就是開始從技術的角度解讀對話的本質。
附錄
相關出處及推薦閱讀
- ?Voice User Interface Design by Michael Cohen, James P. Giangola and Jennifer Balogh
- The Social Stratification of English in New York City by William Labov (PDF)
- ?Speech Style and Social Evaluation by Howard Giles and Peter Powesland
- The Media Equation: How People Treat Computers, Television, and New Media Like Real People and Places by Clifford Nass and Byron Reeves
- “Logic and Conversation” by H. P. Grice (PDF)
- A Concise Grammar of Contemporary English by Randolph Quirk and Sidney Greenbaum
譯者注
- 拉波夫 1964: 威廉 拉波夫,美國語言學家,社會語言學的代表人物之一。
- Howard Giles 與 Peter Powesland 合著論文《言語風格與社會評價》。
- 量的準則:”合作原則”中的一條定義原則,該原則由著名語言哲學家格萊斯于1967提出
- 尤達大師:電影《星際大戰》中的人物尤達大師有著獨特的說話方式,本文作為一個玩笑出現。
原文作者:James Giangola
原文配圖:Philippe Cao
原文鏈接:http://design.google/library/conversation-design-speaking-same-language/
本文由 @百度UXC 翻譯發布于人人都是產品經理。未經許可,禁止轉載。
中學生
問個問題,看到你們在17年8月分享的一篇文章中提到,任務式對話需要設置邊界,“為了避免發生錯誤,應在界面上引導用戶怎樣輸入或主動開啟一個對話。”是否和本文中的第六條設計原則有所違背?
贊! 吐槽一下當下的智能語音對話設計,還有支付寶的收錢播報 ??