語音交互設計探究——以車載場景為例

19 評論 14721 瀏覽 171 收藏 30 分鐘

本文以車載場景為例,具體分析了其中的語音交互設計流程、原則與設計走查等內容。

從Siri 、Amazon echo Alexa、google home 、小冰、國內的叮咚、天貓精靈、小愛同學以及各種你聽說過的,沒聽說過的。然而,隨著技術的進步,語音交互將運用到越來越多的場景:

  • 2017年5月10日,微軟Build大會發布智能音箱Invoke,
  • 2017年6月6日,蘋果WWDC發布HomePod,
  • 2017年7月5日,上午10點,百度AI開發者大會發布DureOS開放平臺,
  • 同一天,下午2點,阿里人工智能實驗室發布天貓精靈,
  • 2018年1月,百度DuerOS在CES 2018上驚艷亮相……

駕駛汽車是一項復雜的行為,好的駕駛體驗需要綜合考慮駕駛場景的各個因素。完全自主駕駛汽車的時代馬上就要到來。當汽車能夠實現完全自主駕駛時,對于汽車駕駛場景的概念將完全被顛覆—也許我們應當將精力集中在如何設計駕駛過程中的娛樂服務,或者將駕駛室設計成為駕駛員的工作臺。不得不說的是,車載中控系統目前為止的體驗都不太好,在完全自主駕駛時代到來之前,車載中控系統的體驗設計還有很大的空間被提升。

一、基本概念

車載場景下的語音交互(后面簡稱VUI),追求駕駛者的使用體驗,緩解甚至消除駕駛過程中帶來的焦慮現象。車載VUI設計的基本理念如下:

  1. 安全:駕駛過程中幾乎是眼、耳、手并行的多任務操作狀態,VUI應該有助于駕駛者和車載產品更好的交互,并且不會分散駕駛的注意力。
  2. 便捷:每一次VUI交互都是方便且快捷的,打破語音交互的心理障礙,快速響應、流程簡單、路徑明確、最大限度較少每個任務的對話輪數。
  3. 愉悅:令人愉悅的聲音和表達,自然的對話交流,流暢地完成每一個任務,用聰明的方式規避對話錯誤,達到一種“情理之中,意料之外”的境界。

二、設計流程

語音交互的設計需要模擬真實的對話場景,并根據場景來撰寫對話和建立交互邏輯流程,最后通過調研來定義更加全面的表達方式,以達到更加自然合理的語音交互體驗。

2.1 分析使用場景

VUI的應用場景已經覆蓋了手機助手(以Siri、Google Assistant為代表)、智能家居(以Amazon Echo和Google Home為代表)、車載產品(以Carplay和Android Auto為代表)以及可穿戴設備(以AirPods、Apple Watch為代表)等領域。

語音交互的場景主要從物理距離、行為特征、用戶目標三個方面來分析:

物理距離:在交互過程中用戶與語音產品的距離。可以根據遠近關系分為“近場”、“中場”和“遠場”。

  • 近場交互:如靈犀 / Siri;手持設備,近距離輸入語音,有反饋界面;喚醒方式一般為屏幕的點擊或長按,也存在語音喚醒的情況。
  • 中場交互:如車載;無需手持設備,處于能夠觸及的距離,有反饋界面;喚醒方式多為語音,也可以借助手勢操作;由于距離較遠,需要借助麥克風陣列達到良好的收音效果。
  • 遠場交互:如Echo;無需手持設備,處于不能觸及的距離,可以沒有反饋界面;喚醒方式為語音;由于距離較遠,需要借助麥克風陣列達到良好的收音效果。

行為特征:用戶在進行語音交互時,可能正在做著家務,或者開著車,也可能什么都沒做;在這里可以把這些行為特征分為“專注于語音交互”和“專注于其它事情”。

  • 專注于語音交互:一般發生在近場交互的情況下;用戶手持設備,視線關注在界面上,耳朵關注于語音反饋。
  • 專注于其它事情:一般發生在中場、遠場交互的場景;用戶一邊處理著其它任務,如開車、烹飪等,雙手以及視線可能正在被其它事情占用,如何讓用戶最小成本的完成語音任務是設計的重點。

用戶目標:用戶么每次語音交互的目的,可能只是隨意的閑聊,也可能是目的明確的任務指令。

  • 閑聊式:如調戲Siri一樣,目的性并不強,對趣味性的要求更高。
  • 任務式:這類對話,用戶需要盡快得到想要的反饋,快速完成任務,清晰和簡潔的反饋是最重要的。

車載環境的語音交互屬于“中場”、“專注其它事情”、“任務式”的交互場景,設計過程中應該遵循這些場景特性。

2.2 建立用戶故事

通過對駕駛場景下車載產品使用情況的用戶訪談和問卷調查,知道用戶在駕駛過程中想要完成什么任務;結合自身的優勢和劣勢,以及外部市場的機會和威脅,確立產品的技能范圍,如導航、音樂、電臺、電話等。

圍繞這幾個核心功能,設定主要場景描繪出用戶在現有車載產品使用過程中的行為習慣、遇到的問題,最后提煉出痛點,找到解決辦法,并尋找出適合VUI去解決問題的場景,用戶故事地圖的框架如圖2-5:

適合VUI的場景通常比較簡單、直觀,不需要太復雜性的互動。舉個例子:你正在高速路上全注意力行車,這時你需要撥出一個緊急電話,但這會兒不方便用手操作手機……此時用戶希望從技能中得到什么幫助、會做什么,將是VUI的基礎和價值所在。而建立類似的用戶故事有以下的方法和原則:

確認目的和功能:構建一個或多個情境,讓用戶覺得你的技能有用并且有使用的沖動??梢酝ㄟ^分析以下問題來確定技能的能力:

  • 技能的目的是什么?用戶為什么想要使用它?
  • 用戶在交互前、交互中、交互后分別會做些什么?
  • 用戶可以通過這個功能得到什么在其它產品上無法獲得的體驗?

創建用戶故事:根據技能的目的和基本功能點,確認每一個交互行為節點

  • 用戶能夠通過該項技能做到什么?不能做什么?
  • 用戶希望能夠獲得什么信息?
  • 用戶可以通過什么方式來使用這項技能?

2.3 設計聽覺形象

人物畫像可以幫助你設計、撰寫UI對話,所以要盡早確定,這樣就能更容易的決策出正確的用詞、語法和句子結構。人工智能賦予了機器擬人化聲音輸出的能力,帶來的語音設計材料。不同的聲音帶給用戶的感受是不大相同的,低沉的聲音給人“穩重,成熟的”的感覺,尾音語調向上的聲音給人“愉悅,被尊重”的感覺。VUI產品需要被賦予聽覺形象,下面是一些聽覺形象設計的流程和方法。

設計流程:語音是不可見的,在聲音形象的設計中必須先有“語音基礎形象”設計師基于語音基礎形象進行再具體的VUI設計。

  • 定義形象:聽覺形象其實和真人一樣,有姓名、性別、年齡、職業、個性特點之分,同時也有聲音的感覺,如柔和親切、利落正式、有磁性等主觀的感受,也有更加客觀的音高、音強、音長、音質幾大屬性。不同的聲音會被我們賦予不同的形象特點,根據內容/產品氣質/品牌愿景定義產品的“聽覺形象”。
  • 挑選:去語音庫里挑選具有定義的聽覺形象的語音片段。比如如果要產生的聽覺形象是“滄桑感”時,可以挑選一些單田芳老師語音片段。
  • 訓練:將大量語音片段交由技術人員進行語音合成訓練。
  • 微調:通過調整“語調、速度、節奏”使之給用戶的感覺更接近于先前定義的“聽覺形象”。

設計原則:

  • 保持與“品牌情感”的一致性:在進行視覺設計時設計師要通過“色彩,形狀”等設計元素支撐品牌情感,對與大型公司會要求他們的每一個產品遵循一致性的設計規范。進入“聽覺形象”設計時代,當你的產品要使用語音交互時,確保產品的“聽覺形象”與品牌情感保持一致,這將能夠強化品牌給用戶的印象。
  • 保持與“用戶場景”的一致性: 回想一下機場內的語音“尊敬的旅客飛往北京的T343航班….”,這種語音形象給用戶“被服務的、受到尊敬“的感覺,與用戶在機場的場景相一致。而在醫院,起碼在中國的醫院,醫療資源與患者數量極不匹配,患者與醫生更像是”求助關系“而非“服務關系”, 使用過于“服務化”的語音形象反而會給用戶帶來強烈的落差感。
  • 保持與“內容”的一致性:“內容”本身是具有形象屬性的,比如二次元的新聞如果用粗獷的男生讀出來一定會很違和。因此在進行內容消費型設計時要充分考量語音所說的內容與“聽覺形象”相匹配,避免出現違和感。但是在設計工具型產品時,不要頻繁更換語音形象,這會分散用戶注意力使效率下降。

2.4 撰寫對話腳本

在確立了技能范圍和用戶故事之后,不要立即開始邏輯設計,對話應該是自然的、多樣性的,用刻板的邏輯將語音設備與用戶的場景臺詞串聯在一起顯然不合理。因此,你需要列舉出諸多可能存在場景,考慮到意外狀況,去草擬撰寫對話草稿,甚至找真人模擬場景對話,盡量覆蓋到每一個狀況。下圖是一些對話撰寫的例子:

對話腳本的撰寫可以幫助我們挖掘一些容易被忽略的細節,而如何反饋和引導對話的進行也是VUI設計的重點和難點,后文中會詳細說明反饋設計的原則和方法。

2.5 建立交互框架與流程

要建立VUI的框架與邏輯,首先需要理解人與人的對話框架,匹配到人機交互的對話場景,以確立每次反饋方式;然后圍繞用戶的意圖以及系統的每次判定節點展開邏輯流程的建立。

交互框架:想像一下你想讓別人放點音樂,這段對話的交互節點是怎樣的,是不是先叫他名字,對方聽到了給你一個回應“干嘛呢”,然后你可以繼續說出你的需求……我們將交互節點提煉出來,如下圖所示:

圖2-7? 對話框架

(1)喚醒

喚醒是技能的觸發動作,目前主流的喚醒方式有以下3三種 – 實體按鈕、虛擬按鈕、語音喚醒,如圖2-8,每種喚醒方式各有特點,在車載環境中一般采用按鈕+語音的多重喚醒方式。同時,喚醒之后的反饋形式也有多種,具備顯示屏的設備可以有動效、文字等反饋,不具備屏幕的可以有燈光、音效、人聲等反饋。不同的反饋方式的舒適度和響應時間密切相關,如圖2-9所示。

圖2-8? 喚醒方式

圖2-9? 喚醒反饋方式與響應時間舒適度曲線

(2)輸入

用戶輸入的語音內容是否被設備的接收,亦是用戶比較關注的問題,在反饋設計中應該匹配當前場景且不讓人反感。具備顯示屏的設備可以有動效、文字等反饋;不具備屏幕的可以有燈光(在用戶輸入時一般不要有聲音的干擾)等反饋;也可以沒有反饋。

圖2-10? 輸入時的反饋

(3)理解

“理解”是機器識別、解析語音內容,并求解答案再生成語音的過程;也是機器的認知過程。這個過程耗時可能會較長,重點在于消除用戶等待的焦慮以及不確定性。具備顯示屏的設備可以有動效、文字等反饋,不具備屏幕的可以有燈光、音效、人聲等反饋,如圖2-11所示。不同的反饋方式的舒適度和響應時間密切相關,如圖2-12所示。

圖2-10? 理解時的反饋

圖2-12? 理解反饋方式與響應時間舒適度曲線

(4)反饋

這里語音交互過程中最重要的環節,除了讓用戶得到想要的反饋之外,還應該讓用戶輕松、自然且有效的接收到反饋信息。下表是根據置信度(Confidence)不同劃分的反饋的類型和應用場景。

(5)端點檢測

由于這端點檢測是一種描述計算機何時開始和結束語音的方式。用戶在說話時會有停頓,那么語音引擎在檢測到用戶停頓多久之后開始識別,停頓5秒是一個比較合適的經驗值;短了,會在結束說話之前切斷用戶;長了,用戶會懷疑系統是否聽到。用戶喚醒語音后,一直不說話,那么語音引擎在檢測到用戶不說話多久之后直接退出語音識別,未說話10秒是一個比較合適的經驗值。

交互流程:對話表面看起來似乎是雜亂無章,無規律可尋的。但是在自然對話中我們幾乎是無意識地遵循著某些規則與慣例,比如:對話是輪流進行的、是上下文串聯在一起的。人-機對話中,機器是服務于人類的;用戶的每一個指令,機器都需要去判定以及作出最好的回應,并且允許指令的多樣化表達;機器的每一次任務執行,幾乎都能允許用戶 “取消”、“修正”、“催促”、“返回上一步”、“打斷”、“要求重復”、“其它類型指令”、無關信息或者保持沉默。用戶的每一次語音指令后面都跟隨一次判定節點,圍繞用戶意圖以及機器的判定節點展開交互邏輯的建立,如圖2-13。

圖2-13? 交互流程建立

2.6 定義意圖、表達方式、插槽

這里分析的是用戶說的內容,這些內容的語音結構可以概括為“喚醒詞+意圖表達+插槽”,如圖2-14所示。

圖2-14? 語言結構

意圖:代表了你的技能具備的能力;比如一個導航的技能可能會包含五個意圖:設置目的地、展示路線、說明路況、取消和退出等。

表達方式:用戶所說的那些能夠表達他們意圖的話語,包括大量單詞、短語、句子。比如說,在表達導航這個意圖的時候,用戶可能會說“幫我導航”“導航去科大訊飛”或者“我要導航”等等,這些表達方式分類整理成意圖表達庫,如圖2-15。

圖2-15? 意圖表達庫示例

插槽:是指定義某些意圖的關鍵信息類別,例如“導航去科大訊飛”——“科大訊飛”就是一個地址名插。我們將不同屬性的信息進行分類,如圖2-16。每個類類別的信息都有自己的庫,如城市名稱庫、日期庫等等。

圖2-16? 意圖表達庫示例

三、設計原則

語音設備需要以一種自然對話的方式進行感知、認知以及輸出自然語言,在VUI設計過程中需要遵循以下原則。

3.1 保持簡潔

“簡潔”的漢語釋義是指簡明扼要,沒有多余的內容。尊重用戶的時間,提供簡潔的反饋語言、反饋界面(如果有屏幕的話)以及完成任務的最短路徑,不要阻礙用戶。

簡潔的反饋語:用戶能夠輕松理解機器在說什么,同時感到舒適。過長的語言內容會讓用戶很難抓住重點,并且難于記憶,下面有一些保持語言簡潔的方法:

  • 一口氣測試:對于沒有逗號隔開的單句話,如果能夠用正常對話的語速把這句話一口氣讀出來,表示長度是適合的。如果你需要換氣,就要考慮精簡。
  • 避免重復:有屏幕的設備,應避免在屏幕上顯示和語音內容完全重復的信息,圖形界面應該提供語音以外更多的信息,利用視覺反饋,幫助用戶更加快捷的完成任務。
  • 插槽數量控制:對于包含多插槽信息的語句,插槽的數量能夠被用戶很好的接受不了和理解,這個可以招募一定數量的用戶來進行測試,一般情況下插槽數量不超過三個。

愉悅路徑:最短完成任務的路徑,同時也要準備其它的替換路徑,因為用戶可能沒有一次性給出所有必要信息。

3.2 保證明確

“明確”的是指表達得清晰明白而確定不移,使聽者幾乎不用思索便能聽懂。保證明確的表達,有以下方式。

避免開放式問題:開放式問題可能會混淆用戶或導致用戶以您不期望或支持的方式回答問題。例如,問“你喜歡什么?”太開放了。即使是像“香蕉或蘋果”這樣的問題,也可能會出現“是”的回應。

提供明確的選項:不要問一些自己都無法回答的問題,讓用戶糾結于如何回答,特別是在車載場景下的對話,一定要避免用戶過長時間的思考。以來電為例,機器可以詢問“接聽還是掛斷?” 。

明確的陳述句:不要說一些模棱兩可的話語,讓用戶產生疑惑。比如“正在為您撥打電話”比“我可能在撥打電話”更加明確。

3.3 自然的交流

鼓勵用戶自然的表達同時機器也要給出自然的反饋,讓對話更加自然有以下方法。

用戶自然的表達:同一意圖包含多種表達方式,在語音交互中需要支持識別更多的表達方式,讓用戶自然的表達。

機器自然的反饋:不要告訴用戶應該怎么說,甚至是一句一句的教用戶;盡量不要使用難于理解的專業術語;增加同一含義的表達豐富性,減少機械感。

3.4 推進對話

在語音交互過程中,機器需要促進對話的進行推進對話,通常有以下的方法。

用戶引導:一般用于新手引導,告知用戶功能范圍等。

提問:明確提出問題可以指導用戶接下來該如何說,但也要準備用戶會答非所問。

先拋出一個答案:當用戶回答的信息不全時,有時可以為主動為用戶做出一個選擇,推進任務的進行,同時允許用戶更改。

3.5 符合語境

VUI設計也要盡可能地利用用戶的語境,通曉對話的來龍去脈(上下文),并具備用戶情景意識(如用戶所在地點、用戶是否首次使用等)。

記憶上下文:多輪對話并記住上下文,如“今天的天氣怎么樣?”——“明天呢?”,機器需要知道用戶問的是明天的天氣。這就是支持用戶的一些省略表達和代詞的使用。

情景意識:考慮用戶處于什么樣的情景。如:用戶已經知道該如何使用產品,那么就不再需要反復給用戶一些新手幫助和引導,除非是用戶主動提出的。

3.6 輪流交談

VUI設計也要以用戶為中心,當輪到用戶說話時,不要貿然強行打斷。當機器正在說話時,用戶可以進行打斷。

3.7 有意識地引導用戶注意力

聽覺輸出是時間線性的,不易記憶的,但我們往往能夠記住一句話結尾,也就是聽覺范疇的 “近因效應”,所以我們通常把重點信息放在末端。比如“導航去天府廣場,全程28.2公里,預計需要30分鐘”,記得最清楚的基本都是“30分鐘”。

3.8 把“錯誤”轉化為對話UI中自然的一部分

VUI設計中會出現“無法識別”、“無法匹配”等各種錯誤情況,如果只是做一些簡單、機械的處理應對,會讓用戶對產品產生極大的懷疑。下面是一些處理錯誤的辦法。

分類處理錯誤:把錯誤類型進行分類,采用不同的反饋策略:

  • 沒有獲取到輸入:可能用戶什么都沒說,或許系統完全沒有檢測到,這類情況可以不需要任何反饋。
  • 獲取到信息,但無法識別:這種情況可能是背景噪音、或是多用戶造成的。如果沒有連續的上下文,可以采取通用提示“你說的什么?”,“我沒聽清”或者“再說一遍”之類的語句;如果有連續的上下文,可以根據具體的內容來提示,如“你選的第幾個”,“我沒聽清是第幾個”等等。
  • 識別了用戶輸入,但不具備處理能力:這種情況需要告知用戶,并給出一些提示。比如“這個我不會,但是我可以……”
  • 錯誤識別信息,并具備處理能力:這種情況做好能夠將錯誤的識別結構復述出來,并詢問用戶。比如用戶說的是聽音樂,機器卻識別成了打電話,那么可以詢問用戶“你是要打電話嗎?”

及時提供幫助:當用戶出現困惑、沒聽懂、沒聽清或者不知道該怎么說的情況,可以提供相應的幫助。比如用戶說“我沒聽清”,那么機器可以重復一遍之前說的話;也可能是說出像是”幫助“或”我不知道“之類的話。

四、設計走查

完成一套VUI設計之后,如何知道自己做得對不對、好不好?下面有一些簡單的測試方法:

  • 自己念出來:每完成一組對話撰寫之后,自己可以找個獨立空間把它們念出來,因為你很有可能撰寫對話時采用書面語言,所以通過念出每段對話能夠幫你找到表達不合適的地方。
  • 找人演練: 找到一些團隊以外的人,按照已經設計好的VUI和他們進行對話演練。對流程多測試幾次,應該就能發現一些問題,例如哪個對話任務完成起來有困難,或是用戶與語音交互的場景中,聽者的感受如何。之后也可以搜集一些主觀反饋,例如他們在哪里卡住了,在什么地方感覺不順暢。
  • 用模擬器檢驗:如“谷歌的在線模擬器”,輸入對話文字,讓系統運行讀出來。也可以采用訊飛的AIUI平臺,搭建技能之后查看效果。做了這些工作之后,你會逐漸發現先自己會越來越能夠掌握撰寫對話的技巧。

除了上述的一些測試辦法,下列走查清單為你提供了一種快速檢查方法,幫助你在產品在上線前確保已經準備好:

最后,VUI不再局限于手機,它已經擴展到智能家居、車載、可穿戴設備甚至更多領域,不同的場景和設備有它們自身的屬性和特征,VUI的體驗設計也需要符合相應的場景和設備。不過,所有體驗設計的核心目標都是易用和帶來愉悅的。

參考內容

[1]?Google對話式交互規范指南

[2] Amazon Alexa語音交互設計

 

本文由 @Rinoa?原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 學習了 ~

    來自四川 回復
  2. 感謝分享學習~

    回復
  3. 就在隔壁樓,可以認識一下

    來自安徽 回復
    1. 哈???什么樓

      來自四川 回復
    2. 咱們是同事哈,下面留言的是微信嗎?

      來自安徽 回復
  4. 想請教一下,通過上面的分析場景、建立故事、建立框架及流程后,那最終輸出給開發進行實現的產出物,一般是什么?是2-15或2-16的意圖表達庫么?

    來自廣東 回復
    1. 需要更加具體和全面的語料表。

      來自四川 回復
    2. 能展示一下是什么樣的么?可以加你微信學習下么?

      來自廣東 回復
  5. 作者是科大訊飛誰?

    回復
    1. 哈哈哈,做翻譯機的

      來自四川 回復
    2. 跟xianling他們一個組?你在成都還是合肥?

      回復
    3. 她就是xianling

      來自四川 回復
    4. 哈哈哈,對,她就是xianling,你又是哪位哇?

      來自四川 回復
  6. 你好,文章寫得很棒!可以認識下你嗎,我們團隊正在做一個關于車聯網語音通訊(社交)產品,我的社交賬號:1003424247

    來自浙江 回復
    1. 可以, 435026029

      來自四川 回復
  7. good work

    來自廣東 回復
    1. thanks~

      來自四川 回復
  8. 寫的不錯

    來自廣東 回復
    1. 繼續努力~

      來自四川 回復