一篇文章搞懂語音交互的來龍去脈

6 評論 14075 瀏覽 73 收藏 14 分鐘

文章對語音界面設計的一些知識展開分析解讀,希望能夠給你帶來啟發。

過去60年人工智能經歷了兩次潮起潮落-新AI時代的頭十年和后十年,前十年是通過ai去解決行業問題,例如醫療教育,信貸和金融等,通過大數據和機器學習迅速提升效率與準確率;新ai時代的后十年則升級到消費產品和用戶生活場景(無人駕駛車,智能家居,家用機器人等領域),相對應的我們的交互方式也必然會隨之更新。

在特定的場景下,例如無人駕駛,智能家居等,語音交互方式其實是最便捷的交互方式,語言是人類獨有的溝通方式,在未來的人工智能時代,必然會通過語音的交互徹底解放我們的雙手。我們現在正處于語音智能產品的爆發之際,我們需要一個專業而系統的歸納,來幫助我們在語音交互和智能硬件的道路上共同探索和學習。今天我們就來討論關于語音界面設計方面的一些知識,本文章觀點大部分來自入《語音用戶界面設計—對話式體驗設計原則》這本書,希望能夠對大家有幫助。

第一:語音界面簡史

20世紀90年代出現了交互模式的語音應答,簡稱為ivr,它可以通過電話線路理解人們的話并且執行認為,一般都廣泛的應用在運營的客服方面,即使是現在三大運營上的機器客服還是采用了這種語音應答的方式。但是通過電話撥號的方式開始語音的問答還存在很多的缺點,例如只能應用在單輪任務的問答,交互方式比較單一,不能進行中途打斷等缺點。

第二個階段就是后期各大公司都出現了自己的語音助手,例如微軟的cortana,谷歌的Google OK和蘋果的Siri。這些語音助手集成了視覺和語音信息的app,可以同時使用語音和屏幕交互,是一種多模態的交互設計。發展到這個階段就有了多輪對話的可能性,但是如何對用戶的語音進行理解就成為了語音交互的技術瓶頸了。

最近兩年,各大公司都出了自己的智能家居音箱,例如amzon echo和Google home這類的純語音設備。在未來的生活和工作場景中語音交互是一個新的入口,它提供了更靈活的交互方式,在未來的某一天人們必然會放棄屏幕和手勢的操作,可以通過語音進行遠距離的設備控制,這是各大公司搶占語音市場的原因。

第二:在語音界面的設計中,vui應該注意什么?

首先我們先了解下什么是vui,其實它就是voice user interface的簡稱,在我個人看來,vui設計和普通的互聯網的設計沒有太多的不一樣,如果非要說區別的話,我個人認為vui設計所接觸和涉及的范圍更廣。主要有下面幾個工作內容:第一:進行用戶研究,了解用戶是誰,需要思考用戶是誰以及在系統和終端之間從開始到結束的整個對話過程;第二,負責產品的原型設計和產品描述,描述系統與用戶之間的交互行為。第三,描述系統與用戶之間的交互行為并考慮需要處理的請求,通過分析數據來了解系統在什么地方發生了問題,最后進行系統問題的排查和改進。

另外,Vui設計師在設計一個產品的時候,需要考慮你的產品是什么類型的,他的主要功能是什么,是多模態產品還是純語音的硬件設備。在設計過程中可以通過示例對話的方式讓vui設計師真正的了解產品,知道用戶在和產品對話時會發生什么樣的情況。

第三:語音界面設計的常用規則有哪些?

1、命令-控制模式/對話模式

另外,在設計語音產品之前我們需要了解一些語音識別技術,從而讓你的vui系統得以創建,在系統對人的語音理解方面分為兩大類:asr:自動語言理解和nlu自然語言理解,目前的發展階段已經到了自然語言理解的階段。機器通過處理和理解文本,采用云處理的方式對用戶語音進行識別和理解從而判斷指令給出正確的反饋。

一般的vui系統在對話模式上可以分為:命令-控制模式/對話模式,語音指令模式下用戶在說話前必須要給系統明確的指示。目前大多數的vui系統都是采用這種模式。例如:Siri要求用戶在說話前必須先按下主屏幕或者在Siri頁面按下麥克風圖標。

對話模式情況下當出現較長的對話時,沒有必然讓用戶在說話前總是告訴系統用戶要開始說話了,當然這是建立在用戶大致知道對話模式已經改變的情況下才會這么做,一般來說一個語音系統都會有命令控制模式和對話模式的切換。

在視覺的表現上兩者都需要有明確的物理圖標和明確的喚醒詞語,在對話模式中輪流對話更為自然,在視覺上需要有明確的開始和結束的封閉式對話標示。

2、確認策略

所有優秀的vui設計,都必須確保用戶感覺到自己是被理解的,所以我們需要在設計原則中添加一個確認策略。確認策略的設計是因為在很多環境下機器并不能完全的識別用戶所說的問題,同時在生活場景下,例如購物支付等場景,需要用戶的再次確認,這個時候vui的確認策略就派上用場了。

在設計確認策略的過程中我們需要了解幾個問題:交互問答的錯誤后果是什么?系統需要什么樣的方式怎么反饋?屏幕需要顯示出什么?用戶需要用什么樣的手段進行確認等。

在確認的形式上可以分為兩大類:顯性確認和隱性確認,顯性確認即強制用戶確認信息,例如:判斷是否確認支付,這一類型的產生的后果還是挺嚴重的,需要強制用戶確認信息,此時用戶只需要回答是或者否即可。

隱形確認通常采用的方法有下面幾種:三級置信度/隱性確認/非語言式確認/通用確認/視覺確認。

這種方法系統通過對不同閾值的判斷,給出不同的信息確認,一般情況下分為三種閾值情況,因此也就是三級置信度的設計。對于移動設備,視覺確認是一種常用的方法,一般情況下系統會同時提供音頻和視覺確認。在多模態的設計中,屏幕上可以出現可視化的列表。比如我們的語音助手,用戶說打開或者關閉語音助手,那么相應的麥克風圖標會有消失和出現的動效。答案連同原始的問題一起回復Siri通過視覺上的可視化列表和語言上的隱性確認來回復我的問題。

非語言的確認方式也就是行動反饋,不需要口頭進行確認,例如假如正在創建一個語音控制燈光的系統,當你說打開燈光的時候,燈自然就會打開,此時已經給了你一個反饋,不需要進行語音進行提示了。在純語音設備或者系統下,可以提供一個行為反饋,例如光效等。

Vui系統在說話的時候,確認用戶是否可以打斷,現在一般的語音智能聽到喚醒詞才會停止說話,喚醒詞應在本地處理,設備一直處于接收喚醒詞的狀態。多模態形式下,一般是不可以打斷的,可以用可視化列表,如Siri不可以打斷對話。

3、異常情況處理

異常情況處理在語音識別和指令的場景下異常情況極為普遍,例如:未檢測到語音,語音終止超時和無語音超時;檢測到語音但是沒有識別出來;正確識別但是系統無法處理;部分語音識別錯誤等異常情況,不同的異常情況也對應不同的異常情況的處理方式,具體的方法看下圖:

在這種情況下系統留給用戶說話和思考的時間,某些場景下可以調整時間和靈活度。例如開始啟動siri時,是用戶主動的一個行為,用戶不需要進行思考;然后當系統問用戶某一問題時,需要用戶思考,那么這個時候需要的時間就不一樣了。

當用戶喚醒了vui系統,無語音超時發生的情況有幾種:用戶沒有說話或者是用戶說話聲音小。這個 時候需要提供一個視覺上的一個退出按鈕。這種幫助類似于我們在填寫表單時,視覺的框里會告訴我們應該用什么格式填寫。

這個可能與語音識別技術相關聯在一起了。比如說我們的語音助手,用戶說打開word,系統列出:打開word/打開我的/打開臥底等等。

第四:語音的發展趨勢

例如上下文語意的理解,當然我們對siri說我想吃漢堡 它列出了幾個附近的餐館 ,當用戶說好膩,不吃了,這個時候就需要系統理解上下文的語境從而給出正確的判斷。

在消除歧義方面,當系統問用戶,你的主要癥狀是什么?而用戶說的是發燒和感冒,系統就要理解用戶說的是兩個癥狀,針對這個事情,系統需要進行回復兩種不同的癥狀解決方式。

情感和情緒分析則需要機器進入強人工智能了,讓機器理解人的情緒和情感從而給出對應的有情感的回答,不在是冷冰冰的機器,這永遠是一個未來的發展方向。

對于高級自然語言的理解目前還處于初級階段,目前,Siri和cortana出發處理問題的時候,會提供一個網頁搜索,并不會直接回答你的問題,但高級自然語言理解可以聽懂你說的話,直接回答。

 

本文由 @張小明明 原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 寫的蠻好的,之前對語音這里了解不多,十分感謝

    來自北京 回復
    1. 我也是看書做了下總結而已,拿來主義

      來自安徽 回復
  2. 同求

    回復
  3. 你好~ 可以推薦一些語音交互的書籍嗎?

    來自廣東 回復
    1. 《語音用戶界面設計:對話式體驗設計原則》,這本書比較系統,相信一定對你有所幫助

      來自安徽 回復