語音交互啟蒙篇

2 評論 8327 瀏覽 76 收藏 9 分鐘

隨著智能音箱、智能家居等智能硬件的普及,語音交互熱度也不斷飆升。本文內容主要為語音交互啟蒙篇。

2018年的3月,小米,百度等多個公司發布智能音箱產品,小愛音響mini、小度在家、豹豹龍……可見智能音箱產業鏈這一年來的發展之快。隨著智能音箱、智能家居等智能硬件的普及,語音交互熱度也不斷飆升。

語音交互設計(Voice User Interaction Design):它是一個以用戶心理模型為中心的設計過程,交談式為核心的交互設計。

本文內容為語音交互啟蒙篇,不含詳細設計原則和方法。

一、語音交互的優勢

如今,我們熟練并習慣用手指進行觸控交互,那么為什么要在現有的交互方式上增加語音交互方式呢?

對于這樣的疑問,其實主要是語音交互有一些很重要的優勢,包含以下幾個方面:

  1. 輸入效率高:百度、斯坦福大學和華盛頓大學,曾共同完成了一項與智能手機輸入方式對比的相關研究。研究結果表明:智能手機利用語音輸入的速度比鍵盤輸入快3倍,且輸入準確率更高,語音輸入以絕對優勢勝出。在日常生活中我也感受頗深,用微信發消息時,我經常用訊飛輸入法語音轉文字,語音輸入速度快,識別的準確率也很高,大大提升了輸入效率。
  2. 釋放雙手和雙眼:在一些生活場景下,如在駕駛行車時,駕駛員的狀態是目視前方,手握方向盤。若想要完成選歌,或是接聽電話等操作這個時候語音交互會比其他交互方式更便捷,也更安全。另外,對于一些殘障人士來說語音交互也是友好的交互方式。
  3. 交互方式更自然 :每個人都知道如何說話,就算是個新手用戶,也會通過直覺性自然地用語言進行回復,語音交互是最為自然地交互方式。
  4. 傳遞豐富的信息:日常生活中我們會發現純文字溝通很難理解對方的情緒和語氣,但語音中卻包含了語氣、音量、語調和語速,這些特征可以傳達大量的信息。例如:“什么”這個詞,文字背后的可能包含驚訝、疑問、氣憤、不耐煩…的語氣,這是通過看文字感受不到的情緒。
  5. 設備特征需求:語音交互也常常成為小屏幕設備和不帶屏幕設備的首選,甚至是唯一的交互方式。

當然也有很多情況不適合使用VUI場景的,如在公共場所的場景、用戶不適應對機器說話或更習慣打字等情況,面對這些場景,多模態交互就很有必要了。

二、語音交互——語言對話與技術支持

1. 語言對話

在人際交往中,我們對話雙方似乎在有意無意地遵循著某一原則,來完成有效的社交對話。

語言學家Paul Grice 于1975年提出合作原則,即:

  • 質的準則 (QualityMaxim):所說的話需是自己相信的真實信息;
  • 量的準則 (QuantityMaxim):恰到好處的信息含量,滿足并不超出交際所需的信息量;
  • 相關準則(RelevantMaxim):所說的話需與當前對話有關;
  • 方式準則 (MannerMaxim):說話需簡明扼要,直奔主題,避免模糊晦澀表達。

同樣沒有遵循這些原則VUI體驗也會很差:

(1)質的準則:宣傳自己做不到的事

如:你對用戶說:“有什么可以幫助您的?”,而實際上整個VUI系統只能提供點歌功能。

(2)量的準則:多余的措辭

如:“好的主人,我已經收到了,請您注意聽主人,我要開始給你講故事了……”(廢話好多)

(3)相關準則:給用戶當前用不到的指示

如:用戶還沒下單的時候就開始解釋退貨政策。

(4)方式準則 :使用用戶難以理解的專業術語

如:“您的SSID是什么?”

人們已經習慣于各種各樣的會話和社交行為,VUI雖然不是人類,但遵循基本的社會習俗是有好處的。

2. 相關技術

如今我們的手機和設備都已經可以用語音處理很多事情了,從聽到我們的語音到執行正確的指令為我們解決問題,都離不開語音交互的兩個重點核心技術:語音識別(Automatic Speech Recognition,ASR)、自然語言處理(Natural Language Processing,NLP)。

(1)語音識別的挑戰:

  • 噪音處理:恒定以及突然產生的噪音、周遭說話聲;
  • 多人講話情況:辨別誰在說話仍將是VUI系統的挑戰;
  • 兒童:聲帶短,音調高,語音數據少;低齡兒童容易自言自語,口吃、長時間停頓等;
  • 中英文混合,名字、拼寫和字母數字:預設列表和上下文信息,運行時拋棄無效結果,優選可能性高的。

(2)語義識別的挑戰:

  • 語言的多樣性:各種不同國家或地域語言:中英文、方言等;
  • 語言的多義性:語言存在歧義,比如“我要去拉薩”,是理解為 火車票?音樂?景點查詢?
  • 語言的表達錯誤:錯字、多字/少字、不連貫(我要看那個恩瑯琊榜);
  • 語言的知識依賴:七天(時間/酒店)、大鴨梨(水果/餐廳)、別稱;
  • 語言的上下文:對話上下文、因果關系、不同類型用戶的表達。

就目前行業來看,語音識別發展較為成熟,一些數據顯示ASR的準確性已經超過90%,但那是在理想條件下。目前語義識別是學術界研究的聚焦領域,也是行業巨頭布局重點。

設計師需要在現有技術基礎上去做設計,理解語音交互相關的技術。并找到有效的設計方法來最大程度的利用科技進步,盡可能避免行業存在的技術瓶頸。

語音交互已經出現在我們的視野,作為一名設計師,若不想局限自己,就是要培養自己的“敏感體質”,保持好奇心、拓寬眼界、快速學習。

因為筆者并非語音交互相關的從業人員,所以本文內容主要是筆者在業余學習過程中的的思考和總結,該篇章為啟蒙篇大部分觀點來源于《語音用戶界面設計對話式體驗設計原則》這本書(這本書是關于VUI比較全面的一本書,也是天貓精靈團隊的參考書籍之一)分享給大家,希望對大家有所幫助,文章若有疏漏之處,歡迎交流指正。

 

本文由 @??橙芝兒 原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 大佬,可以轉載一下你的文章嗎

    來自四川 回復