如何設(shè)計智能語音助手?

12 評論 25144 瀏覽 174 收藏 15 分鐘

隨著人工智能的發(fā)展,智能語音也在不斷取得重大的突破,那么設(shè)計一個智能語音助手需要交付些什么?和設(shè)計VUI時需要遵守哪些基本設(shè)計原則?來看看作者的回答。

近年隨著人工智能的熱潮,創(chuàng)新者紛紛圍繞算力、算法、數(shù)據(jù)這AI三要素來對某個場景應(yīng)用落地,其中智能語音在2016年被美國權(quán)威雜志《麻省理工科技評論》評為當年十大突破技術(shù),2017年全球智能語音市場規(guī)模更已超百億。

但技術(shù)的發(fā)展往往不是一蹴而就的,綜觀智能語音產(chǎn)業(yè)的發(fā)展歷程,也算是曲折迂回,它大致可劃分為四個階段:

  • 第一階段是技術(shù)萌芽階段(20世紀50~70年代),以孤立、少量的詞匯為主的句子識別,并通過關(guān)鍵詞匹配實現(xiàn)簡單命令操作,其主要的標志是AT&T貝爾實驗室開發(fā)的Audrey語音識別系統(tǒng),它能夠通過跟蹤語音中的共振峰,當識別10個英文或數(shù)字時,正確率可高達98%。
  • 第二階段是技術(shù)突破階段(20世紀80年代),語音識別和自然語言處理技術(shù)有了較大進展。智能語音技術(shù)研究由傳統(tǒng)的基于標準模板匹配的技術(shù)思路開始轉(zhuǎn)向基于統(tǒng)計模型(HMM)的技術(shù)思路,并再次提出了將神經(jīng)網(wǎng)絡(luò)技術(shù)引入語音識別問題的技術(shù)思路。
  • 第三階段是產(chǎn)業(yè)化階段(20世紀90年代到21世紀初),智能語音技術(shù)由研究走向?qū)嵱貌㈤_始產(chǎn)業(yè)化,以1997年IBM推出的ViaVoice為重要標志。自此,智能語音產(chǎn)品開始進入呼叫中心、家電、汽車等各個領(lǐng)域。比如,上世紀70年代由美國國防部遠景研究計劃局資助的,旨在支持語言理解系統(tǒng)的研究開發(fā)工作的計劃DARPA。進入90年代后,研究重點已轉(zhuǎn)向識別裝置中的自然語言處理部分,識別任務(wù)設(shè)定為“航空旅行信息檢索”。
  • 第四個階段是快速應(yīng)用階段(2010年以后),以蘋果Siri的發(fā)布為重要引爆點,智能語音應(yīng)用領(lǐng)域由傳統(tǒng)行業(yè)開始向移動互聯(lián)網(wǎng)等新興領(lǐng)域延伸。在發(fā)達國家,大量的語音識別產(chǎn)品已經(jīng)進入市場和服務(wù)領(lǐng)域并取得很好的效果,比如Siri、Cortana這類集成了視覺和語音信息的內(nèi)置應(yīng)用,或者像Amazon Echo、Google Home這樣的純語音設(shè)備。

智能語音產(chǎn)業(yè)發(fā)展歷程(來源:廣證恒生)

而在人們的日常生活中,相信大家已經(jīng)對Siri、小愛同學這些手機智能語音助手相當熟悉了,在不久的物聯(lián)網(wǎng)時代,人機交互無處不在,語音作為人類獲取信息最自然、便捷的方式,使用頻率將會越來越高,當用戶使用習慣后,智能語音將會融入人們生活的方方面面。

縱觀計算機用戶界面的發(fā)展,一般可認為是經(jīng)歷了從鍵盤,到鼠標、到觸屏、到語音這樣的發(fā)展歷程,人機交互也逐步經(jīng)歷了基本交互、圖形交互、語音交互、體感交互。在未來,即使技術(shù)已經(jīng)應(yīng)用到體感交互,語音交互依然會是體感交互中的重要環(huán)節(jié)。

History of Computer Interfaces

語音這種交互方式之所以能夠迅速發(fā)展,得益于語音得天獨厚的優(yōu)勢。

因此,語音用戶交互界面(英文:Voice User Interface,簡稱VUI)設(shè)計正逐漸走進了產(chǎn)品經(jīng)理和交互設(shè)計師的視野,如何運用產(chǎn)品和設(shè)計思維拓展智能語音的應(yīng)用場景,探索和應(yīng)用新的交互方式,讓技術(shù)和人文相融合,使產(chǎn)品更好地服務(wù)于用戶,這成為產(chǎn)品經(jīng)理和交互設(shè)計師未來值得探討的話題。

但目前無論是國內(nèi)國外,探討這方面的文章少之又少。因此小編想談一談設(shè)計一個智能語音助手需要交付些什么,和設(shè)計VUI時需要遵守哪些基本設(shè)計原則,以供大家參考。

一、智能語音VUI項目的交付物

有產(chǎn)品經(jīng)理從業(yè)經(jīng)驗的人都會清楚產(chǎn)品經(jīng)理經(jīng)常撰寫的文檔有BRD、MRD、PRD等,那么若要設(shè)計一個VUI項目,那么它的交付項又應(yīng)包括什么呢?一般來說,它包括了以下四種交付物:

1.示例對話

示例對話是系統(tǒng)和用戶之間可能產(chǎn)生交互行為的預(yù)設(shè)對話,對話看起來就像電影劇本一樣,包括兩個主要角色之間來回往復(fù)對話。在設(shè)計示例對話時,要針對用戶可能出現(xiàn)的各個場景去設(shè)計出多種不同示例對話,多種不同的示例對話可以讓用戶聽起來感覺不那么死板,因為假若只設(shè)計一種,用戶每次都會遇到相同的反饋,這樣會讓人聽起來更像是一個機器。

此外,還應(yīng)該考慮到一些異常情況,這樣讓用戶問一些偏門的問題也得到回復(fù),大大提高了用戶對系統(tǒng)的預(yù)期。

所以設(shè)計示例對話和設(shè)計后臺系統(tǒng)比較類似,以設(shè)計電商后臺系統(tǒng)為例,用戶在前端點擊“退貨”操作,這時已購買商品所處的時間節(jié)點可以分為未出庫、已出庫但沒發(fā)貨,已發(fā)貨、已收貨這幾種情況,針對每一種情況都要作出相應(yīng)的處理,如果沒有仔細考慮就很難得到一個穩(wěn)健實用的系統(tǒng)了。

2.流程圖

當編寫完各種示例對話后,就應(yīng)該開始寫流程圖了,流程圖是用來展示VUI所有可能發(fā)生的路徑的圖示。比如一輪對話后,流程圖需要展示下一個狀態(tài)分支的所有方式,方式不一定要羅列所有的交互或示例對話,它也可以是功能的分組、文本的分組
等。

3.提示列表

由于語音技術(shù)的限制,目前還沒有無所不知無所不能的語音系統(tǒng),所以設(shè)計一個提示列表是相對必要的,它可以讓用戶知道系統(tǒng)真正能做的事有哪些。如果沒有屏幕可以使用配音演員或語音合成來播放提示列表,如果有屏幕則可以多模態(tài)展示,將視覺和聽覺相結(jié)合,如Siri、Cortana。

4.產(chǎn)品原型

如果這是一個多模態(tài)產(chǎn)品,有屏幕,支持觸摸交互,這個產(chǎn)品原型就和普通的產(chǎn)品原型一樣了,比如用Axure制作的低保真產(chǎn)品原型。

二、智能語音VUI的基本設(shè)計原則

在設(shè)計完基本的流程并完成一些示例對話后,就可以開始專注一些重要的細節(jié),這樣才能讓系統(tǒng)更加健壯和人性化。

細節(jié)一:確認策略

有人可能會問確認策略到底是什么意思?其實,在人與人的溝通中,每個人都是渴望被理解的,但是人與人溝通也會經(jīng)常出現(xiàn)理解錯誤、聽不清楚、詞不達意等種種問題,這些都需要傾聽者去和對方確認自己所理解的意思是不是就是對方所想表達的意思。

因此在設(shè)計VUI也往往需要向用戶進行確認,而系統(tǒng)良好的確認策略可以確保用戶體驗,保證對話的流暢度和準確度,讓用戶知道系統(tǒng)已經(jīng)理解了自己的話。在考慮確認策略的時候,往往需要考慮以下幾點:

過度的確認雖然可以保證信息的準確性,但是也會讓人厭煩,因此選用合適的確認策略方法也是非常重要的,它能更有效率地保證信息的準確性,以下就是一些常見的確認策略的方法。

細節(jié)二:是采用命令-控制模式還是對話模式?

VUI一般都是采用“命令-控制模式”,每當用戶想說話的時候,必須給出明確的指令,但是隨著用戶對系統(tǒng)的對話性要求升高,另一種更自然的輪流對話設(shè)計模式越來越普及,如何把這兩種對話模式合理利用起來也是設(shè)計者需要考慮的問題。

為了讓對話更加人性化,一般在對話模式中加進一些對話式標識,讓用戶了解到交談的進展和情況,讓對話更加自然,用戶的參與度也會更高。

加進對話式標識的最佳例子莫過于是2018年谷歌I/O大會中Google Assistant和理發(fā)店之間的語音互動了,下面是雙方之間的對話。

加入了對話式標識的Google Assistant表現(xiàn)的流暢自然,一句“嗯哼”的通用確認更是出乎所有人的意料,讓人類絲毫沒有注意到自己其實是在和AI對話。

細節(jié)三:異常錯誤如何處理?

谷歌的設(shè)計主管ABI JONES說過:

“當你與人類交談時,永遠不會出現(xiàn)不可恢復(fù)的錯誤狀態(tài)。”

而系統(tǒng)總會發(fā)生錯誤,若沒有對應(yīng)的異常處理,則是不可恢復(fù)的錯誤,這會降低用戶對系統(tǒng)的期望值,因此如何優(yōu)雅地處理錯誤是每一位設(shè)計者需要著重考慮的。

細節(jié)四:其他的一些設(shè)計原則

美國著名語言哲學家格賴斯,在《Logicand Conversation》(1975)一文中認為在人們交際溝通過程中,溝通的雙方都在有意無意地遵循著合作原則,以便更加高效率地完成交際任務(wù),他提及到在談話中往往遵守的合作原則中的四個范疇:

因此,若要打造一個更加類人的VUI,符合合作原則可以讓用戶免受困惑和挫敗,因此,下面說到的一些基本的設(shè)計原則也需要持續(xù)打磨和優(yōu)化,以便符合合作原則。

最后,雖然VUI在方方面面都在模仿人類的溝通方式,但是VUI更像是一個工具型產(chǎn)品,讓它更像人的目的是為了讓系統(tǒng)更高效地解決用戶的問題,上面提及的概念基本上都是來自互動式語音應(yīng)答(IVR)的經(jīng)驗總結(jié)發(fā)展的,充其量只是VUI設(shè)計的冰山一角。

倘若有機會,下一篇文章還會對每一個細節(jié)具體展開陳述,還有闡述諸如應(yīng)該如何處理否定、如何應(yīng)對不同語境、應(yīng)怎么設(shè)計喚醒詞等進階技巧,或者是對語音識別技術(shù)的技術(shù)介紹。

 

作者:——,多年互聯(lián)網(wǎng)產(chǎn)品設(shè)計經(jīng)驗,曾從業(yè)過多款不同行業(yè)的產(chǎn)品策劃和運營。

本文由 @—— 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自 unsplash,基于 CC0 協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 請問下對于語音助手怎么量化功能迭代效果呢?日活和留存感覺波動太大了

    回復(fù)
  2. 請問文章如何轉(zhuǎn)載?

    回復(fù)
  3. 學習了,寫的很好,剛好自己正在做智能客服,但是加進對話式標識只能做到一輪

    來自重慶 回復(fù)
  4. 很贊的讀書筆記哦~ 最近也在看這本書 一直沒有時間整理 后面也要學習 做成ppt的格式 方便閱讀

    來自北京 回復(fù)
    1. 請問什么書?

      來自浙江 回復(fù)
    2. 請問這是哪本書?

      回復(fù)
  5. 語音設(shè)計提幾點建議,拋磚引玉
    1.邊輸邊譯功能,給予用戶實時反饋。衡量語音轉(zhuǎn)化成文字是否準確和語義連貫流暢
    2.黑色浮窗,拒絕阻斷提醒。明顯感知正在說話。可以讓用戶大聲更響亮集中和沉浸體驗
    3.Ai化,將傳統(tǒng)手勢行為模擬成語音指令,提升App科技館
    4.根據(jù)聲紋強弱判斷用戶是否說完,說完之后直接觸發(fā)下一個行為
    5. Spoken language understanding,結(jié)合上下文深入語義理解,關(guān)鍵詞特征提取 語義邏輯理解 意圖識別

    回復(fù)
    1. 針對第四條,VAD端點檢測可以實現(xiàn)

      回復(fù)
  6. 強烈期待下一篇文章

    來自廣東 回復(fù)
  7. 寫的不錯,用心了,期待下一篇

    來自廣東 回復(fù)
  8. 說的非常好,持續(xù)關(guān)注,超贊??

    來自北京 回復(fù)