語音交互的基本概念和設計實踐

5 評論 15304 瀏覽 107 收藏 27 分鐘

語音技術的發展,將會給我們的產品設計帶來極大的改變。未來的產品方向,或者說是人機交互的方式,極可能是視覺與聽覺的更加立體的交互,我們會有機會來設計一種完全不一樣的用戶體驗,和完全不同的產品認知。

一、什么是VUI?

作為新一代的交互模式,通俗的說,VUI(語音用戶界面)就是用人類最自然的語言(開口說話)給機器下達指令,達成自己的目的的過程,這一過程包括三個環節:

能聽、會說、懂你。

VUI是一種以人類內心意圖為中心的人機交互方式,以交談式為核心的智能人機交互體驗。

最典型的應用就是語音助手,當下最熱門的產品就是智能音箱了。

二、語音交互有什么優勢?

  • 輸入更高效。研究結果表明,語音輸入比鍵盤輸入快3倍。如果你從解鎖手機到設置鬧鐘需要兩分鐘,直接說一句話設置鬧鐘,可能只需要10秒鐘;
  • 表達更自然。人類是先有語音再有文字,每個人都會說話但有一部分人不會寫字,語音交互比界面交互更自然,學習成本更低;
  • 感官占用更少。一張嘴,將人的雙手、眼睛從圖形界面交互中解放出來,想象一下當你手握方向盤時,說一句話就直接接聽電話、播放音樂,是不是更方便也更安全。騰出來的感官,意味著可以并行處理其他任務,理論上有更高的效率。
  • 信息容量更大。語音中包含了語氣、音量、語調和語速這些特征,交流的雙方可以傳達大量的信息,特別是情緒的表達,其表達的方式也更帶有個人特色和場景特色。當見不著面,聽不到聲音的時候,人與人之間的真實感就會下降很多。

VUI不再依賴固定的路徑完成操作指令,而且是每個人都可以有自己的方式和特色。

這是VUI與GUI革命性的改變。

對今天的App、瀏覽器而言,其直接下達指令的特性,使得語音交互可能成為一個全新的、去中心化的超級入口,也正是因為此,徹底引爆了整個市場。

從“百團大戰”之后,我們又見到了“百箱大戰”。

三、語音交互存在什么障礙?

語音百般好,應用一時難。

語音交互走到今天,已經付出了非常大的努力,但依然是有多少人工,就有多少智能。

“智能”與“智障”之間,隔著一線天。

當然,對從業者來說,當下的語音交互認為應該處于一種“沒有想象的那么好,也沒有想象的那么差”的境地。

1.注意力障礙

語音交互是非可視化的,帶來的問題就是增加人的記憶負擔。你打過銀行的客戶電話就知道,你必須集中精力聽完語音播報之后才能做下一步動作,如果你比較著急的話,那你就會非常的難受。事實上,人在獲取信息的適合,視覺要強過聽覺。

別人講話時你可能要等他說完你才理解,而你看文字的時候,甚至可以直接跳過部分文字你也能理解,特別是中文。所以,音箱添加屏幕是趨勢。對于語音的效率問題,可以說是單方面的輸入更高效,而雙向互動反而效率不高。

或者說,獲取信息的時候,視覺有很大的優勢,而聲音的效率并不高(現實中為什么總會出現“打斷”對話的現象,就是因為語音的表達效率不高,聽者等不及)。

2.心理障礙

想象一下你晚上一個人在家,你會不會突然開口叫一句”小明小明,明天什么天氣?”莫名其妙的語音,會讓人感到一絲不自在,特別是一旦小明存在一定缺陷的時候,所引發的錯誤。從心理感受出發,沒有多少人愿意對著冰冷的機器說話,然后得到毫無感情的甚至是錯誤的回應。語音交互存在的另一個心理障礙是,語音交互的不可預設和預判性。

不同的人,在同樣的情境下都可能產生完全不同的行為和預期。這給設計者來說帶來很大困擾,也為用戶帶來不確定性的擔憂。

在面對不可預知的狀況下,設計者和使用者互相難以領會彼此的意圖,就會形成一種博弈消耗。

為了應對這種不確定性,可能導致系統必須通過更多的場景理解和上下文關系,去解析用戶的意圖來做出可能合理的信息反饋,這將進一步帶來技術的復雜度。

3.技術障礙

語音交互為什么如此受到期待,是因為太富有想象空間了,能夠讓我們盡可能的釋放被占用的感官。想象一下,你只說一句“訂一箱牛奶”,快遞就會在約定好的時間送過來,多美好的生活?,F實生活中,人與人的交流,甚至一個眼神一個動作就可以引起對方的注意和反饋。

而現階段的智能音箱需要定義一個將助手從待機狀態切換到工作狀態的詞語,即所謂的“喚醒詞”,這是一個不得已而為之的蹩腳設計,你想做什么之前都要先來一句“小明小明”,這種疊詞的對話方式特別讓人反感。

實際上,語音交互的技術依然存在巨大挑戰,還很難在復雜的環境和不確定的情景下,真實的理解用戶的行為和意圖,想要給出用戶在不同場景下的期望值,軟硬件技術都還有漫長的路要走。

今天的語音交互,在某些場景下,本身就是一種劣勢。比如你站在電視機旁邊,開關機這個動作最適合的交互應該是手——直接一按就可以解決,為什么還要開口說話?

這一點說明:不是什么設備都可以加一個屏幕,也不是什么什么都可以加一個麥克風。

語音交互是否能夠廣泛應用,有賴于對場景的深度理解,以及人能智能技術的進步。

語音交互好不好,不僅僅依賴硬件設備的識別準確率,更需要垂直場景下的語義理解,以及后端內容服務的連接。

四、語音交互能否取代圖形界面?

結論是:語音和圖形交互不存在取代,就像人的眼睛和耳朵一樣。

不得不感嘆造物主的神奇,千百萬年來的進化,給了我們這樣一個絢麗多姿的世界。

人類耳聽、眼觀、嘴說、手動的自然構造,說明適應環境最好的方式就是分工合作,協同感知和應對環境,并作出最合適的行為反饋。

所以,最符合于人類的人機交互體驗,就是在不同的場景由不同的器官(方式)來完成,以一種自然的與外界進行信息交互。

隨著技術的進步,交互的方式定將發生顛覆式革新,未來的人機交互將更趨向于立體和本能。GUI+VUI,是一對有機的結合體,因為它符合人類的本能,語音交互不是取代觸摸交互的升級,二者之間只會彼此共同促進,通過恰當的協作機制提供更好的用戶體驗。

但,我們需要清晰的理解二者之間存在著本質性差異:

  • GUI是一種預設路徑的交互方式,通過識別用戶的下滑、點擊、雙擊等交互行為以及用戶所處的頁面位置,判斷用戶的指令并作出準確的反饋。這是一種單一路徑的操作方式,但足夠清晰。
  • VUI聚焦于如何發揮語言和表意的強大力量,采用人們日常的語言來交流,真實,自然的表達和獲取反饋,獲取用戶的信任、傳遞信息。

語音交互的流程更加直接,用戶甚至可以發出不同的語音指令來期望獲得同一個反饋。

五、語音交互的未來會變成怎樣?

1.無處不在

想象一下你在家里,最好的方式一定是不管你在那個房子,你都可以說一句“小明,明天送一箱牛奶”,而不是非要找到某一個音箱設備才能下達指令。

也就是未來的語音助手,一定是移動的,或者說是無處不在。

同時,借助一系列的傳感設備,從聲音紋路、體征指標、環境指標,綜合評估和理解當下的真實環境,并給初恰當的反饋。

2.主動服務

現在所有的語音助手,都還是被動地交談,你必須給出命令,它們才會應答。

但想像一下未來,當深度學習和大數據已經做好了充足的準備,語音助手能預知你接下來要去哪,要見什么人,甚至在想什么,只需要用語音的方式輸出這些信息。你不再需要點亮手機去查看這些智能的提醒,隨時隨地,會有一個聲音和你主動交談。

也許,未來技術的發展,各種穿戴設備,甚至植入體內的芯片會帶給我們完全不同的與外界交互的途徑。

但以當下我們對自身的理解,人的獲取外界信息和表達內在情緒的感官體驗,依然無法被取代。

六、什么場景適合使用語音交互?

語音交互同互聯網誕生以來用戶就習慣的GUI界面交互相比,主要是輸入方式不同導致的,最顯著特性就是“解放了雙手”——你在使用語音請求時,眼睛和手可以同時忙于其他的事情,從這點出發,語音交互在家居和出行領域有天然的優勢。

  • 家居:在家庭“相對封閉與安全”(特指針對語音信號采集的干擾程度),通過語音交互指令控制家居開關是很好的切入點。相信在不久的將來,搭載了語音交互系統的智能家居,都可以聽你的話,你說所說的每個指令,都會直接影響/控制到當前家居的運行狀態?!澳憧赡茉絹碓綈芤?,也可能越來越懶……”
  • 出行車載語音交互系統:釋放了駕駛員的手和眼,讓司機專注于前方的路況,如接聽電話、開關車窗、播放廣播音樂、路線導航等語音交互指令。
  • 企業應用:未來會有各種各樣專業的知識工作者會在或大或小的程度被簡化或者被替代,比如文本、數據的錄入工作,比如客服機器人。但,極不太可能的是直接對著一個設備吼兩嗓子做一個PPT的方式。
  • 醫療&教育:如語音記錄病歷,不管對醫生來說還是患者來說,都是提高看病效率的很好的輔助手段之一。

以目前的技術條件而言,單向的指令性動作是最適合語音來表達的,因為它足夠清晰和直接。

七、語音交互涉及那些技術?

VUI(語音用戶界面)所涉及的技術模塊有 4 個部分,分別為:

  1. 自動語音識別:Automatic Speech Recognition, ASR
  2. 自然語言理解:Natural Language Understanding, NLU
  3. 自然語言生成:Natural Language Generation, NLG
  4. 文字轉語音:Text to Speech, TTS

上圖即為語音交互技術包括的識別、理解和對話三個部分。

整個過程通俗的說,就是通過麥克風讓機器能聽到用戶說的話,然后聽懂用戶想要表達的意思,并把反饋的結果“說給用戶聽”。

舉個例子就是:

小明:明天什么天氣?

助手:晴,37攝氏度。

整個過程分解之后,就變成這樣一個過程:

  1. 小明對著機器說一句話后,機器內置的麥克風識別到小明說的話,把口語化的文本歸一、糾錯,并書面化(ASR);
  2. 然后機器根據文本理解小明的意圖(通常是在云端進行語義的理解)并進入對話管理,當意圖不明確時,還需要機器發起確認對話,繼續補充相關內容,這就是多輪對話;
  3. 在明確小明意圖后,去獲取相關的數據,或者執行相關的命令;
  4. 最后把內容通過揚聲器播放給小明聽(TTS,語義理解后獲得的結果文本信息合成為聲音)。

至此完成一個完成對話過程。(實際上,也是一個蠻晦澀的過程)

在上述的四個環節,都很關鍵,都存在很大的技術挑戰。

值得特別提出來的是ASR和NLU兩個環節。

ASR是通過聲學模型和語言模型,將人的語音識別為文本的技術。

它依賴麥克風本身的性能和設計,如何確保在復雜的現實環節下,把干擾信息過濾,獲取到準確的信息,我們場景的智能音箱,通常都是多個麥克風組成一個環形的設計,目的就在提供獲取語音的準確率。

語音識別只是知道我們說了什么,但真正要理解我們說的是什么,就需要依靠 NLU 這項技術。主要解決分詞、詞性標注、實體識別、文本分類和情感分析這幾個問題。

比如:

從北京飛上海要多久?

到廣州呢?

上例中,實際上就是試圖通過一個框架模型解析一句話的意圖。

目前為止最成功的”框架語義(Frame Semantics)”,即采用領域(Domain)、意圖(Intent)和詞槽(Slot)來表示語義結果。

  • 領域(Domain):領域是指同一類型的數據或資源,以及圍繞這些數據或資源提供的服務。比如“天氣”、“音樂”、“酒店”等。
  • 意圖(Intent):意圖是指對于領域數據的操作,一般以動賓短語來命名,比如音樂領域有“查詢歌曲”、“播放音樂”、“暫停音樂”等意圖。
  • 詞槽(Slot):詞槽用來存放領域的屬性,比如音樂領域有“歌曲名”、“歌手”等詞槽。

舉個例子,從“北京明天天氣怎么樣”這句話中,NLU 可以得到以下語義結果:

  • 領域(Domain):天氣
  • 意圖(Intent):查詢天氣
  • 詞槽(Slot):

城市(city) = 北京

時間(date) = 明天

我們再通過問天氣的例子,來理解要完成一個對話的過程:

小明:明天天氣怎么樣?

助手:您要查詢哪個城市的天氣?

在這個例子中,語音助手試圖獲取更完整的領域、意圖和詞槽數據,也就是語音助手在對話開始后,會結合本輪對話提供的語義信息和上下文數據,確定當前對話狀態,同時會補全或替換詞槽,并且根據對話狀態和具體任務決定要執行什么動作,比如進一步詢問用戶以獲得更多的信息、調用內容服務等。

這里的三個核心就是對話的上下文、對話的狀態跟蹤以及采取的對話策略,組成DM(對話管理),并最終把獲取的文本結果,合成為人耳聽到的聲音(TTS)。

Q:明天天氣怎么樣?(intent=query_weather,date= 明天,city=null?)

A:您要查詢哪個城市的天氣?(action= 詢問查詢哪個城市)

在回顧語音交互的全流程,可以看到它的核心就是用戶的意圖,如何識別意圖以及如何處理意圖。

換句話說,語音是完全以用戶為出發點的技術,而圖形交互更多的是讓用戶在引導下完成指定的任務。

也從這個特性可以看到,語音交互遠比圖形交互技術復雜,不同的語種會帶來不同的詞法、句法,然后在不同的語境下有著完全不同的語義(意圖)。

隨著技術的發展,機器結合更多的傳感器技術和生物識別技術,它能感知人們的語音、肢體和手勢甚至表情眼神,并通過調整自身的反饋來適應人們那一刻提出的需求(包括脾氣性格、聲音特點、外外貌印象),真正實現人機的自然(本能)交互。

八 、語音交互設計需要遵循什么原則?

語言學家Paul Grice 在1975年提出關于人們交際的4點合作原則,即:

  • 量的準則:既要讓人聽懂,又不要說太多廢話。盡量少添加不必要的措辭,比如用戶問什么天氣,直接回答“廣州,晴”即可。
  • 質的準則:說真話,沒有證據的話不要說。如果你的語音助手只可以問天氣,就不要被喚醒后說“有什么需要幫忙的”,當用戶被引導而不能達成,只會給用戶一種挫敗感。
  • 關系準則:不要前言不搭后語,說話要有聯系。
  • 方式準則:清晰明了,井井有條不要拐彎抹角也就是,我們所設計的語音助手,不要說自己做不到的事情,比如“有什么可以幫助到你?”,這顯然就是超乎能力范圍了。

也不要在沒有弄明白意圖的時候,隨意強行反饋結果。

然而,人們在實際言語交際中,卻常常故意違反合作原則,特別是中國人所說的“話里有話”,如何透過說話人話語的表面含義而理解其言外之意的,對語音交互設計而言,是極其巨大的挑戰。

但,幽默也就時常在這時產生。

九、如何設計語音交互產品?

如同GUI(圖形用戶界面)以點擊-觸發為各個節點的交互邏輯一致,VUI(語音用戶界面)是從提問到回答的流轉過程邏輯,將一個場景以對話的形式貫穿起來。

回想在GUI時代,我們如何為用戶設計一個功能。

通常,我們都需要理清楚需求的邊界,做什么不做什么,然后把用戶的需求做一個流程的梳理,把各個環節的流轉以及可能出現的狀況狀態完整的表達出來,然后制作原型圖,繪制界面,最終迭代開發上線。

我們通過“用戶故事”來描述用戶想要得到什么,會做什么,并把它設計成一個產品功能(對于VUI而言,稱之為語音技能skill)。

不同的是,設計語音skill,是把戶可能和語音助手發生的對話 (dialog) 通過腳本(script)和流程(flow)去定義交互的細節和多樣化的表達方式。(variantions)

1.確定目標

首先需要搞清楚的是,用戶為什么要用這個skill,也就是需要設計一個或者多個情境,讓用戶有使用這個技能的意愿。

為什么用戶需要用它?用戶會做什么?不做什么?

2.創建故事

user story,和GUI下的設計是一致的,必須完整的定義基本的功能點,以及每個交互節點,明確用戶在使用這個技能的邊界是什么,可以做什么,不能做什么。

這是設計一個skill的基本原則。

用戶可以得到什么信息?用戶可以通過什么方式得到這個信息?為了得到這個信息,是否需要更多的服務作為支撐,比如訂外賣的skill?

3.建立流程

flow,也就是用戶完成某項任務的過程路徑。

在確定邊界范圍之后,需要為用戶設計完成任務所能使用到的不同的路徑,也就是需要盡可能的把各種正常的、異常的狀況,正向和反向的各種應對措施完整的設計表達出來。

在設計語音skill的流程時,有幾條基本的原則(實際在也通用于GUI的流程設計):

(1)最短路徑

一次性給出所有的必須信息,在語音交互過程中一句話(一輪對話)即可實現,如:明天北京的天氣怎樣嗎?

(2)替換路徑

通常,用戶說的話不會包括所有的必要信息。

比如:明天下雨嗎?這里缺少了一個關鍵槽位(slot),地域。

也就是用戶在表達這句話的是會有兩種情況,默認已知地理位置(當前位置),或者需要聽者追問。

在我們的日常生活中,我們常常將把這句話理解為“明天(北京,自動默認當前位置信息)下雨嗎?”

所以,必須設計完整的替換路徑和決策樹補充用戶對話中的缺失信息。

(3)決策機制

比如首次使用語音助手的時候“播放音樂”,和多次播放音樂之后的決策是會有很大的差異,后臺系統的決策邏輯需要根據用戶的使用情況,給出最優機制,試圖為用戶創建更好的使用體驗。

(4)幫助系統

語音交互的特殊性決定它在出現未知和異?,F象時,極容易讓用戶感到困惑。

所以,在設計一個語音skill的時候,必須清晰的給予引導,幫助用戶針獲得skill的使用方式或者全面的指引,以及當數據缺失的反饋流程。

假設用戶小明問“去北京要多久?”,你大概會需要畫這樣一個流程圖。

4.撰寫腳本

腳本(scripts),用戶和語音助手之間的對話,這有點像一個電影或者戲劇的臺本,這是一種非常有效的定義對話流程的方式。

撰寫腳本的時候,需要盡可能的遵循前面提到的對話原則,簡明扼要,同時又要能夠挖掘到關鍵信息。

有兩點需要特別注意:

  • 不要假設用戶知道做什么或者會發生什么
  • 只提供用戶所需要的信息

舉個例子:

小明:明天出差要帶傘嗎?

助手:你要去哪里?

小明:北京

助手:別帶了,這幾天天氣特別好。

#專欄作家#

杜松,公眾號:產品微言,人人都是產品經理專欄作家。專注于人工智能方向,擅長產品規劃和架構設計。

本文原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自網絡

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 干貨,我們產品在給甲方測試的時候對方總是希望能機器人對話腳本一次說很多,不知道越多人越是不可能等,注意力不能等機器說完就打斷,然后就邏輯亂了。。。。。

    來自廣東 回復
  2. 干貨,點贊!

    來自安徽 回復
  3. 然而操作精度太低了,沒辦法實現很多事情,比如寫論文,編程,做axure原型

    回復
    1. 有了電子書并不會導致紙質書的消亡,同理,更好的交互只是提供更好的便利而不是去替代某種舊事物。

      回復