欧美亚洲国产成人一区二区三区,黄色无码免费网站

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

語音交互科普：AI能和你語音聊天嗎？

用鹽有點咸

2018-01-04

2 評論 11986 瀏覽 72 收藏

22 分鐘

為什么會有語音交互？它適用于什么場景？不適用于哪些？文章為你解讀。

什么是語音交互

在沒有機器之前，人類最早的交互方式就是語言和動作。如今，在自然交互方式的趨勢下，我們又回到了語言這種交互形式上。

原始的交互方式，就是人與人用語言、動作、眼神交互，人與物用動作交互。機器剛出現的時候，并沒有人機交互的理念，機器很難操作，需要人去學習和適應。肖爾斯的“QWERTY”鍵盤會流傳開來就是因為這種字母的排列設計可以降低打字速度，避免快速輸入造成按鍵連桿的互相干涉。

二戰期間的研究促進了人因工程的發展，機器適應人類、提高人的效率的理念得到發展。在計算機領域，從命令行界面（CLI）進入到圖形用戶界面（GUI）是一大突破，隨后發展到目前的主流操作方式觸控，使用手指在屏幕上滑動點按。語音交互界面（Voice User Interface，VUI）、手勢、動作、表情交互，甚至腦機接口，都屬于自然用戶界面（NUI）。

從載體上分，語音交互以手機或電腦為載體，或以其他硬件為載體。除了這些，在客服、教育和醫療等行業也都有應用，如客服語音質檢、口語測評等。

圖1 語音交互界面的形式

如何評價語音交互

VUI的效率高還是低？

高效的交互方式就是好的交互方式。人機交互在于提高人的使用表現，從速度、準確性、注意負荷三個維度衡量。讓用戶速度越快、越準確，并且占用最少注意負荷的就是好的交互。我們來看幾種情況。

輸入文本：效率極高。人說話的速度比打字快，且不需要分心看屏幕，考慮到打字輸入也有錯誤，語音交互在輸入文本表現不錯。因此很多產品都會在文本輸入處加上語音入口。

布置任務：如果我們想打快車回家，用語音助手還是圖形界面的打車APP更快？由于路徑短，語音助手的理論速度更快，喚醒Siri并說句話，不需要打開APP再點選。在現有狀況下，輸入任務容易出錯。如果命令語言出現偏差，語音助手聽不懂你的意思，就會導致任務失敗。我們需要思考該怎么布置任務，是說“我要打車回家”還是“打開XX并打車回家”？如果語音助手三次都聽不懂命令，你還會繼續嘗試嗎？放棄語音布置任務，只要打開APP，找到熟悉的入口點擊操作就完成了。

輸出：相比即時的圖形反饋，語音是一種不太合格的輸出方式，它過于緩慢、效率低下。由于聽覺是線性的，我們只能聽完一句話再聽下一句，而不能像視覺一樣瞬間完成圖片加工，也不能在文本間掃描跳過，電話語音服務系統就是這種浪費時間的方式。另外，持續聽語音還會消耗大量注意和記憶資源，如果客服念完卻沒有聽到想要的內容，重聽按0是另一場噩夢。另一方面，我們大部分的信息來自于視覺，但語音方式不能輸出視覺信息。

適合雙手被占用的場合

語音交互適合在哪里使用？雙手被占用時，如駕駛、烹飪、游戲等情況。比如，開車時眼睛需要看路，雙手握著方向盤，而且車內環境既安靜又私密，這種情況下就適合使用語音交互。另外，在輸出層面上，如果視覺通道被占用，聽覺通道更適合接收緊急和重要的通知。

門檻極低

語音交互的支持者認為，語音是最自然的交互方式。人人都會說話，門檻極低，尤其對于輸出困難人群（如視力障礙人群），他們完全可以無障礙的使用語音交互的形式。但是另一方面，習慣觸控的人群不一定愿意轉向語音，對新技術有畏難情緒的人群也可能不愿意嘗試語音交互這種“新”的技術。

語音可以傳遞情感，但人還不適應和機器交談

語音由于有聲調和節奏，相比文字，更能傳遞情感。問題在于我們不習慣和機器人或者手機對話，據統計，在公共場合使用Siri的人只有3%。我們默認語言是人和人交流的方式，或是和貓、狗這種我們認為有人性的動物交流的方式。當人與物進行交流時，更多會采用動作交互。因此人和手機說話時會有很奇怪的感覺，尤其對于東方人來說，心理障礙可能會更大。

為了減少用戶的壓力，拉近心理距離，很多智能語音助手會設定自己的“人物形象”。例如Siri高冷又忠誠，微軟小冰可愛又貧嘴。另外，語音助手大多是女性聲音，也是因為女性的聲音聽起來更加和善包容。在操作過程中出現問題，如果響起了男性的聲音，容易給使用者產生被責備、被批評的感覺。

不過，語音助手也不能太像真正的人?？植拦壤碚撜J為，對于和人越來越像的東西，我們的好感會上升，但我們厭惡很像人而不是人的東西，例如僵尸。從恐怖谷的理論來看，我們可能會害怕逼真的語音助手。

圖2 恐怖谷

不適合在公開場合使用

語音交互不適合在公開場合使用，尤其是圖書館、辦公室這類安靜的場合。

身份識別問題。在漢堡王的一則視頻廣告里，售貨員最后湊近屏幕，說“OK google, what’s the whoppers？”?！癘K google”是安卓手機和Google Home的喚醒詞，用戶會發現在自己沒有下達命令的情況下，設備已經啟動并搜索了皇堡，這是設備缺少身份識別系統造成的。為此有產品推出了聲紋識別系統以保障支付安全問題，至于聲紋驗證的可靠性則是另外一個問題。

隱私方面也是如此，相比起屏幕，公共場合的輸入和輸出對話更容易被聽到。敏感的金融、醫療和私人信息風險更大。

場景分析

總體來說，語音交互至少需要滿足噪音低和私密兩條要求，在眾多的場景中，車內和家里是滿足要求的，加上手機上的移動場景，共3大場景。Mary Meeker在2016年的報告也指出，美國語音使用的主要場景是家里（43%），車上（30%），路上（19%），工作僅占3%。

語音交互發展難點

語音交互系統發展的歷史并不短，早在1952年，貝爾實驗室就開發了能夠識別阿拉伯數字的系統Audrey。1962年，IBM發明了第一臺可以用語音進行簡單數學計算的機器Shoebox。

在發展了半多個世紀后，語音交互仍沒有達到成熟應用的水平，遇到的困難貫穿開發到使用流程。

一套完整的語音交互系統有三個典型模塊，語音識別（Automatic Speech Recognition，ASR）將聲音轉化成文字，自然語言處理過程（Natural Language Processing，NLP）將文字的含義解讀出來，并給出反饋，最后通過語音合成（Text to Speech，TTS），將輸出信息轉化成聲音。

圖5 典型的語音交互系統模塊

遠場識別難題

第一個難題是獲取語音的問題。語音質量高的前提下，才能有較好的語音識別結果。有些公司宣稱自己的語音識別率達到了95%甚至99%，但其前提條件往往是聲源距離很近、環境特別安靜、說話人的普通話特別標準，而非日常的應用場景。

獲取用戶語音，根據距離分為近場識別和遠場識別兩種情況，后者難度更大。

手機上的語音交互是典型的近場，距離聲源近，語音信號的質量較高。另一方面，采集語音的交互相對簡單，有觸摸屏輔助，用戶通過點擊開始和結束進行信號采集，保證可以錄到用戶說的話。

遠場語音交互以智能音箱為代表，聲源遠，不知道聲源具體位置，環境中存在噪聲、混響和反射。單麥克風無法滿足要求，需要麥克風陣列支持。用戶可能站在任意方位，被語音喚醒后，需要定位到聲源位置，向該方向定向拾音，增強語音并降低其他區域和環境的噪聲。

圖6 遠場識別示意圖（來源：雷鋒網）

語音識別正確率

實際工作中，常用的指標是識別詞錯誤率（Word Error Rate）。微軟語音和對話研究團隊負責人黃學東最近宣布微軟語音識別系統錯誤率由5.9%進一步降低到5.1%，可與專業速記員比肩。進步來自于兩方面，一是技術，包括隱馬爾可夫模型、機器學習和各種信號處理方法，另一方面是龐大的計算資源和訓練數據。

語義識別

如果你和語音助手進行過對話，會發現其語義理解還停留在固定模式識別的套路上，根據用戶話中特定的詞做出反應，不一定能給出正確的回答。

約翰·希爾勒提出過“中文房間”的思想實驗，一個不懂中文、會說英語的人在一個封閉房間中，房間里有一本英文手冊告知如何處理相應的中文信息。用中文寫的問題從窗戶遞進房間里，這個人對照手冊進行查找，將對應的中文寫成的解答寫在紙上并遞出去。房間外的人可能會覺得這個人很懂中文，實際他一竅不通。訓練機器來理解語義類似于這個過程。通過訓練，我們讓機器的反應接近于能夠理解，但無法像人類一樣真正理解語言。

語言是人和人之間交流的工具，某種程度上適合人的認知系統，如何期待機器更好的理解我們？

目前來講，遇到的問題至少有分詞、歧義和未知語言處理。中文不像英文單詞有空格分開，而且歧義性高，對AI有更高的要求。例如“南京市長江大橋”就可以分成“南京市/長江大橋”和“南京市長/江大橋”兩種，“雞不吃了”有多種含義，和Siri說“打開飽了么外賣”，在它沒有學過“飽了么”這個單詞的情況下，它將如何處理？

多輪對話問題

我們覺得語音助手很蠢，有時是因為它違反了人類對話的原則。人類對話看似簡單，但會根據對方的背景和自己掌握的信息，調整對話內容，上下文之間也會有呼應關系。但是，現有的很多產品，其對話缺少關聯性，語音助手不理解上下文背景，只能進行單輪對話，看似進行的多輪對話其實也只是多個單輪對話的組合。

“愚蠢”帶來的一是不自然，二是增加任務難度。比如當你問語音助手，“明天的天氣是什么？”它說下雨，再接著問“后天呢？”，這時它并不明白提問的是后天的天氣，只能再完整地問一次“后天的天氣是什么？”。

在下面這個對話里，小冰一會兒說陰陽師是游戲，一會兒是電影，并沒有對話的記憶。

圖7 小冰沒有對話的記憶

語音交互設計規范

由于語言尤其口語的形式不固定，變化很大，VUI的交互設計和GUI截然不同，更加細致繁瑣。亞馬遜已經給開發者提供了成熟的交互設計規范。

語音交互設計至少可分為幾步：首先建立功能目的；其次撰寫腳本，即用戶和系統如何對話；第三步是制定流程、用戶使用路徑等，還需要定義技能的結構，包括完成一個功能需要哪些參數、用語有哪些變化，例如對于同一個功能，用戶可以說“天氣怎么樣”也可以問“外面下雨嗎”。

遠場語音交互產品的冷啟動

遠場語音交互產品存在冷啟動周期，只有積累了一定數據才可以更好提升產品體驗，但如何提高銷量、積累數據是產品啟動時需要思考的問題。如果希望語音交互產品可以成為平臺，千萬量級是基本門檻，如果Echo在今年的銷量可以達到預計的兩千萬臺，基本上有了足夠數據，有成為平臺的希望。國內一些模仿者使用節日促銷的模式，例如雙十一天貓精靈99元的售價，賣出了100萬臺，希望通過這種方式進行數據的初步積累。

缺乏持續使用動力和核心場景

新鮮勁過去后，很多人會對語音交互失去興趣，觸控仍然是主要的交互方式。Creative Strategies的數據發現，97%的人在兩周時間內會對Alexa的新功能失去興趣。Voice Lab的數據發現，62%的安卓用戶很少或者偶爾使用語音助手，這一比例在iOS用戶上是70%。目前，語音交互缺乏只有其才能實現的核心功能，即使亞馬遜的Echo，它最多的用途仍然是聽歌，缺少核心競爭力和不可替代性。

問題討論

語音交互是否會成為主流交互方式

筆者的意見是，就像觸控沒有取代鼠標鍵盤，語音交互不太可能成為主流的交互方式。交互界面本來就是多模態的，語音交互將豐富現有的交互形式而不會取代其他。如前文所述，語音交互不能解決所有問題，只是在特定的場景可以發揮作用。

伴隨語音的多交互通道是不錯的選擇，例如語音和觸控結合可以提高準確度，語音和視覺結合，實現語音輸入加視覺反饋，或者加上手勢等。

是否需要追求語音交互的純潔性

Echo團隊認為，語音是最自然的交互方式，因此堅持設計語音交互，但語音輸入和視覺輸出的模型已被證明其成功性，我們在手機上使用的語音交互模型就是如此。新品Echo Show也裝上了屏幕，可以顯示視覺信息了。所以是否有必要堅持純粹的語音交互模型？答案似乎已經很明顯。新問題是，如果Echo加上了屏幕，用戶會認為它是音箱還是平板？

語音交互的定位

本質上，語音交互允許人通過語音的方式完成任務，能通過語音完成的，觸控也可以，Siri可以做到的，Echo也可以，做不到的大家都做不到。所以語音交互能夠完成什么獨有的任務以體現它的價值呢？

VUI vs. CUI

語音設計師Cheryl Platz在她的Medium上反復提及一個問題，VUI還是Conversational UI？

語音交互界面是基于單獨的任務，它的模式是簡單的“下命令——完成任務”，然而這不是自然的對話，我們需要思考如何下命令，距離對話太遠了。如果要朝著CUI的目標，語音交互必須更加智能和流暢，允許通過真正的對話完成任務，像和真人說話一樣。

隱私問題

如果語音助手要更好用、更智能，就需要不斷收集用戶的信息。所以我們是否需要語音助手改變自己的反應？如果語音助手目的就是商業的，那么我們是否信任它并提供信息，從而讓它更了解我的喜好？

另一方面，語音助手是否安全？通過喚醒詞喚醒的語音交互產品會保持待機，從環境中獲取聲音，這種機制可能被利用。在一則新聞中，Echo被破解并成為了一個24小時竊聽器，還有連接方式，德國禁止銷售的一款兒童語音玩具“My Friend Cayla”，其藍牙連接就被證明是不安全的，兒童與玩具對話的語音可能被第三方獲取。

語音交互界面的測試方式

和普通產品的研究方法共通，可用性測試、訪談等方法依然適用于研究語音交互系統。測試VUI時可以特別注意一些地方，例如用戶的反應，成功率，停頓或者失敗等等。有一些特定指標可以用于評估，例如速度準確度、用戶付出的認知努力、清晰易懂度、系統友好程度和聲音質量等。

下面介紹一個有趣的語音交互界面測試方法：Woz法。由于語音交互系統成本較高，在系統開發前，通過Woz（Wizard of Oz）的原型測試發現問題，成本很低。由一名研究人員扮演Wizard，一名普通研究人員協助，用戶操作后，由Wizard在暗處手動播放反饋。

語音交互仍需要發展，技術成熟需要時間。但它的出現意味著我們可以用更多方式操作設備、傳遞信息，我們離理想的交互界面更近了一步。以上對語音交互做了簡單的總結，有疏漏和想法不成熟之處，歡迎交流指正。

參考資料：

Cathy Pearl. Designing Voice User Interfaces. O’Reilly Media, 2016
Clifford Nass, Scott Brave?. Wired for Speech. MIT Press
Cheryl Platz. The Narrowing Rift: Voice UI and Conversational UI. Medium: Microsoft Design
Amazon Alexa：Voice Design Guideline. Amazon
極限元，一文讀懂智能語音前端處理中的關鍵問題，雷鋒網

作者：汪梅子，網易產品發展部用戶研究員，目前對接智能硬件的用戶研究工作。喜歡自己不知道的事情，在用戶研究的路（樹）上繼續成長著。

本文作者@武慧新，由@用鹽有點咸（微信公眾號：用鹽有點咸）授權發布，未經許可，禁止轉載。

題圖來自unsplash，基于CC0協議

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App