關于智能語音交互的5點思考
本文是我在學習智能語音過程中的思考,希望從智能語音的人機交互層面給大家帶來一些啟發。
小時候很喜歡一部劇叫《恐龍戰隊》,里面有個角色叫“阿爾法”,是個每天忙來忙去的機器人,能傳喚隊員并和他們交流,令我很好奇。
今天,我們對于能對話的機器已經不那么新奇了,這得益于智能語音技術的發展和一些語音產品的出現。一度調戲Siri成為全民話題,這肯定不是Apple公司初衷。這暴露了它的不完善,也讓大眾離語音產品更近了。本文是我在學習智能語音過程中的思考,希望從智能語音的人機交互層面給大家帶來一些啟發。
語言是人類文明的重要成果,也是人類最重要的工具之一,它為保存和傳遞人類文明起到了不可或缺的作用。概括來說它的主要作用就4個字:傳遞信息。
“而我們所說的智能語音,學術界叫“自然語言處理”,是計算機科學領域與人工智能領域的一個研究方向,主要研究能實現人與計算機之間用自然語言進行有效傳遞信息的理論和方法?!园俣?”
“交互”一詞全名是“人機交互”,是一門研究系統與用戶之間交流、互動關系的學問。
智能語音交互嚴謹點說應該是自然語言交互(natura language interaction),為了方便理解我依然采用“智能語音交互”這個詞。
計算機技術及人工智能領域發展迅速,對“自然語言處理”的研究也異常火熱。
siri、微軟小冰、google now、Echo、科大訊飛、京東叮咚、出門問問等智能語音類產品開始出現,雖然存在很大的不完善,但回望歷史我們能發現智能語音技術一直是在進步的。
在了解智能語音的過程中,我產生了一些問題,圍繞這些問題我對智能語音交互進行了一些思考,希望能給你帶來一些啟發。
?1、智能語音能成為人類主流的人機交互方式嗎?
這個問題在知乎引起了很大的爭論,而我傾向于智能語音交互會成為人類主流的人機交互方式之一。
人類與世界萬物的交互過程大概是這樣的:通過眼睛去觀察人、事、物、環境等,再輔以耳朵聽、鼻子聞、舌頭嘗、嘴巴交流、肢體觸碰,而后大腦產生記憶和思考并做出動作、表情、語言和生理反饋,這個過程是循環和組合的。
不同的環境和習慣會有不同,但基本是在這個范圍。 這個過程中,前半部分主要是接收信息,后半部分主要負責交流互動,而語言和動作是最主要的交流互動方式。
人機交互角度看,用手操控是這個世界絕對的主流
我們每天使用的手機、電腦、相機、汽車,包括現在很火的AR、VR設備,基本上都要靠手去操控。(用手操控屬于動作這個范疇)這跟人類的進化方式有很大關系,我們的祖先從學會制作工具開始,手就成為了人類接觸萬物的最主要工具。
尤其是機械的出現,只有人類靈巧的雙手才能精準的操控完成任務。
可是人的手有幾個缺陷:不夠長,不夠多,需要配合眼睛,這給我們的生活帶來了很多不便。
舉個例子:
當我們在開車時,眼睛和手被占用,再去操作手機、中控觸屏等設備會非常不便,危險系數也會大大增加。
原本語言是人與人之間交流的工具,很難像雙手一樣直接與物體產生反應。 但是隨著公認的第四次工業革命的到來,人工智能讓我們有了更多可能,當機器能聽懂我們的意思并很好的執行時,很多場景的人機交互方式將會被改變,更多適合的場景將會被挖掘出來,就像當年智能手機進入我們的生活。10年前,我們是無法想象通過手機做現在的大多數事情的。
所以我的淺見是:
智能語音技術會成為人類主流的人機交互方式之一。
成為之一,是因為除了語音外,原本的手的操作、體感操作、面部表情識別、注意力識別、甚至是情緒的波動,都可能在不同場景成為我們與機器的交互方式,未來這很可能是綜合的交互體驗。
?2、智能語音技術發展到什么階段了?
智能語音分近場語音和遠場語音。
“近場的定義是小于1個波長的范圍內(或者波長量級)的電磁場。而遠場是電磁波傳播到遠處之后的場(分布)?!园俣取?/p>
近場語音主要是基于手機等設備,基本上是一些輔助的使用需求,Siri和微軟小冰就是近場語音產品。遠場語音也越來越受重視,亞馬遜的Echo就是遠場語音,很受歡迎,至少用戶能在5米外的距離語音指示它播放音樂。
自然語言理解方面的研究已經60多年了,雖然還不完善,但令人欣喜的是類似Siri、Echo這樣的產品不斷涌現,而不再是虛無縹緲的概念。
簡單了解下自然語音處理的技術過程:
當我們與機器進行語音交互時,機器需要通過聲學處理我們的聲音和周圍環境,減少干擾和噪音。再通過語音識別技術將聽到的聲音翻譯成文字,語義理解技術則會分析這些文字的意義,最后機器去執行用戶的指令或者通過語音合成技術把要表達的內容合成語音。
在此過程,聲學處理、語音識別、語義理解等屬于自然語言理解,語音合成等是自然語言生成,這些都是非常核心的技術,還要配合人工智能、機器深度學習等等。
但是現階段依然困難重重。
真實環境下,受噪音等影響機器仍然聽不準自然語言。機器將聽到的語音翻譯成文字時,重音、口音模糊、語法模糊等又很影響成功率。人類語言太復雜,受到單詞邊界模糊、多義詞、句法模糊、上下文理解等影響,語義理解又是一大障礙。
再舉個例子:
如果一門課程上一年沒開設,對于“這門課程去年有多少同學沒通過”這樣的問題,機器是回答“都沒通過”還是“去年沒開這門課”?同時機器還需要提前存儲“去年沒開這門課”的信息。
想想我們從小時候啥也不懂到現在懂得的知識和信息,這是難以想象的數據量!所以現階段來看,在某垂直領域開發智能語音產品是相對現實的選擇。
?3、智能語音交互與界面交互的異同點是什么?
研究智能語音與機器的交互,不得不說界面交互,這是使用者和設計者都非常熟悉的人機交互方式。從界面交互出發,其實有很多可思考的或借鑒的點。
界面交互是線性的,而語音交互是非線性的?
界面交互是一種線性的交互方式,本質上是不同的頁面通過不同的層級關系串聯起來的。所以,我們在使用的時候會有一層層返回,tab導航切換,回到app首頁和home鍵回到手機桌面的概念。
語音交互不適合這樣做,我們人類在語言交流時,是一種非線性發散式的,我們會在聊某個話題時突然切換到另外一個不相關的話題上,這之間沒有層級關系,更談不上返回關系。
界面交互更多過程,語音交互直接指向結果?
界面交互在設計的時候,是將很多“小任務”(按鈕點擊、模塊選擇、頁面跳轉等等)提供給用戶,用戶通過不同的組合選擇,最終達成自己的目標。
但是在語音交互時,更多是直接表達,你會跟服務員說:請給我一杯咖啡。而不會說:請用杯子從咖啡壺里倒一杯咖啡給我。
界面交互可以沒有目標,語音交互需要準確的目標?
我們在使用電腦和手機上網時,有時候是漫無目的,但在語音交互產品上如果漫無目的的進行下去,會讓人很煩躁,因為你得不停地說下去。
語音交互的私密性更強,沒有界面交互覆蓋的使用場景多
當我們在一個人多的場合可以毫無顧忌的使用手機和ipad,但若跟機器進行語音對話,就會令人很尷尬。再例如,在ATM機上取款時你會使用語音嗎??
所以在一些使用語音交互效率高的場景,如何避免這樣尷尬的情緒很重要。而另一些更私密的場景語音交互可能是個災難。
4、智能語音交互適合哪些使用場景?
任何一款產品不管是什么樣的交互方式,沒有使用場景,滿足不了用戶需求,一定是無法成功的。智能語音類產品也不例外,并且從現階段的技術上來看,垂直一些的使用場景更適合用智能語音交互。
- 汽車的車載智能語音系統,已經有很多商業產品了。是不是可以在挖掘出其他出行場景呢?比如騎車時?
- 兒童娛樂和教育也是適合語音交互切入的行業,也有很多公司在做。
- 智能語音類產品還可以應用于客服行業,可以極大的程度降低人員成本,也可以解決語音客服體驗差效率低的問題。
人工客服和非智能語音客服場景的痛點
如果應用智能語音系統呢?理想的情況跟人工客服沒有區別,但是全部由機器完成,想想看節省了多少人力成本。甚至線下的客服工作也可以替代。
4似智能語音助理這樣的產品,幫用戶處理一些短路徑目的明確的任務需求。
還有辦公領域、智能家居等等……
5、如何設計使用體驗好的智能語音產品?
不管是界面產品還是語音產品,最終目的都是解決人們的問題。界面產品設計的部分標準和經驗依然適用。
比如設計流程上,同樣需要理解業務訴求、用戶訴求,要進行用戶調研、分析用戶特征和觀察用戶行為,要挖掘使用場景中的問題和痛點,要梳理任務流程、設計信息架構和方案設計,并且要去驗證和迭代。
而語音交互過程中還需要注意以下問題:
流程簡單,路徑明確,最大限度減少對話輪數。
語音交互應該避免不停的對話,太多輪對話用戶難以記住,并且會很煩躁。
信息傳達簡潔明了,避免大量內容。
用戶的短期記憶量有限,信息太多用戶難以記住。
給予用戶適當的引導,避免或及時糾正用戶發散式思維導致的錯誤。
用戶的語言表達是自由度非常高的,這會增加機器識別的難度,適當的引導讓用戶回到正確的道路。
系統狀態反饋,及時有效。
語音交互中的系統狀態反饋,要讓用戶及時了解當前狀態,上下文關系,用戶所處流程的位置。
任何時刻都是“首頁”。
語音交互對用戶來說是快捷方式,有需求會直接說,而不會像界面產品先要回到首頁再去找相應應用。
加載過程要快。
在界面交互中頁面加載3秒以內,配合狀態反饋,用戶是可以接受的。而語音交互用戶會更不耐心等待,所以加載過程要快,就像人與人之間對話一樣自然,才會令用戶滿意。
固定的、舒適的聲音風格,令用戶愉悅。
固定的音樂、鈴聲,給用戶形成印象,讓人一聽見就知道是什么產品。例如微信、iphone鈴聲、新聞聯播片頭曲。動聽、令人愉悅的聲音、音樂、鈴聲很重要,是產品氣質的表現。
與機器的語音交流如何像人類一樣自然?
這是最后的疑問,我還沒有答案。機器的語音交流,不像人類一樣自然永遠是最大問題,因為只有人與人之間交流才是最自然和舒適的。如何讓機器學習和模仿人類,使它慢慢的向自然人“進化”?
以上僅是分析和思考,并未經過實踐驗證,只希望給大家帶來啟發。
本文由 @Wayne 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自PEXELS,基于CC0協議
自然語言交互和智能語音交互,后者包括前者。語音交互,不只是自然語言,還有聲學上的聲紋等。智能語音交互的智能,不只包括NLU,還有推理,決策判斷等,而且輸出也不一定是語言。
回答的通熟易懂,點個贊!
?? 受教了。
一個外行,還需要學習。。。