人工智能時代,語音交互將成為最流行最普遍的交互方式
在即將到來的物聯網時代,人工智能會是流量入口,那么語音交互就成了極具競爭力的交互方式。
近幾年,“人工智能”已經成為互聯網圈里面出現頻次最高的一個詞匯,隨著技術的的進步和社會的發展,物聯網時代已經成為繼移動互聯時代之后的下一個浪潮。在PC時代,瀏覽器是流量入口,人類通過鍵盤和鼠標和信息進行交互;在移動互聯網時代,以App Store為代表的移動應用商店成為了流量入口,人類通過觸摸屏上的GUI來操縱App和信息進行交互;在即將到來的物聯網時代,人工智能會是流量入口,那么語音交互就成了極具競爭力的交互方式。
目前,在語音交互相關的領域已經出現了一批玩家和產品,國外的有Google Now、微軟的Cortana(小娜)、Facebook的Message Platform、蘋果的Siri、亞馬遜的Echo、Google Home的智能音箱,國內的科大訊飛、百度的智能機器人(度秘)、搜狗語音、微信的語音功能等,雖然這么多大牌玩家進入語音交互的領域,但由于技術和社會環境的限制,語音交互還處在起步階段,相關的語音交互技術還無法支持大規模的應用和推廣。
要想讓語音交互流行起來,必須合理解決以下幾點客觀的限制:
1、語音識別技術還處于起步階段。
語音識別技術,也被稱為自動語音識別Automatic Speech Recognition,(ASR),其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。語音識別的研究工作可以追溯到20世紀50年代AT&T貝爾實驗室的Audrey系統,它是第一個可以識別十個英文數字的語音識別系統。并且一些行業巨頭也都是在2010年左右才開始加大對語音技術的投入。各大巨頭各自為戰,語音識別領域里面還沒有形成統一的行業標準和應用生態。
2、使用場景有限。
語音識別技術對環境要求苛刻;在識別的準確率上受較多因素的影響,比如背景噪音、口音、語速、特定領域的專有名詞等都影響準確率。有一項這樣的測試,有人隨機截取了幾段網絡課程用主流的云端引擎測試識別準確度,基本上準確率在70%左右;然后又截取了一段新聞聯播的音頻,用同樣的云端引擎做測試,準確率達到了95%左右。由這個測試我們可以清楚的看到客觀因素對語音識別準確率的影響,要知道在這個行業5%的準確率就是可以引起行業變革的。目前的技術先限制導致語音交互體驗的機器感特別強,缺乏人性化的感知,沒有人喜歡跟呆板的機器一直做交流的。
3、語音交互是非可視化的,非常消耗用戶的注意力,增加記憶負擔。
人在與系統做交互的時候,能記住的信息也就10秒左右。舉一個常用的場景,有時候打銀行的客服電話,你必須集中精力聽語音播報,一旦被打斷就又得從頭聽一遍。
4、用戶習慣還未完全養成。
沒有人愿意對著冰冷的機器說話,然后得到毫無感情的甚至是錯誤的回應。用戶對語音交互對象的要求不但是可以聽懂,還應該能人性化的給以回應,人類更期望通過語音達到人人交互的感受,而不是人機交互,這也是為什么語音交互的普及很大程度上依賴于人工智能技術的發展。
語音交互將成為物聯網時代最流行也是最普遍的交互方式
但是,這些客觀條件的限制并不能阻擋語音交互成為物聯網時代最流行也是最普遍的交互方式。
1、語言的本質是進行信息的交流。
從人類進化的角度來看,語音是先于文字產生的,我們再來看一個現象,所有的嬰兒都是先學會了說話,然后才會學習寫字。視覺和觸覺的交互都需要硬件在可視范圍之內才能完成,而聲音的傳播路徑是球形的360度,可傳播范圍非常廣,而且獲取信息的方式門檻低。
2、語音交互的兩個關鍵點為語音識別和語義理解。
在語音識別方面,隨著智能終端的普及應用,我們已經獲取了大量的語音數據資料,再加上算法的優化,這為計算機的深度學習提供了大量的支持。這其實就跟人類學習語言是一個道理。首先,你的大腦要有學習認知的能力(相當于算法);同時,你還要掌握充分的詞匯量,接受足夠的聽力訓練(相當于語音數據),你才能聽懂一門語言(語音識別)。學習英語的時候通過大量的聽力練習強化我們的聽力也是同樣的道理;
語義理解依賴于神經網絡(ANN)的技術,本質上是一個自適應非線性動力學系統,將機器學習的方式模擬人類大腦的神經元,當處理的語言越來越多時,這種網絡就可以逐漸理解語言,實驗結果發現,這種技術可以使準確率提升25%以上。
3、任何新技術都會經過起步、發展、流行這樣的階段。
現階段最符合用戶習慣的交互方式是GUI,但GUI也是隨著智能手機的發展才逐漸流行起來。語音交互技術一旦解決了擬人化的問題,賦予聲音情感化,強化人人交互的體驗,就會進一步促進用戶習慣的養成。
4、語音交互有著其天然的用戶場景和用戶群體。
語音交互創造了全新的伴隨式場景,比如說早晨起床后我們可以一邊洗刷一遍聽廣播,晚上跑步的同時還可以聽音樂,語音交互解放了人的手和眼睛,通過語音交互我們可以做到一心二用,這極大的提高了我們在某些場景下的效率,語音交互充分抓住了人類不方便使用手和眼睛的場景。另外隨著智能設備影響的擴大,用戶群逐步向老齡人群、低齡人群、身體殘障人群滲透擴散的趨勢非常明顯,而對這些新進入人群而言,原有的觸控交互方式或許并不太適合,用戶習慣也未形成,例如老年人視力下降、手指也不夠靈活;低齡兒童還不能掌握手寫等能力也不適合長時間看電子屏幕;弱視/盲人更希望接受語音信息和發出語音指令,等等,因此語音交互也更適合拓展智能設備新的用戶人群。
語音交互將成為物聯網時代最有競爭力的入口。語音識別將使人機交互能夠以人類最熟悉的方式進行,語音識別技術一旦取得進一步的突破,這個行業就會迎來黃金時期,而且語音交互將凌駕于瀏覽器、APP等其他應用入口之上,形成一個以語音交互技術為核心的全新應用生態鏈,同時對人工智能產業的發展起到極大的促進作用。
可否想象么樣一個場景,在某個周日的早上,我們起床后,家里的智能音箱會自動給我們播報今天的天氣狀況,吃早餐的時候發現冰箱里的牛奶只剩最后一盒了,只需要說一句“再幫我訂購一箱牛奶”,快遞就會在約定好的時間送過來,說一句“幫我叫輛車”,一會車就到樓下等你了……
作者:有用先生,微信號:agoodesign,雜交設計師,產品狂熱分子,酷愛交互/界面/空間/品牌。
本文由 @有用先生 原創發布于人人都是產品經理。未經許可,禁止轉載。
怎么總感覺最近人人上的語音交互是個噱頭,好多使用場景想象起來,感覺自己像個逗逼,智能像個智障。
技術規范還需要發展,用戶習慣和場景還需要培養,但是未來的趨勢,因為語音在某些場景是最自然的方式,就像當年的智能機出現
感謝分享
感謝閱讀 ??
以我的普通話,很多時候,說長一點就會有錯誤的出現,
哈哈,我的普通話也是這樣,給新技術一點時間,未來語音技術一定會超出我們的期望