三次元維度下,語音交互如何更好的應用于有屏設備中?
市面上對人工智能技術以及語音交互的熱炒和當下以智能手機為主的有屏設備,對語音交互應用甚少的矛盾思考。文章只試探性的討論下在有屏設備中,如何更好的使用語音交互這一點。
交互,即交流互動,是很多互聯網平臺追求打造的一個功能狀態。觸覺、視覺、聽覺 ,這三種感知在早期的人機交互形式中已開始一起出現。在過去40年間,人機交互方式也在隨著技術的發展在不斷進化,從最初的單一交互方式到多種交互方式相結合,也是人和機器交流互動的一個演變史,更是機器發展的一個演變史。
機器也從被人類奴役的角色向與人類平權的歷史在不斷發展,就像《西部世界》中的機器人的覺醒以及怎么與人類共存的問題探討。在《西部世界》中我們可以看到:機器人和人類的語音對話就是很嫻熟的語音交互的方式,但在《西部世界》這個機器人開掛的影視作品中,依然能看到以點觸等手勢交互為主的智能有屏設備的廣泛使用。
從交互設計的角度來思考,不管導演是如何考量,但是語音交互技術的嫻熟一定不是為了取代其他交互方式,而是和其他交互方式多元共存。
次元這個名詞我們并不陌生,次元(Dimension)是指未知數的多重指數,更多表示的是維度或者獨立空間;在交互的維度中,我們也可以將交互分為不同的次元:
- 一次元交互:物理控件操作的交互方式,如鼠標鍵盤交互。
- 二次元交互:物理控件操作+觸屏手勢相結合的交互方式;觸屏交互方式大家應該很好理解,就好比你在手機上點來點去……在2011年前,市面上幾乎所有的智能有屏設備都屬于二次元交互方式范疇。
- 三次元交互:物理控件操作+觸屏手勢+語音相結合的交互方式,現在更多的稱之為多模態交互。在智能設備中應用語音交互方式可以說是三次元交互的誕生,這主要是得益于Apple公司在2011年發布的新機iPhone 4s,4s的發布帶來了一個全新的功能——Siri,只要你“hi~Siri”,你就可以通過語音命令讓iPhone為你服務了。
- 四次元交互:除了物理控件操作+觸屏手勢+語音相結合的交互方式外,再加上意念交互,當然這屬于未來很久遠的交互方式。那什么是意念交互?簡單舉個例子,比如:《X戰警》中的鳳凰女——琴·格蕾,她擁有讀取他人意識的精神感應能力,并可按照自己的意念進行控制任何事物,也可以同時讀取很多種意識,同時在另一種人格中可以利用精神控制能力使對手失去意識。
當下我們處于三次元交互階段,未來我們將會處于四次元交互階段,也可能將處于五次元或異次元的交互階段,但是這都不得我們現在妄自揣測。
那回歸正題,我們當下所在的三次元維度下的語音交互如何更好的應用于有屏設備中呢?
筆者對于這個問題的思考源于一個矛盾——市面上對人工智能技術以及語音交互的熱炒和當下以智能手機為主的有屏設備,對語音交互應用甚少的矛盾思考。
古人曰過,解鈴還須系鈴人,那我們先要剖析一下有屏設備,其使用者是誰?其有怎樣的使用場景?其使用時間?其主要的功能?
- 有屏設備的使用者——活著的人類
- 有屏設備的使用場景——地球為主,其他星球為輔
- 有屏設備的使用時間——不睡覺的時候
- 有屏設備的主要功能——裝!能裝載app
本文不討論語音交互的眾多難點,比如:發音要標準、環境要安靜、不能持續對話、不能打斷等,我們只試探性的討論下在有屏設備中,如何更好的使用語音交互這一點。
既然討論語音交互在有屏設備中的應用,就得先說下語音交互和信息交互的不同。
說到語音交互不得不說說科大訊飛這個號稱中國聲谷的人工智能公司的產品,有幸以前在科大訊飛實習過,實習部門是做機器人的。這個機器人最大的特點就是即主打語音交互,也是一個有屏顯的機器人,這也是保證用戶通過聽覺和視覺獲取信息的雙重保障。畢竟語音交互受場景局限很大,在嘈雜的環境下語音識別是極為困難的。
同時,在公共場合下使用語音交互會讓用戶有種失去“私密性”的不安全感。這個機器人專為b端的企業、法院、醫院、銀行等提供解決方案,目的就是為了替代那些重復低能的勞動力。
在科大訊飛這個優秀的AI公司實習,也讓我對人工智能和語音交互有了更直觀和更客觀的認識,個人認為當下人類所做出得人工智能產品還處于“人工智障”階段,但是也要感謝這些優秀的AI公司的努力,讓我們感受到人工智能的未來,人類要做到能和人類正常聊天的機器人真的還有很長的路要走。
實習時基本每天都要對著那臺有屏顯的機器人說話,最大的感受就是,語音交互并未和app信息交互和諧共存,語音交互依然還是依附于app的信息交互方式所生存,app信息交互中是很講流程性的,比如:你要在微信中綁定銀行卡,首先你要打開微信首頁??我??錢包??銀行卡??添加銀行卡,你要用語音交互需要幾步就能達到任務目標呢?
理論上應該是兩步,你說:“幫我【打開微信】我要【綁定(添加)銀行卡】”,以此對應的有屏設備界面應該跳轉兩下即可。但是,很多智能有屏AI產品依然依附信息交互的流程性,依然沒有擺脫“返回”這一道程序。
語音交互所發出的命令信息必須命中屏幕界面所給出的信息,如果你在【添加銀行卡】頁面,發出到【朋友圈】,那對不起,識別不了。
由此可見,語音交互和信息交互兩大特點:
(1)信息交互特點:線型流程性
總結:從A到B必須有遵循線型的流程,在app中的體現就是一張張頁面的跳轉,并且不分iOS還是android系統,所有界面左上角都少不了返回/取消/關閉,這是確保你原路退回的保障。
(2)語音交互特點:點狀跳躍性
總結:從A到B只是兩點一線的距離,點狀跳躍性就很符合語音交互的場景,最極致的語音交互場景就是人和人聊天的場景,兩人可以從詩詞歌賦突然跳躍性的聊到人生理想,接著你也可以直接跳躍性的去聊明星八卦,只要一個人發起任何聊天內容對方就會給予相應的回應。
那語音交互如何更好的應用于有屏設備中?
求同存異,語音交互和信息交互的最終目的都是一樣的,但是使用方式卻有所不同,解決語音交互如何更好的應用于有屏設備中的方法其實也很多:
- 根據不同場景切換兩者的主導權,在語音交互場景下就優先遵循語音交互特點與規則。
- 使用“插入法”,在特定的app頁面中局部插入語音交互。
- 建立通用規則,就像iOS中的手勢交互屏幕右滑即是“返回上一級”,語音交互也可建立這樣的通用規則。
- 點名法,這就需要攻克技術難題,打破信息交互中的層級關系和流程性,將所有功能點平鋪,當你通過語音命令,點到誰的“名字”誰就向前一步。
只有讓用戶感受到語音交互“兩點一線”的快速與便捷,才能讓更多用戶所接受,不然,語音交互就只能存活于特定的視力障礙人群中或特定的使用場景下…
本文只是試探性討論,歡迎大家交流討論~
本文由 @黑斑馬與白斑馬的斑 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自 Pixabay,基于 CC0 協議
非常贊同作者“綁定銀行卡”的舉例。語音輸入要跨越繁瑣的步驟,實現點對點的及時對接,減少用戶的不必要的輸入,盡可能減少用戶在繁瑣的步驟禮掙扎。
握手??~多么痛的領悟啊
語音交互應用甚少,難點并不在于交互層面(也就是筆者描述的幾個交互解決方案),更多是因為未找到 價值=新體驗-舊體驗-替換成本 >0 的需求點;
您說的是一個點,語音交互的應用是很少的,但個人覺的語音交互現階段最大的價值是視力障礙等特殊人群,然而這可能對企業來說回報率比較低,所以很少有人深入去做吧,同時對于有屏設備來說的話是軟件+硬件的一個綜合體了,也不能單拿應用來說~
ps:語音交互在殘障人群中是有很大價值的,國內對于無障礙設計考量太少了,據某些數據顯示國內的殘障人數是很龐大的
方法是感覺OK的,但是還是沒能更深入~
謝謝,還是缺少實操經驗,這也是當時的一些感想??