為什么語音交互有個心理學問題
語音交互一只被認為是取代鍵盤交互的新方式,可是要走入尋常百姓家,還是差一點。
如今,Apple有Siri,Google有Google Now,Microsoft有Cortana,Amazon有Echo;國內大小互聯網公司諸如百度、科大訊飛、出門問問也都有自己的語音服務。語音控制不僅應用在手機屏幕,還同樣用于以下各種使用場景:客廳家居、智能手表、車載系統、PC電腦?;谡Z音的交互方式似乎已經到了爆發的前夜,只差那么一點兒,就可以成為下一個鼠標鍵盤式的新交互方式,走入尋常百姓家。
但畢竟還是差了那么一點兒。即便語音控制已經成為當今智能手機的標配,又有多少人會利用語音向手機發出指令呢?少之又少。很大一個原因——正如羅永浩所說——是因為語音交互面臨著用戶的心理障礙。
羅永浩解釋的第一個原因,是人們無法容忍一個沒有達到智能水平的設備跟他耍聰明:
從人的正常角度來講,如果一個軟件在你面前裝聰明,你會想要去戳穿他,于是他馬上就被戳穿了。
第二個原因,是在他人面前使用語音交互的尷尬。
當你使用語音軟件時,別人會怎樣看你?
在我看來,這兩個原因其實說的是一個問題:智能語音不夠智能。
語言是種非常自然的交流方式,它的特性決定了人們一直以來對語言交流的期待。尤其是面對面溝通時,我們渴望立即獲得回應,并且最好也是聲音反饋。因為語言本身是多變而復雜的,理解自然語言也就需要更高的智力。我們期待的是和具有相應智力水平的個體進行對話。
這樣看來,當下的語音交互存在三個主要問題,它們像是橫亙在人們面前的屏障,阻礙人們自然地使用語音來控制設備。這三個問題可以概括為,現今的智能語音不夠智能,而人們總是習慣和理解自己話語的人進行自然的語言對話。
問題1:智能語音并不能真正理解人的語言,它不具備人類的智力。
現在的智能語音停留在對關鍵詞的內容識別和上下文分析,而機器是沒有“語感”的,也不懂得什么語法。這樣一來,以人類智力來理解,機器就顯得很蠢,而試圖和它溝通交流的行為也就顯得很蠢。類似的行為其實也適用于文字交流,一旦對話的情境被建立起來,人們就希望對話者的智力水平足以和自己相當。
現實生活中,也存在著和智力水平不達標的事物進行語言交流的現象,比如和幼童說話、對寵物說話,甚至是對花草樹木說話。但這種情況下,人們是不期待獲得回應的,低預期也就降低了回應失敗的尷尬。
但是智能語音往往被塑造為成年人形象(通過音色設定來塑造形象),讓語音交互變得普及也需要建立起用戶的預期。而智力水平確實是語音交互最大的短板。
問題2:當人們用語言進行交流的時候,通常希望立即獲得回應。
與文字書信不同,語言交流在過去往往是面對面,所以交流是即時完成。即便有了電話之后,語言交流仍然保持著即時性。
有兩種形式的語音交流打破了這種即時性:對講機和即時通訊應用。在這兩種場景下,對話者的語言是“互斥”的,不會出現聲音的重疊和打斷,因此對話者也就沒有被置于一個共通的虛擬空間中。它所造成的結果,是這兩種形式的語音交流無法提供面對面或電話交流時的暢快感和現場感,也就缺少一部分“對話”的體驗。
與之同理,語音交互因為互斥性的特點,很難被當作是和機器對話。所以Siri式的仿自然語言交流也會缺少對話的現場感。
問題3:語言交流的即時性還有一個結果,就是人們期望對聲音的反饋也是聲音。
語言溝通是快節奏且高效的,文字表達則有一定的延遲。當一個人處在即時狀態下的高效表達時,對方以慢速的文字作為回應會讓溝通現場顯得不協調。這也是為什么語音交互一定要配以聲音反饋,哪怕是你對Siri說“給老爸打電話”,在它完成這一指令之前,也一定要回應一句:“正在撥打父親的電話”。
但問題在于,語音合成的技術實力還沒有達到人們的期待。生硬的、機器化的聲音表達,無時無刻不在提醒著這個對話者是“非我族類”,語音合成的生硬效果也在阻礙著人們將機器視為同等智力水平的個體。(你也許會想到電影《星際穿越》中的機器人Tars,生硬的合成語音效果正是為了突出它的機器身份。)
當下的智能語音產品中,比較討巧的辦法是先不追求語言溝通的現場感,而將語音作為對機器進行發號施令的一種替代性方式。面對語音識別的設備,人們說出“撥打XX的電話”這樣的語音指令,要比說“你幫我打個電話給XX吧”這樣的交流方式,少一分尷尬。也正是將語音交互的預期降低,才能讓一些喜歡嘗鮮的極客們放下心理芥蒂,對機器說出指令。
但如果走在大街上,周圍都是同行的路人,你會對著iPhone大聲說“閱讀我剛剛收到的短信”嗎?顯然不會。因為語言溝通的特性,導致大眾對語音交互的期待其實是很難被降低的。
那么語音交互倘若想達到電影《Her》中以假亂真的狀態,得先解決好以上三個問題才行。
作者:@醬鹵
來源:簡書
這樣看,語音交互方式要普及還很遙遠
一陣見血!