關(guān)于智能音箱,你知道的都是錯(cuò)的(一)
本文主要從產(chǎn)品經(jīng)理的角度出發(fā),聊一聊你“所了解”的智能音箱,希望能帶給你新的思考。
互聯(lián)網(wǎng)創(chuàng)業(yè)最流行的一句話就是:站在風(fēng)口上,豬也能飛起來。
所以尋找風(fēng)口,是大大小小的公司都不輕易放棄的事情。最近火熱的智能音箱便是“人工智能”風(fēng)口下的產(chǎn)物。
有趣的是,雖有美國(guó)亞馬遜的echo出貨量超過700萬臺(tái)的案例在前,但智能音箱這頭“豬”在中國(guó)的起飛卻磕磕碰碰,格外笨重。
現(xiàn)在,隨著中國(guó)的智能音箱的產(chǎn)品越來越多,叮咚音箱、小雅AI音箱、天貓精靈X1、小米AI音箱等——風(fēng)口,好像起風(fēng)了?
對(duì)此,筆者有以下一些思考,讓我們一步一步來分析。
一、智能音箱是人工智能嗎?
智能音箱的核心是語音技術(shù),而語音技術(shù)涉及到大數(shù)據(jù)分析、深度神經(jīng)網(wǎng)絡(luò)等,本身屬于人工智能技術(shù)的一種。所以說智能音箱是人工智能技術(shù)的產(chǎn)物并不為過。
但是,這也給了很多消費(fèi)者誤解,認(rèn)為智能音箱就是人工智能。嚴(yán)謹(jǐn)?shù)卣f,這個(gè)差別還是很大的。
如果大家有體驗(yàn)過任意一款智能音箱,可以發(fā)現(xiàn)它在語言的邏輯理解上存在著根本的缺陷。這是因?yàn)檎麄€(gè)語音交互背后的自然語言理解,依然是傳統(tǒng)的關(guān)鍵詞人工匹配為主。
所以,智能音箱目前只是語音合成、語音識(shí)別等人工智能技術(shù)綜合應(yīng)用的產(chǎn)品,但本身不是人工智能。
二、它的市場(chǎng)容量
對(duì)于為什么智能音箱在歐美大賣,在中國(guó)卻一直火不起來的原因分析有很多。
但作者提供這么一個(gè)角度——智能音箱的市場(chǎng)容量,本身是音箱市場(chǎng)容量的一個(gè)延伸。并且這個(gè)音箱市場(chǎng),還得排除掉和電視匹配的家用客廳音箱。
為什么說智能音箱市場(chǎng)容量脫離不了音箱本身?
用戶買智能音箱,可以大體分為2類。
- 本身有購(gòu)買音箱需求,買一個(gè)具備語音助手的音箱是個(gè)不錯(cuò)的選擇
- 本身對(duì)音箱需求不強(qiáng)烈,體驗(yàn)語音助手在購(gòu)買決策中起到很大的作用。
對(duì)于第二類用戶,數(shù)量其實(shí)是非常有限的。從用戶畫像上看,第二類用戶對(duì)互聯(lián)網(wǎng)關(guān)注度也高??墒悄壳爸悄芤粝浔容^糟糕的用戶體驗(yàn)和不完整的生態(tài),還不能觸碰到他們的G點(diǎn)。
所以智能音箱的絕大部分銷量,離不開本身對(duì)購(gòu)買音箱有需求的消費(fèi)者。
這從國(guó)外的echo用戶交互數(shù)據(jù)上也可看出,播放音樂依然是占比最大的用戶行為,像問天氣、閑聊反倒是低頻次的行為,用戶基本嘗嘗鮮,沒了新鮮感,這類行為頻率就降到很低了。
(echo用戶使用習(xí)慣)
有趣的是,大部分中國(guó)人還是更喜歡佩戴耳機(jī)聽音樂。它的原因包括了中國(guó)人內(nèi)斂的性格、較小的房屋居住面積等。所以中國(guó)的智能音箱市場(chǎng)容量,是沒辦法和歐美相比的。
三、它是什么入口?
如果以電影《her》里的人工智能技術(shù),語音助手可以是所有東西的“入口”。
但顯然,今天我們要討論的,是目前技術(shù)水平前提下,智能音箱究竟是什么的“入口”?
以目前發(fā)布的音箱分析,喜馬拉雅FM的小雅AI音箱核心是音頻內(nèi)容、小米AI音箱的布局是物聯(lián)網(wǎng)硬件生態(tài)、天貓精靈X1甚至在嘗試把它用于購(gòu)物平臺(tái)入口。
大體可以發(fā)現(xiàn),比較明顯的入口是智能家居、音頻內(nèi)容,搜索、購(gòu)物、服務(wù)、甚至社交等。
但作者認(rèn)為,目前的值得關(guān)注的入口只有2個(gè):智能家居和音頻內(nèi)容。在“百箱大戰(zhàn)”中真正起到核心競(jìng)爭(zhēng)力的,也只有這2個(gè)。
理由很簡(jiǎn)單,由于目前語音助手不像個(gè)“伴侶”,回答過于機(jī)械化,用戶對(duì)它的溝通是不存在“耐心”這一說的。
所有產(chǎn)生的語音交互,必須簡(jiǎn)短、清楚。
而搜索、購(gòu)物、服務(wù)、社交等功能,它們共同存在的問題是:
- 語音回答的篇幅過長(zhǎng)
- 問題解決的步驟過多
這2個(gè)問題對(duì)用戶體驗(yàn)是毀滅性的打擊,沒人可以讓智能音箱的交互回答時(shí)間超過20秒鐘。用戶必然會(huì)通過手機(jī)、電腦替代。
所以短時(shí)間內(nèi),凡是出現(xiàn)這2個(gè)體驗(yàn)黑洞的入口,都不會(huì)有什么起色。
智能家居入口就避免了這2個(gè)問題,以目前的語音技術(shù),可以對(duì)控制類交互做到非常好的體驗(yàn)效果,并且智能家居的交互反饋,是非常及時(shí)有效的。
音頻內(nèi)容入口方面,語音搜索具備不可或缺的優(yōu)勢(shì),用戶得到的音頻,本身是結(jié)果,不是過程。所以也就避免了這2個(gè)問題。(這和前面所說的搜索入口有所不同,因?yàn)椴シ诺囊纛l是獨(dú)立的,不屬于語音交互范疇)
此時(shí),可能有人會(huì)質(zhì)疑,語音助手在詢問時(shí)間、天氣等服務(wù)上的表現(xiàn)很不錯(cuò),并不存在這兩個(gè)問題。
這里做個(gè)解釋:
詢問時(shí)間、天氣這些是基礎(chǔ)服務(wù),是沒有入口屬性的,作者這里指的“服務(wù)”是具備入口屬性的服務(wù)平臺(tái),比如:滴滴打車。
四、智能音箱需要屏幕嗎?
這個(gè)問題其實(shí)是上一個(gè)問題帶來的。
由于語音助手本身接受信息和反饋信息的能力是受限的。在目前的語音技術(shù)下,一旦智能音箱的布局超出了智能家居、音頻內(nèi)容2個(gè)入口,是必然要加屏幕的,否則用戶體驗(yàn)上不去。
那為什么不加個(gè)屏幕呢?其實(shí)還是回到智能音箱本身,它有2個(gè)特點(diǎn)
- 體積小巧
- 不便攜
這兩個(gè)特點(diǎn)很有意思,因?yàn)橹灰哑渲幸粋€(gè)改成相反的,都可以成為加上屏幕很好的條件。但這2個(gè)特點(diǎn)在一起后,屏幕的效率就小得多了。
智能音箱最重要的功能特性是遠(yuǎn)場(chǎng)拾音,這能解放雙手,讓用戶更加自由。但智能音箱加上屏幕之后,用戶對(duì)它的操作距離一下又回到了手機(jī)的操作距離,那么用戶為什么不直接用手機(jī)呢?
所以,作者是不贊同在智能音箱上加屏幕的。
那怎么解決目前受限的用戶體驗(yàn)?zāi)??或者我們可以換個(gè)方向,屏幕需要加,但屏幕的載體不再是音箱本身——這或許有更多的想象力。
五、音箱是語音助手最好的載體嗎?
echo的出現(xiàn),讓大家發(fā)現(xiàn),音箱似乎是人工智能時(shí)代被選中的天之子,甚至不少人做出這樣的結(jié)論:音箱是人工智能時(shí)代最合適的載體。
當(dāng)然,說人工智能太泛。我們往小點(diǎn)說:音箱是語音助手最好的載體嗎?
語音助手的交互方式是對(duì)人來說最自然的語音,這也決定了聲音在交互過程起到的比重前所未有的提升。
由于音箱和播放聲音有著極其緊密的關(guān)系,自然成為所有設(shè)備中的首選,從目前的狀態(tài)來看,這種選擇也是正確的。
但實(shí)際上,以音箱作為載體,最大的問題在于它和“生命”無關(guān)。
我一直堅(jiān)信,語音助手最好的載體是要有“活著”的感覺,這種感覺甚至可以用“跳動(dòng)的線條”來展示。
比如,一顆會(huì)凋謝、會(huì)綻開的機(jī)械花都會(huì)比音箱更適合作為語音助手的載體。
目前作者認(rèn)為這方面做得最好的是“若琪”的外星人。
(若琪·外星人)
所以選擇音箱作為載體,是因?yàn)榧夹g(shù)所限,是人類目前缺乏其他選擇下的一個(gè)妥協(xié)。
作者:林學(xué)仕,科大訊飛 產(chǎn)品經(jīng)理,歡迎交流。
本文由 @林學(xué)仕 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自u(píng)nsplash,基于CC0協(xié)議
贊同作者提出的語音助手的載體要有“活著”的感覺。和語音助手對(duì)話,給出的回復(fù)內(nèi)容以及語氣語調(diào)更接近和真實(shí)的人交流的感覺是最理想的狀態(tài),這也是一種“活著”的感覺,而這種感覺還可以從其他方面去體現(xiàn),這個(gè)需要再去探索實(shí)現(xiàn)。
感覺智能音箱主要是作為入口去控制其他設(shè)備,就像一個(gè)橋梁,聯(lián)通用戶和其他設(shè)備,讓之間的復(fù)雜操作變成簡(jiǎn)單的語音控制操作,達(dá)到解放雙手的目的
其“音箱”的功能感覺沒怎么體現(xiàn)出來,音質(zhì)一般般,真要聽歌還需要連接一個(gè)優(yōu)質(zhì)音箱
如果屏幕是給交互反饋呢?而且目前語音交互有一個(gè)問題,當(dāng)音箱要念的東西太多太長(zhǎng)的時(shí)候,傳送到屏幕快速瀏覽可能是以后的另一個(gè)需求。
是的,文中有提到以現(xiàn)在的語音技術(shù),加屏幕是必要的,否則用戶體驗(yàn)上不去。但音箱不應(yīng)該是屏幕的載體,因?yàn)樗暮诵氖沁h(yuǎn)場(chǎng)拾音,讓用戶去近距離去閱讀它、點(diǎn)擊它是一件本末倒置的事情。所以屏幕是脫離音箱存在的,就像你所說的,傳送到屏幕,那這個(gè)屏幕的載體是什么,就值得想象了。
這里順便解釋下文章第五點(diǎn),因?yàn)?若琪·外星人 的圖片會(huì)給讀者誤解,這不就是有屏幕嗎?實(shí)際上,文中想表達(dá)的觀點(diǎn)是,這個(gè)屏幕是告訴用戶,這個(gè)產(chǎn)品是有“活著”的感覺的,僅此而已,而不是去輸出文字或圖片等內(nèi)容。
對(duì),當(dāng)那個(gè)屏幕不再只是電子元件屏幕,起碼是家里任何能接受投影的地方,才比較滿足到使用愿景啊
極其贊同,承載交互反饋的屏幕不應(yīng)該是固化在音箱上的一塊屏,它可以是任何事物的屏,電視機(jī)的、投影儀的;或者是任何隨著人的的移動(dòng)對(duì)應(yīng)空間內(nèi)的顯示~