為什么國內的智能音箱話題雖熱,卻產生不了百萬級的爆品?

2 評論 10116 瀏覽 27 收藏 28 分鐘

本文作者嘗試著從技術瓶頸、用戶心理、銷售渠道等不同角度來解釋國內的智能音箱話題雖熱,但產生不了百萬級的爆品的原因,也暢想一下智能音箱的未來。

這篇文章本來農歷年就打算寫完,發出來,但是幾個月內,智能音箱一下子成為了各大公司的聚焦點,感覺再不寫,這個話題都過時了,可嘆變化太快。

筆者曾在2015年和team艱苦奮戰,致力打造中國版的echo,完成產品后由于公司戰略調整,方案擱置,但是回頭看來,當時的音箱方案哪怕放在現在,從識別的準確率到人機交互的流暢性來看都是具備競爭力的。

也是從那個時候對智能音箱產生了不可割舍的情愫。兩年過去了,智能音箱攜AI大熱的風潮席卷而來,不下幾十個廠商要把這片藍海催成血海,但是成功的經驗一般都是不可復制的,天時地利人和缺一不可,筆者嘗試著從技術瓶頸、用戶心理、銷售渠道等不同角度來解釋為什么國內的智能音箱話題雖熱,但卻產生不了百萬級的爆品的原因,也暢想一下智能音箱的未來。

一、國情問題

“橘生淮南則為橘 生于淮北則為枳 ”,這句話是我在Echo美國大火,國內廠商紛紛殺入音箱市場后,腦子里經常閃現的一句話,所以我一直想從兩國國情不同的層面去解釋,為什么國內的智能音箱總是不溫不火。

科技類產品,兩類會大火:

  1. 產品從無到有,解決了普遍的剛需問題,如:馬車→ 汽車、寫信→電話…
  2. 產品在已有的龐大市場里進行技術革新、更新換代:汽車→特斯拉、功能手機→iPhone……

所以,Echo在美國的火爆應該屬于第二者,說明在北美以及歐洲市場里,音箱應該是一個龐大存量市場,從發達國家對付費音樂的購買力就能管窺蠡測,而且街頭文化,party文化的盛行,為了嗨起來,讓音箱有了大量的使用場景。Echo在存量市場里進行智能化,誘使用戶為產品更新買單,這是非常合理的商業化方式,就像我們一直在追逐新款的手機一樣。

反觀國內市場,居家必備的電視毋庸置疑成為了智能化最普遍的設備,而音箱并不是一個大的品類,我們沒有那么大的房間,需要嗨音量、音樂鑒賞力的不足,使用戶并沒有動力去購買高品質的音箱,大部分時候還是靠手機公放來解決問題。

這時候智能音箱面對的用戶群就縮的很窄了,大致分為兩類人:

  1. 智能硬件愛好者
  2. 音箱類產品的升級換代

可想而知在這兩類人群中想要獲取巨大的銷售量是很難得,所以說國情問題是制約國產Echo們大麥的一個先決條件。

上面所說的都是在理性消費中用戶會做出的選擇,但我們都有因為沖動而為產品買單的經歷,其中產品的顏值就是影響用戶購買產品決策的重要一環。下面我們說說國產Echo們的顏值問題。

二、顏值問題

對智能硬件我更是認為是一個442的組合,顏值也就是工業設計和產品設計要占到百分之四十,這部分滿足用戶的沖動消費或者審美特性;產品的性能占比百分之四十,智能化占比百分之二十,在滿足硬件功能本身加入智能化才是培養用戶使用習慣階段的AI思路。

下面對比一下國內廠商和Echo外觀的區別:

  • Echo整體呈圓柱體,長寬比例給人以非常修長的感覺,像一個纖瘦的姑娘,亭亭玉立;
  • 黑色給人以金屬質感,科技范兒十足,滿足了裝B的特性;
  • 一半透孔的設計,很有層次感,不會讓人滿身都是喇叭的感覺;
  • 頂部的燈帶顏色多變、艷麗,指導性和美感兼具;
  • …..

這樣一個顏值一流的音箱,哪怕只作為擺設陳設在家中,也會給家中增強科技感,何況他還能播放音樂呢?這就給在意顏值的沖動消費者提供了購買動機。

再回頭看看國內的智能音箱……一聲呵呵以后,我就不評價了,公道自在人心。

前面所說的都是影響產品的一些外界因素,但是如果產品真的特別好用,產生了剛需黏性,那其實也是不必考慮的,那國產的Echo們在決絕用戶真實場景下是否表現優良呢?

三、先解決一個核心問題再說

貌似不是的,進入AI時代,廠商們就忘記了互聯網成功的奧義,起碼要要垂直把剛需場景做深,解決一些核心問題之后,再橫向把功能做廣做全,但是現在廠商往往宣傳的時候,都是“我有100個功能”,“我有200個功能”,“選我選我”,殊不知連核心的音樂、操控、有聲音頻的功能都做不好,添一堆沒有用的附加功能又有何用?

拿閑聊這個功能舉例,如果NLU層面的Intent Classifier做的不好,就會頻繁的將功能觸發丟到閑聊里作為兜底,這樣就會出一些吐血的回復,比如用戶表述“李宗盛的曲子來聽聽”,這時候給你回復一個“林憶蓮不錯,為啥他們要分開呢”,你作何感想……分分鐘砸掉音箱。

反觀Echo,在音樂場景下3年前的搜索維度就已經秒殺眾多國內廠商了,而且在剛開始做的時候,技能也不多,基本不和你扯閑聊,碰到不會的問題,都是“I can not understand”,這樣既降低了用戶的預期,減少了犯錯的幾率,更能讓用戶聚焦核心功能,而不是幾個回合,用各種各樣的功能把它玩兒壞了。

目前國產音箱們依然停留在指令式的要啥給啥的階段,無非是按照技術思維,在語義層面增加各種搜索維度罷了,基本停留在3年前的助手水準(來首搖滾樂、聽周杰倫的歌、更變態的還有方文山作詞的歌曲,這也是醉了),反而沒有解決一些核心的聽歌體驗,比如:音樂和有聲書的資源名稱重合,一字歌兩字歌的區分,什么時候歌名或者歌手名直接觸發音樂。就更別提用戶畫像到個性化推薦,人類基本常識到空間與時間的結合,壓根沒有深挖。筆者碰到的音箱基本都會在深夜,突然播放一首重金屬搖滾樂,把自己嚇得半死;要么是隨意點歌,點不到自己喜歡的調調,這樣的音箱…

我還是調成藍牙模式吧!

音箱作為非必需品,想改變用戶的交互形態,就要讓用戶獲取內容足夠便捷、成功率高、失敗成本低,所以無論是音箱廠商,還是AI技術廠商,都必須將思路進行升級,從“所說即所得”,變成“聽懂畫外音,所想既所得”,這樣才能說AI升級了,變得更加有靈性。但智能硬件不同于傳統的APP,尤其是智能音箱,光是想在任何場景下都能喚醒,就已經很不容易了,這就需要硬件和軟件進行融合,下面我們就說說軟硬結合的重要性。

四、軟硬結合、體驗為王

智能音箱并不是新鮮物種,可語音交互的智能音箱早在2014前后就已經問世,比如小智音箱以及訊飛X1,只不過當時的交互技術以及麥克風陣列方案并不成熟,并沒有達到回升消除以及聲源定位,也無法達到基本的handfree。

所以從全局來看智能音箱,并不能簡單理解為傳統音箱+語音交互技術,它是集麥克風陣列技術、信號處理技術、語音交互技術、定制化的流媒體服務等多種技術和服務的組合,中間有一個環節產生偏差,就會導致最后的效果大打折扣。

這其中麥克風陣列尤其重要,以下是麥克風陣列的功能:

在圖上看著可能有點晦澀,說白了,麥克風陣列主要解決的就是:

  1. 在有外界聲音干擾的情況下,如何盡可能真實的還原說話人下達的指令,并發送給語音識別引擎,最終達成說話人的任務
  2. 多角度識別問題

有幾個場景可以充分說明這個問題:

  1. 播放打斷:即音樂播放過程中,你想喚醒智能音箱
  2. 雞尾酒會問題:幾個朋友一起吹牛X,或者有其他聲音播放,音箱在中間,有人像智能音箱發送指令,這時候該聽誰的?
  3. 混響問題:在家里說話,聲音通過各種墻面和障礙物反射后,如果直接進入識別引擎,這樣與無混響模式下訓練的引擎,在編解碼上是不一致的,就像我們玩的傳話游戲一樣,到最后得到的結果和初始含義,基本是不相同的。

所以針對這幾個場景,必須使用麥克風陣列的幾個核心技術來解決,那就是回聲消除、聲源定位、波束形成。

簡單地說,回聲消除就是將麥克風陣列拾音時,是可以得到播放聲音+人聲的,而播放聲音作為一路信號傳遞給音箱,這時候做減法,就可以得到人聲,從而實現播放打斷,然后發送指令的功效,當然只是簡單的描述,因為打斷的效果需要將麥克風陣列和識別引擎一起優化,通過精準的測試數據調整麥克風陣列的模式和參數,想達到穩定且準確是一件很不容易的事情。

聲源定位和波束形成可以理解為麥克風陣列只針對某個麥克風的角度進行拾音,從而增大某一說話人角度,抑制或者屏蔽其他角度的聲音,從而達到還原真實說話人的目的。

說了這么多,麥克風陣列這么無敵,那該怎么使用呢?這就要提一下麥克風陣列的開孔和音箱墻體的設計了,大家一定很好奇,為什么現在的音箱都是一個圓圓的筒子,貌似都長一個樣,只是弧度和大小有差別,這就和麥克風陣列的特性有關系,導致目前做成這個形狀是最好的。

  • 理論上講,D_MS 越大 , 遠講距離(音源與麥克的距離)就可以支持的越大
  • D_MS增大一倍,那么人說話的有效距離就相應增大一倍(一定范圍內)

所以說智能音箱在設計時,絕不是簡單的模塊堆疊,想要達到良好的體驗,必須有很好的硬件ID設計、工業設計以及良好的軟件交互體驗,這樣才能達到用戶的預期,如果你連打斷喚醒這最開始的一步都做不好,那么后面有再花哨的服務和交互也是徒勞無功的。

而嘗試便所有的音箱,在喚醒打斷等方面,echo的確做的是最好的。

熟悉VUI交互的同學肯定知道,喚醒之后就需要ASR+NLU對用戶表述的話進行語音到文字到意圖的轉換了,這里面的坑又在哪里呢?下面我們也簡單的聊聊。

五、語音、語義與場景的結合

Echo為了做智能音箱收購大量的AI團隊,將核心技術都綁在了自己身上,從而融會貫通,讓Echo擁有了良好的語音交互體驗,而很多音箱廠商,都會選擇將ASR和NLU拆分開,選擇不同AI公司的技術,然后拼成一個交互方案。除非深度綁定,否則這樣的做法必然造成體驗上的缺失,原因有以下幾點:

1、語義糾錯

家居場景下受混響、回聲、噪音的干擾,識別結果的錯誤是必然的,這就要求后端的NLU引擎能理解錯字中的語義,比如通過非監督學習,標注錯別字和正確字的關系,通過語音識別的n-best輸出,確定語義理解的閾值等。如果是一家公司,這些事情做起來沒有壁壘,但是如果是兩家公司呢?語音識別廠商不會輸出那么多參數給你,而語義廠商也不會針對一個項目做這么多定制,最后導致產品不倫不類。

2、眾多功能的優先級

現在的智能設備基本都是堆功能,別管用不用,以多取勝,但是不同的設備其實在功能的優先級上都是不同的,比如不考慮上下文的時候,同樣說周杰倫,在音箱上是要聽歌、在電視上是要看電影、在聊天里可能是百科,都是不一樣的,如果采用通用的方案,這些功能只能是混亂的提供給用戶,而正確的做法是要分設備和場景提供功能,進行功能深挖,考慮到用戶使用時的訴求,這點上AI交互的設計和APP的交互設計,還差的挺遠。

3、熱詞更新

互聯網上每天都會產生大量的新詞、熱詞,比如新的歌手,新的專輯,新的歌曲,這些詞必須同步更新到ASR的語言模型和NLU的詞典里,才能達到識別并理解的效果。想象一下,如果兩者有一個沒有更新,就會任務無法達成。

4、一些小花招

中英文混合識別,一直是音箱產品的痛點,一來引擎不知道何時切換中英文,二來中英文混合的數據量較小,難以訓練處較好的模型(需求不大),所以圈子內的投機做法就是找一些Top英文歌手和歌曲,然后讓通過中文引擎試驗跑出來的中文識別引擎是什么字,之后識別結果一旦出現這些詞,就mapping到英文詞上,比如“我想聽Justin Bieber的歌”,這句話到中文引擎會變成“我想聽扎絲廳碧波爾的歌”,語言模型或者NLU中存著“扎絲廳碧波爾 = Justin Bieber” 這樣的mapping關系,這樣就可以不訓練英文引擎的情況下,正確識別歌曲了

5、產品迭代的靈活性

說了這么多理由,還是因為如果自己沒技術,指望眾多廠商因為你一個項目做定制化,或者快速響應還是會慢,而且語音交互的產品和其他硬件產品還不一樣,硬件產品某一個模塊弱一點起碼還能work,不影響體驗,難以想象,智能音箱無法喚醒、無法識別、無法理解、沒有內容,還怎么活。

雖然有很好的VUI交互了,但作為智能音箱,畢竟它是一個以流媒體點播為依托的內容載體,沒有海量的內容作為支撐的話,也就脫離了用戶真實的使用場景,但恰恰尷尬的就是流媒體內容都掌握在了少數巨頭手里,該怎么進行整合呢?

六、內容和渠道的整合

流媒體內容之于智能音箱,就像子彈之于手槍一樣,全語音交互、豐富的點播維度目的都是為了找到用戶想聽的內容,Echo擁有自己運營的Prime Music,而國內的智能音箱廠商呢?看看國內的音樂市場,海洋音樂的酷狗酷我被QQ音樂收編,顯然QQ音樂成為了國內的壟斷巨頭,而QQ音樂資源的授權難度大之又大,其他的零零散散的,蝦米音樂、百度音樂、網易云,內容和資源都不夠全面,沒法兒滿足用戶在音樂層面多樣性的需求。

不僅內容層面,從用戶獲取上來說,國內的智能音箱玩家也面臨著這尷尬,那就是技術廠商沒有用戶(比如訊飛、云知聲、思必馳),自己做產品,沒有銷售渠道,沒有用戶基礎,肯定撲街。而有用戶的互聯網廠商或者渠道商呢?他們是沒有技術的,這樣的切合點使技術廠商基本都會綁定有渠道有用戶的廠商,比如訊飛+京東,喜馬拉雅+獵戶星空,但是這樣的組合只能算是抱團取暖,遠達不到顛覆產業的效果,原因就是用戶量和渠道量還不夠大,無法和Amazon的體量進行比較,講到這里不得不佩服Amazon的布局能力,總是能先于產業一步,把持住上下游(硬件、算法、軟件、內容、渠道),讓自己長期處于領先優勢。

說了這么多,喚醒+識別+語義+內容都搞定了,體驗都這么好了,用戶還是不買,為什么?那回過頭來,可能需要想一下是不是在用戶心智定位中對智能音箱廠商產生了不信任感,導致在興趣->咨詢->購買->分享,這一個經典的消費流程中斷了擋。

七、如何贏得消費者的信任

定位之父特勞特去世不久,從他老人家的理論中可以看得出國內音箱廠商在消費者中的地位。

亞馬遜在消費者心中是一家科技公司,從Kindle到FirePhone到Echo,從無人機到無人倉儲到無人商店,這些表現都深深的在我心智中加持著亞馬遜這家公司在科技領域的地位,Amazon = 科技,有時我甚至忽略了它也做電子商務,一家科技公司做音箱,對于消費者來說,這是靠譜的,從心智里不抗拒的。

而看看國內的這些音箱廠商呢?叮咚音箱可以聯想到的品牌是京東、訊飛、玲瓏科技……京東的品牌知名度倒是很高,目前的心智定位對于消費者來說,還是電子商務,訊飛的品牌知名度在消費者層面無感,玲瓏科技就更加沒有印象了,所以對于消費者來說,一個本來賣貨的品牌,做高科技的智能音箱了,消費者心智中存在差異,對品牌不認可,也是理所當然的。

定位理論在消費電子市場是非常值得廠商思考的。因為不同于移動互聯網APP,用戶沒有試錯成本,消費電子產品需要用戶花錢買單,這就需要吸引用戶,取得用戶對品牌的認知、認可和傳播,所以智能音箱需要仔細想想品牌的定位,是否能讓消費者覺得你的產品是靠譜的,才能乖乖的打開錢包,為產品買單。

八、買的多了才是平臺

最后談到一點,就是移動互聯網上,大家都在犯的錯,貌似在IOT時代,還是在犯,就是什么才是平臺?說白了,用的人多了,你自然就是平臺了(這里的平臺,指的非技術平臺,阿里云、京東云之類的,不在此描述范圍),而初始以平臺為目的的產品,最終基本都死得很快,反而像餓了嗎、滴滴這樣一開始以解決剛需為主的公司,再覆蓋了海量用戶之上,才打造了配送平臺以及出行平臺。

而國內的音箱廠商的目的其實都是想做IOT的入口的,叮咚依托于京東微聯,其實也是這個目的。這樣就會造成戰略層的偏差,過分關注物聯物通這部分的需求,比如控制空調啊、控制插座啊,以目前國民對智能設備的接受程度,還是要首先達到單品智能,再去想萬物互聯為好。

這里沒有說提前布局不對的意思,但是如果排定優先級,我覺得更好的點播體驗+海量內容才是訴求點,絕非控制更多的家電。

Echo不也是在賣的多了之后才有Skills平臺,才有了10000多個Skills嗎?賣了1000多臺音箱,誰會在上面開發Skills呢?

九、說一個題外話

目前語音交互的產品主要解決了用戶以下幾個問題:

  • 載體不方便輸入和搜索,比如智能電視,比如智能音箱,這也是手機助手一直得不到廣泛應用的地方,因為手機太方便輸入了
  • 大文本輸入,比如語音輸入法
  • 特定場景下,不方便操作,handfree,比如車載產品

但是還有一種場景,有待提升,也決定著AI Device是否能更好的被人們接受。那就是業務智能和交互智能的關系。

業務智能是指產品本身具備的功能,比如空調的制冷,電飯煲的煮飯、臺燈的開關,但正是由于這些設備本身功能的不夠智能,導致其實用傳統的交互手段就足夠方便了,空調就那么幾個按鈕,不用語音一樣可以解決90%以上的問題,遙控器也不是天天找不到,也不是天天抱著孩子,放不開手,這些場景都是長尾需求,不是主要場景,所以用語音交互頻率就會大大下降,想像一下,如果空調可以支持只對著男人吹,不對著女人吹這個功能呢?這時候按鈕上根本就承載不了這么多功能,操作起來也需要進行組合,用戶自然就會用語音去操作。

想象一下iPhone的點觸屏替代諾基亞的鍵盤,不就是因為移動互聯網時代的業務更加豐富了嗎?我有幾百個APP沒法用鍵盤操作,各種圖片的旋轉、放大、縮小,鍵盤都無法承載了,自然就轉化成了更智能的交互。

所以,想讓交互智能,必須先達到業務智能。

十、未來之路

其實智能音箱對于AI Device的普及是一個非常利好的消息:

  • 具備麥克風和喇叭的它,更容易讓用戶接受他可以說話(一個空調說話總是);
  • 對于這一波消費升級來說,大家對于影音娛樂的追求,更容易讓大家為它買單;
  • 各行各業的巨頭紛紛涌入,可以說會馬上催熟這一塊的業務,讓語音交互得到大家的認可,從而讓AI Device
    進入千家萬戶。

前路慢慢,需要音箱廠商和AI廠商能夠回歸初心,從用戶真實場景的角度去打磨自己的產品,而不要單純的追風?;腥幌肫饚啄昵暗闹悄苎劬Α⒅悄苁汁h這些可穿戴設備一樣,元年還沒過去,風就停了,泡沫滅了,歸根結底,還是沒有滿足用戶的需求和使用場景。

最近是iPhone十周年,回首一下,喬布斯帶我們走向了移動互聯網時代。而再十年后,必然是智能交互的時代,所以從業者還需要努力,打磨產品,讓萬物智能的時代早些到來。

 

本文由 @vivi 原創發布于人人都是產品經理。未經許可,禁止轉載。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 想讓交互智能,必須先達到業務智能。說的很好呀!

    來自浙江 回復
  2. 怎么感覺是多次提起國內廠商,然后呵呵?

    來自廣東 回復