VR還早呢,互聯網女皇看好的語音會是大機會嗎?

1 評論 6413 瀏覽 19 收藏 28 分鐘

眼下,怕是互聯網最糾結的時刻:智能手機帶來的人口紅利將盡,仿佛所有人們日常生活中該有的應用都已經被開發出來、用戶們也同時失去了嘗試新鮮產品的動力;與此同時,向線下的突進因為過重燒錢沒有護城河的模式和諱莫如深看不懂的體制深水紛紛受阻,互聯網加了半天還是湊不上去;本來年初VR給諸位打了不少雞血、仿佛商用指日可待,但現在看來目前的終端too young、恐怕至多也才剛剛達到“塞班的階段”;而最近一直在提的內容、直播、網紅等伴隨著政策的收緊、大平臺制霸和數據造假的曝光,看起來越來越不像是真正的風口……除去以上的種種,一場資本寒冬讓投資機構們徹底懵逼了,失去了往日的格局和耐心,歸根結底快沒錢了。那么問題來了,下一個機會在哪里呢?

恰在此時,互聯網女皇來了,最新的年度趨勢報告十分之一的篇幅給了“語音”。女皇陛下是這么說的:語音正在被重塑,成為人機交互的新范式,在過去75年里,每10年就有一次人機交互的重大革新,人類對機器的操作,從物理手柄按鍵,到物理鍵盤鼠標,再到觸摸屏,而現在語音成為了重要的交互方式。她的案例是Amazon的硬件:Echo。其內置了Amazon Alexa語音助手,目標是占領家居、汽車、手機的麥克風,還能智能購物。這款產品銷量已突破400萬臺。女皇更是大膽指出:語音拐點已經到來,在2015年智能手機銷量下滑之后,Echo銷量或將騰飛。(以上引自《超過十分之一的篇幅給語音,互聯網女皇為何看好麥克風?》)

遙相呼應,最新一屆蘋果全球開發者大會WWDC上,庫克也放言將逐步向第三方開發者開放siri,如果這一切不是“講故事”的話,不出意料我們將看到iphone上出現更多的聲控APP,庫布斯是要玩一個“聲音版的生態化反”嗎?與此同時,谷歌公司也提出了雄心勃勃的Google Home計劃,利用語音和自然語言查詢技術的結合侵入用戶的客廳。那么問題又來了,對于中國市場而言,聲音會是新的機會嗎,聲控交互會成為VR到來前大熱的交互模式嗎?中國的訊飛和喜馬拉雅們會一路插上翅膀開始騰飛嗎?

在此,菜狗必須首先潑一潑冷水,我最痛恨的莫過于照搬西方、哄抬賽道的路數打法,就像過去在文章中寫過的那樣,中國版的instagram、中國版的snapchat、中國版的……這些故事后來呢?所以如果今天是在這里放言要有一個中國版的Echo,那就是我自抽耳光、忽悠大家。但是,盡管我們不能照搬照抄西方流行的產品模式,卻完全可以分析他背后的東西——需求、心理和社會趨勢:snapchat的崛起印證了im的高頻(臉書你反應慢了給了機會,但騰訊不會)、社交壓力帶來的發布反悔(騰訊有微信消息可撤回)、年輕人尋求沒有父母的個性空間(騰訊有QQ空間)。所以,不論有沒有人會去copy to china,這背后有一個話題非常值得探討:

聲控交互的商業價值有多大?以語音信息和交互為主打的平臺,將有怎樣的市場潛力?

一、當下的聲音行業怎么了?

有人要說,這回你外行了,聲音的故事早就被我們玩爛了,結果也就那樣。確實,印象中從許朝軍做啪啪的那一天開始,移動互聯網似乎就已經進入了“聲音時代”,然并卵。

1、工具領域

科大訊飛強大的語音喚醒、識別、輸入和交互技術從實驗室走上前臺,領先是領先,但似乎并沒有得到太多的應用,讓人印象最深刻的恐怕就是訊飛輸入法和最近非常文藝好用的語記平臺,問題不在于訊飛有沒有成為中國的siri(漢語領域肯定強于siri),問題在于即便siri也遠遠沒有達到預期的效果、成為人們主流的交互方式,只是一個可有可無的玩具。

2、社交領域

涌現出唱吧、啪啪、抬杠、陪我、比鄰、偶爾、派派等一批聲音社交平臺,然而幾年下來誰也沒有真正達到“社交平臺”的標準和要求。啪啪們的圖片加語音成了一種錦上添花的存在,遠遠沒有達到高頻剛需的狀態,更何況其閱讀成本奇高,遠遠不能和立刻一目了然的圖片視頻相比;更多的平臺成了當年的168聲訊臺、色情熱線,或者當年的碧海銀沙聊天室;即便在主流的微信平臺上,動不動發語音的人、一發發一串的人也常常變成不受人們待見歡迎的存在。唯一做得好的可能就是唱吧,因為唱K這樣一種生活中常見的社交模式真的只能靠聲音。

3、內容領域

這可能是目前唯一可圈可點的區域,喜馬拉雅、echo、聽書、得到們從不同的角度切入,通過基于聲音的媒體內容吸引了一票擁孬:比如根據易觀智庫的《中國移動電臺市場年度綜合報告2016》,作為行業領跑的喜馬拉雅,其日活用戶滲透率已經高達74.3%,這么好的DAU數據即便放在整個移動互聯網領域也是不多見的,而最近這家平臺剛剛通過售賣奇葩說老僵尸們的《好好說話》語音節目賺得盆缽滿溢。

那么這里就有一個問題,為什么唯一做起來的是聲音內容呢?同時,在內容生態領域最強的莫過于“兩微一端”(微信、微博、新聞客戶端),主打聲音的內容平臺能做成那樣的體量嗎,以后有一天人們會說“兩微一端一電臺”?

二、當前聲音的癥結在哪里?

有人又要說,聲音的內容是還不錯啊,但遠遠沒有到離不開的地步吧?而且,聲音這東西啊,太麻煩!是的,就是這個太麻煩!嚴重制約了聲音的發展。

1、語音識別交互領域,聲音一直沒有多少存在感

(1)、相關的技術要求太高

中國人說話遠不像老外那樣一個單詞一個意思,而且各地的口音又完全不同,所以語音的識別、喚醒、輸入、交互都是問題,當然強如科大訊飛已經可以破譯粵語、上海話、四川話了,但是還會有后面的問題。

(2)、使用場景有限

視覺和觸覺的交互隨時隨地都可進行,只要你低頭悄悄打開手機就行了,但是聲音呢,嘈雜的地方不行,人多的地方也不行,甚至晚上一個人了、對著冷冰冰的機器說話,也會有太裝太怪的感覺。

(3)、交互模式不自然

不論是siri的長按喚醒,還是傻乎乎地“嘿Siri”,感覺都比較違和,當你看著屏幕上siri正處于“傾聽錄音”狀態,心一下子就緊繃了,生怕說錯或者說得不及時,說完以后機器開始識別了,你看著進度條又莫名其妙地焦慮不安起來、它能不能聽懂呢,會不會聽錯呢?結果識別出來,果然是錯的,日了狗了……

(4)、應用生態遠未形成

盡管訊飛們已經開始開放語音功能和接口,但市面上并沒有出現很多的聲控交互應用,特別是——沒有出現有影響力的第三方應用。

2、語音終端遠未成型

能夠大規模商用的中國版Echo還沒有出現,即便非常厲害的可能也市場影響有限,養在深閨人不識吧。

3、語音內容成本過高。

(1)、信息獲取成本過高

看文字可以一目十行,看圖片可以盡收眼底,看視頻基本3秒內就可以判斷值不值得看下去。但是語音完全不是這樣,你聽一段語音(如果不是歌聲),往往得聽三分之一以上才能判斷是否值得聽,而這個過程是漫長的、聽的時候還動不動走神、左耳朵進右耳朵出,如果再加上漫長的前奏簡直令人抓狂。這還只是一段語音,如果我又在很多語音中來回播放暫停選擇想聽的內容呢?這個過程簡直繁瑣得崩潰了!

(2)、使用場景有限

一樣的道理,文字圖片可以在任何地方看吧,但是語音呢?

(3)、差異化價值“貌似”不高

既然都能看文字解決,為何要用語音呢,難道就是為了主播磁性的嗓音?如果是為了這些感性的體驗,視頻是不是更好一些呢?

這樣看起來,好像聲音一無是處,可真的是這樣嗎?解決幾個癥結就好了。

三、聲音的核心價值和競爭力

回到開頭,我們來看Echo這個產品。它和siri最大的不同在于:這是一個純粹通過聲音、完全不需要屏幕的產品,看起來就像一臺音響,用起來就像和人對話一樣。進一步說,它解放了人們的眼睛和雙手,你可以一邊做別的事情,一邊用聲音和它交互。

這樣一說就清楚了,歸根結底siri和訊飛們并不是純粹的聲控交互產品,他們頂多只能算半聲控交互產品,因為從喚醒他們到判斷語音輸入準確與否到最終的結果顯現,你幾乎都要用到眼睛和手,聲控交互的核心價值“解放眼和手、不再低頭族”完全得不到顯現。換句話說,他們都是視觸覺交互的補充而已,所以本身就錦上添花、可有可無。

你用siri打開微信,比自己親手打開能方便多少呢?你用語音輸入法輸入一段話,錯了還得回刪,這真的比打字輸入更方便嗎?

但是Echo展現出的是純粹聲控交互完全不同的價值,并且這幾乎是一個“高頻剛需”。

1、抓住了不適宜使用手和眼睛的人群

比如中老年人、殘疾人、不擅長打字輸入的人群,除非有一天人類技術發達到腦波交互,否則聲音都是最適合他們的交互模式。

2、抓住了不方便使用手和眼睛的場景

這就是我們常說的“低頭族場景”,走在路上、正在開車、晚上睡前、保護視力。由于以往的聲控交互產品做得太差,中國人以強大的適應能力,練就了在這些場景“眼疾手快、目不離機”的超能力,哪怕視力下降、頭昏眼花、低頭撞人也在所不惜。但是試想一下,如果聲控交互真的做上去了,聲音真的成了喬布斯口中的“自然延伸”,他們還會這樣嗎?

3、創造了全新的伴隨式場景

小的時候,我們為何早上起來會聽收音機,因為可以邊聽邊做其他事情,一心兩用。對,就是這個一心兩用!今天我們為何會一邊跑步一邊開車一邊聽喜馬拉雅——像筆者年初一邊在虹橋火車站辦手續一邊在喜馬拉雅聽羅胖的跨年演說、一邊熱淚盈眶……這都是一心兩用呀!簡言之,聲控交互解放了人的手和眼,不僅在不適宜使用眼手的“低頭族場景”,更在其他豐富的時刻。通過聲控交互,你可以邊聽邊說,一邊干其他事情,這種一心多用的方便效率是不可抵御的。本來這些事,你要不停切換APP來完成,或者放下手機、把視線移到別的地方,但是現在完全可以并行不悖、同步推進了。

4、聲音有其獨有的魅力

Echo首先是音響,可以播放音樂。而在人與人的溝通中,影響最大的是身體語言帶來的氣場(可惜隔了手機屏幕就完全體現不出來了),其次就是聲音(音調音色節奏),最后才是內容。從這個角度說,聲音的成本確實比文字高,卻遠比文字“有溫度”,黃執中的辯詞如果打成文字你未必讀得下去,但只要他魔鬼般的嗓音響起,你立刻覺得他什么都是對的了;聲音確實沒有視頻一目了然,但成本卻遠比視頻要低,你不需要打瘦臉針玻尿酸弄出一張網紅臉,因為當你的聲音響起,沒有人在意發聲的人有沒有羅胖帥。這也是為什么最近大火的分答會用語音,一來“盜版”成本高一點,二來聽到名人真實的聲音、這滿足感是不同的。

四、全新的機會,聲控領域的BAT

BAT?有人要說了,你這不是在拉大旗做虎皮嗎,說到底還是忽悠我們開發中國版的Echo呀。

恰恰相反,我并不認為Echo是創業者們最好的選擇,但是“基于純聲控交互”的APP卻可以成為一個機會,關鍵在于訊飛和喜馬拉雅們能不能迅速“醒轉”,構建出一個對第三方更加友好的生態。

什么是基于“純聲控交互”的APP,說白了就是整個APP的使用過程都完全不需要通過屏幕觸摸、不需要動用眼睛和雙手,最好連喚醒他們都可以用聲音。這樣的APP一旦出現,我們就根本不需要購買Echo,因為手機就是個簡易版的Echo了,我把手機放在一邊,一邊做別的事情,一邊就可以使用聲控交互了。如果你使用與聲控系統匹配的專用耳麥,如果這個耳麥可以隨時響應、識別你微小的聲音(在人群中大聲很傻比),那么耳麥就是Echo,就是手機之后真正的可穿戴智能硬件,比手表之類強多了。

基于目前已經研發出的漢語語音識別喚醒技術,訊飛完全具備這樣的能力,但是成果多半在實驗室里睡大覺。如果能早一步開放出來,如果能搞好與蘋果安卓廠商們的合作不被“雪藏”,那么接下來的勢能是非??膳碌?。在筆者看來,一旦聲控交互成熟了,接下來在這五個區域有明顯的機會。

1、新一代的語音助理,各個聲控應用的統一調用入口

這是訊飛和siri們的機會,喜馬拉雅這樣的高活躍產品也可以向此進擊。簡言之就是聲控版的appstore、應用寶。只要這個入口處于開啟狀態,就可以隨時通過語音對話的方式調用各個聲控應用,而不需要打開屏幕用眼睛找到那個應用再點開——這就是軟件版的Echo。他的喚起和使用都應該是毫不費力、自然而然的,不要像siri那樣喊起來用力、用起來發急??梢韵胂?,這個平臺會是未來聲控交互的入口,是整個聲控應用生態的命脈。

2、聲控類的工具

在子不語的《下一代交互革命是語音:Voice In Voice Out》一文中,描述了這樣的場景:你可以和她交談,她可以幫你控制關于房子的一切,燈光、溫度、微波爐、冰箱……Echo 已經能做到什么了呢?播放音樂、創建提醒、播報新聞自然不在話下,Echo還能根據你在亞馬遜上的購物記錄,智能地幫你下單。甚至,借助于前面提到的 Skills,已經有人用 Echo 控制了家中的幾乎所有電器:燈光、溫控、電視機、AppleTV、安保監控、熱水壺、車庫……當然,這里就涉及到智能家居組網、車聯網等問題,后面會提到。

3、聲控類的社交

a、熟人通訊方面

我們應該都見過這樣的場景,出租車上司機們通過對講平臺互相勾兌、插科打諢。路上匆忙的低頭族,很多都在回微信,而如果通過聲控交互構建一個對講平臺,這個體驗就完全不一樣了,你不需要用眼和手也可以隨時給某某捎去一段話,別人給你發來語音、聲控交互會提示你是否接聽,而如果這個交互可以通過耳麥自動識別微小的語音(并根據接聽者情況適度放大),那么以后走在路上就可以輕松而不違和地與人通話了,這個事情的意義在于將從另一個角度接管用戶的關系鏈,形成大網優勢。

b、陌生人社交方面

當下社交產品最大的痛點就是社交質量差、低效社交多、效率遠遠趕不上用戶預期,一個突出表現就是搭訕無人理睬、理睬也在若干小時之后(所以人們為何喜歡直播,因為美女主播至少會說謝謝反饋下),但是語音溝通是一個更加強調即時性和真實性的場景,又不像視頻那么需要“化妝和端著”,所以反而可能成為新的突破口。至于當下的語音社交平臺為何多數做的不好,因為太像色情聲訊臺了!到底應該怎么做,筆者后頭的產品會做出回答。

4、聲音類的內容

前面已經說過,聲音內容是目前做的最好的區塊,那么接下來的重點是:

a、改善交互

現在的模式是打開列表、看標題內容簡介、點播放鍵、再點暫停鍵、再看列表,這個過程太累了。但是試想一下,為什么我們小時候調收音機換臺不會這么累呢?為什么我們走在人群中偷聽不同人的對話不會這么累呢?因為這都是步驟更少、更加自然而然地交互,實際上美國已經有一款非常厲害的可視化聲音應用解決了交互成本問題,是什么先不表。

b、興趣推薦

如果選擇值得一聽的聲音節目成本如此之高,那么一個比較好的辦法就是基于興趣的推薦來降低選擇難度。比如喜馬拉雅已經推出了“猜你喜歡”系統,可以通過深度學習、進行類似今日頭條那樣的個性化推薦。那么再進一步,如果以后這個推薦可以不需要通過眼睛完成呢,直接傳來一個聲音:“小喜根據你的愛好搜到了幾個節目,下面念下標題,你感興趣就喊要這個……”

c、時空觸發

這個意思是,應該給更多的信息賦予時空屬性,比如在某一時刻放出,或者在某一位置放出。舉一個例子,你今天剛到一家商場,連上wifi,耳麥里立刻提醒你有最新的優惠活動信息、要不要聽。你像即刻那樣設置一些關注節點,比如某股又跌了,當這個消息到來,耳麥里立刻提醒你要不要聽。你到達某個景點,耳邊響起景點的典故。你晚上睡不著了,耳邊響起周圍人的聲音,像不像《her》?

d、做強參與

同為視頻,直播爆火的勁頭遠遠強于當年的視頻平臺和短視頻,這也釋放了一個信號,用戶并不滿足于成為單向的內容接受者,他們也希望成為內容的參與者甚至再創作者,他們也希望得到更多的互動和回饋,來滿足參與感、存在感和歸屬感,所以類似電臺的互動直播很重要。

e、聲紅生態

如何俘獲聲音領域的“網紅”們,通過更豐富的辦法幫助他們獲取規模精準流量、降低內容生產門檻、維護粉絲社群、持續多樣化盈利。比如喜馬拉雅的PUGC生態戰略,已經擁有400萬主播、8萬認證主播,這個供給端的大棋該怎么下下去?

f、制作成本

事實上制作成本的問題完全可以解決,一個是更加靈活強大的聲音編輯工具,另一個其實是文字到聲音的轉化工具——你聲音不好?你不會抑揚頓挫?那么訊飛正在嘗試在語記一類的平臺推出文字轉化成聲音的功能,不是冰冷死板的普通話,而是可以轉成蘿莉的聲音、方言的聲音、林志玲的聲音、單田芳的聲音……

5、聲控類的終端

盡管菜狗對硬件終端充滿了“恐懼心理”,但是說到底,如果這個聲控交互能強大到占領你的客廳,占領你的臥室,占領你的駕駛室,甚至更強大一些,可以無處不在,像《her》中那樣在云端接受和處理不同人的信息,你可以在任意的咖啡館、寫字樓、商店、公交上喚起他……那么毫無疑問,這一切都需要終端領域的進擊。如果這個事情有人能做起來,那就是真正的“生態化反”了。

五、聲控交互還有多遠?

聲控交互不是簡單的YY,事實上未來已經到來。

以智能終端為例,科大訊飛已經推出了一款名為叮咚的智能wifi音箱,也許用不了多久這種漢語聲控的設備就會出現在你的身邊。同時進軍音箱領域的喜馬拉雅FM一方面將內容植入Sonos、哈曼、漫步者、Misfit等智能產品中,另一方面通過收購國內頂尖音箱廠商海趣科技,自主研發了3D降噪耳機等產品。

在應用場景方面,兩家聲音領域的巨頭聯合推出了語音開放平臺,喜馬拉雅FM的“喜馬拉雅inside”開放平臺直接對接各類下游硬件研發和生產企業,打造應用生態、拓寬應用場景的野心一目了然。喜馬拉雅FM的海量音頻內容已經植入智能家居、汽車、音箱等超過300家品牌,包括寶馬、福特 、比亞迪 、百度Carlife在在內的幾乎所有主流車廠(車載系統)已全線接入喜馬拉雅FM;車生活系列的隨車聽正在侵入用戶的駕駛室,家聲活系列的故事機、聽書寶、接入喜馬拉雅的智能冰箱已經開始覬覦用戶的家居生活。與此同時蜻蜓FM和考拉FM的車聯網、智能家居戰略已經磨刀霍霍。

這就是不久的將來,聲音將像水和電一樣,隨取隨用,自由流動在每一個人的耳朵和心里。明確的人群和場景、高頻應用的可能、進一步侵入住家私車進而無處不在的潛力、明確的技術和標準門檻,這個故事看來很美好。但是最后菜狗還是必須提醒大家,這一切的前提是:技術足夠強大并且向第三方開放、聲控交互的全面優化和規范形成、蘋果安卓們愿意讓出這塊肥肉、有影響力的聲控應用的出現。這里面每一步的實現都不是輕而易舉的,但正如互聯網女皇說的那樣,聲音正在成熟,目前是最接近這個機會的節點。

#專欄作家#

張俊,上海帥醒科技創始人兼CEO,人人都是產品經理專欄作家,斯恩斯研究院創始人。微信號:biohazard2015。野路子產品菜狗一枚、創業在上海,測試新一代興趣APP中,歡迎勾兌,吵架不回。

本文原創發布于人人都是產品經理,未經許可,不得轉載。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 最近也在做語音方面的思考,越思考越覺得很多事很有趣,希望有時間可以交流一下

    來自四川 回復