大模型有能力打穿智能音箱/硬件的市場(chǎng)壁壘么?
智能音箱很重要,以AI為主打的多模態(tài)產(chǎn)品都與它有一定聯(lián)系。下邊是筆者講述關(guān)于智能音箱的相關(guān)內(nèi)容,大家可以來(lái)看一看。
突然看到小度科技景鯤和朱凱華要離職創(chuàng)業(yè)的消息,一下子就覺得很有必要再說(shuō)下智能音箱。智能音箱當(dāng)年紛繁亂戰(zhàn),百度其實(shí)是其中一只非常重要的力量,而代表人物無(wú)疑就是景鯤。本來(lái)以為大模型可以讓這款產(chǎn)品迎來(lái)自己新的想象空間,沒想到卻看到這么個(gè)消息。這實(shí)在是為上一波的智能音箱徹底的畫上了個(gè)句號(hào)。
一、智能音箱:產(chǎn)品路線圖上的“兵家必爭(zhēng)之地”
為什么說(shuō)智能音箱是產(chǎn)品路線圖上的兵家必爭(zhēng)之地呢?因?yàn)橐訟I為主打的多模態(tài)產(chǎn)品怎么都繞不過(guò)它。
就像喀什之所以重要就在于它是兩條西去路線的交匯處一樣,大山就留了這么個(gè)口子,你想如果要像玄奘那樣西行就怎么也繞不過(guò)這地兒。
智能音箱是智能產(chǎn)品的一個(gè)檻,它成了很多同種類產(chǎn)品比如故事機(jī)、鏡子等就成了,它不成AI大模型的力量其實(shí)就在純軟的空間里憋著,我們?cè)O(shè)想的多模態(tài)產(chǎn)品等就止于想象。在從Agent到多模態(tài),大模型想要什么?中我畫了一張產(chǎn)品的圖,無(wú)意間也正好把智能音箱放到了這么一個(gè)中間的位置上。
這產(chǎn)品非常的承上啟下。承上承的就是純軟的Siri類助理,啟下啟的的就是各種機(jī)器人(兵家必爭(zhēng)之地的一個(gè)隱含意義就是這地兒本身不一定有那么大價(jià)值但丟了會(huì)很難受)。
二、那為什么智能音箱會(huì)在這么個(gè)位子呢?
原因也不復(fù)雜。
但在回答這問題之前需要區(qū)分兩類產(chǎn)品:
- AI為主打特征的產(chǎn)品。
- AI是輔助特征的產(chǎn)品。
遙控器上也可以放語(yǔ)音交互功能,但那是輔助特征。智能音箱則不是。智能音箱如果AI不出彩,這產(chǎn)品就立不住。對(duì)于很多產(chǎn)品AI是作料,像遙控器那樣輔助其它特征,智能音箱這個(gè)產(chǎn)品上AI是主菜,別的功能特征輔助AI。
這是很少的幾款真正靠AI特征驅(qū)動(dòng)并且達(dá)到一定量級(jí)的產(chǎn)品(掃地機(jī)器人其實(shí)也是)。
對(duì)于AI主打的產(chǎn)品要么你處理純粹的數(shù)字世界的工作,否則要想走出來(lái)和現(xiàn)實(shí)世界有交互則需要通過(guò)聲光電熱力磁各個(gè)維度的不同傳感器,感知現(xiàn)實(shí)世界并進(jìn)行決策等,基于此提供新的體驗(yàn)和功能。在其中智能音箱主要改變交互,感知和接入現(xiàn)實(shí)的程度最淺,也就意味著難度其實(shí)最低。如果這么說(shuō)不好理解,可以類比導(dǎo)購(gòu)機(jī)器人,顯然的導(dǎo)購(gòu)機(jī)器人需要對(duì)現(xiàn)實(shí)進(jìn)行更深層次的感知。
最容易的產(chǎn)品立不立得住基本表示大模型等的新能力是不是能夠走出數(shù)字空間,走出想象,獲得一條商業(yè)上真的能夠通往現(xiàn)實(shí)世界的路。
當(dāng)然智能音箱可以涵蓋帶屏不帶屏的版本。順道說(shuō)一句電視不管加多少語(yǔ)音特征都不是AI主打的,電視主要還是依賴自己的內(nèi)容分發(fā)通路,核心支撐是它的屏。依賴屏和依賴智能特征很容易混雜,但其實(shí)不是一個(gè)事(這個(gè)區(qū)分和綜合后面會(huì)落在AR眼鏡上)。
如果智能音箱能成立,具身機(jī)器人就肯定可以獲得一個(gè)比較堅(jiān)實(shí)的基礎(chǔ),在它上面進(jìn)行生長(zhǎng),否則就得變成必須靠自己移動(dòng)的特征、更深層的感知來(lái)獲得應(yīng)用場(chǎng)景上的支撐,這顯然更困難。這就是為什么前面說(shuō)智能音箱可以啟下。
當(dāng)然反過(guò)來(lái)也成立,智能音箱都做不好,卻指望一個(gè)更難的能成立,這不虛妄么。
三、過(guò)去做的怎么樣呢?
我覺得有70~80分。
智能音箱的事業(yè)其實(shí)是一鍋燒成了90度的水,或者說(shuō)打穿80%市場(chǎng)壁壘的事。
為什么這么說(shuō)呢?
因?yàn)槿绻阏f(shuō)它不成立,它每年也有3~4千萬(wàn)的銷量;如果你說(shuō)它成立呢,它核心的產(chǎn)品支撐其實(shí)回歸到了音箱的特征,只在極小的一些功能,比如天氣、鬧鐘上保留了一點(diǎn)智能的特色。當(dāng)然它還可以負(fù)責(zé)鏈接,比如控制窗簾,但這事也就屬于能用,卻并不出彩。
每天的活躍很難超過(guò)10次,并且領(lǐng)域很窄。
這導(dǎo)致了一個(gè)不上不下的局面。
所有當(dāng)初的設(shè)想中和入口價(jià)值有關(guān)的部分都很難成立。沒太看重的,比如變成了單獨(dú)的一個(gè)消費(fèi)電子品類,變成一個(gè)新的類似電視的產(chǎn)品,它卻逐漸成立了。從這個(gè)角度看,藍(lán)牙音箱到智能音箱更像是黑白電視到彩色電視的升級(jí),而不是計(jì)算機(jī)變成電腦了。
從公司運(yùn)轉(zhuǎn)的角度看,精細(xì)化運(yùn)營(yíng)是可以打平的,但很可能價(jià)值還不如掃地機(jī)器人,因?yàn)閱蝺r(jià)太低;從戰(zhàn)略意義上看,對(duì)大公司而言它就變的不怎么有戰(zhàn)略意義了。
這就更讓智能音箱不單在技術(shù)上還在市場(chǎng)上成為一個(gè)試金石。
在有用戶基礎(chǔ)的前提下,如果大模型的新勢(shì)能還是撐不起它來(lái)。那在現(xiàn)實(shí)空間大模型就只能輔助做些邊緣型的產(chǎn)品比如故事機(jī)等(當(dāng)然這不妨礙純粹數(shù)字空間里面Copilot這類產(chǎn)品成立)一旦跨過(guò)了這個(gè)檻,就不單是音箱,甚至可能會(huì)重構(gòu)手機(jī),讓機(jī)器人真的產(chǎn)品化。這就可以打開一個(gè)近乎無(wú)限的空間。
那實(shí)際情況更可能是什么樣呢?這次能打穿這個(gè)應(yīng)用壁壘,邁過(guò)這個(gè)坎么。
四、不在現(xiàn)在時(shí)候,還需要時(shí)間
至少是下一波3~5年后的事了。不是眼前的事。
各種智能硬件所代表的硬應(yīng)用本質(zhì)都和感知反饋所能擴(kuò)充的應(yīng)用空間有關(guān)。這么說(shuō)有點(diǎn)抽象,我們可以類比下智能音箱和Siri類助手。Siri類助手是真的助手,更像是一個(gè)軟的超級(jí)應(yīng)用,實(shí)現(xiàn)現(xiàn)在微信借助小程序所能實(shí)現(xiàn)的一切功能,雖然也可以推個(gè)消息,但本質(zhì)上是被動(dòng)被用戶使用,不感知環(huán)境的。
但智能音箱則不一樣,它可以有耳朵聽你喊沒喊它,甚至聽是不是有異常的聲音;它可以有眼睛捕捉手勢(shì),甚至看到是不是有老人摔倒然后報(bào)警。后者這類對(duì)環(huán)境感知所支撐的的價(jià)值越大,硬應(yīng)用價(jià)值越大,越會(huì)成為一個(gè)單獨(dú)的品類,否則裝APP就夠了,買個(gè)音箱干啥!所以此前的GPT4對(duì)智能音箱類產(chǎn)品本質(zhì)幫助不大,內(nèi)容生成等更匹配生產(chǎn)力工具(電腦、平板)。
最近的多模態(tài)確實(shí)在支撐這個(gè)空間。讓感知、決策、反饋的鏈條可以更連貫。
而剛出來(lái)多模態(tài)版本顯然有很多路要走,但更關(guān)鍵的還不是這個(gè),而是這個(gè)新品類要想成立,第一關(guān)鍵固然是依賴的技術(shù)要素成熟不成熟,但更關(guān)鍵是則是一種基于現(xiàn)實(shí)的想象力。在早期階段甚至都不需要更便宜,而是需要真的好用的新品類,否則和需求和市場(chǎng)之間的通路是堵著的。
挑動(dòng)這個(gè)的難度恐怕不低于創(chuàng)造iPhone。因?yàn)檫@根本不是現(xiàn)在這條路繼續(xù)走下去,走快點(diǎn)就能走到目的地的工作。對(duì)于智能音箱而言這需要再定義這個(gè)品類,打造出除了音樂等內(nèi)容輸出外更有價(jià)值的功能點(diǎn)。這會(huì)很像Pokemon Go扮演的角色。如果整不出來(lái),單純是裸的模型其實(shí)基本沒幫助,也拯救不了智能音箱。
這么說(shuō)估計(jì)還是抽象,我們舉幾個(gè)發(fā)散的、不一定行的例子:
- 比如做英語(yǔ)陪練,那智能音箱上的陪練要能聽的遠(yuǎn),看的見,要擬人真的像一個(gè)英語(yǔ)老師,否則就還是手機(jī)陰影下的產(chǎn)品。類似的可以有很多擬人的產(chǎn)品,它可以成為一個(gè)能講故事、回答問題的啟蒙老師么?
- 比如,在真的足夠豐富的元宇宙里,它如果代表了你和元宇宙的連接,代表你的分身,那它就有獨(dú)立的價(jià)值。
這是真的麻煩。希望有人能肩負(fù)起這個(gè)使命,否則就只能等C2C。而假如C2C,再假如open AI這種公司帶頭來(lái)做,并且真的做出來(lái)了,那對(duì)于硬件產(chǎn)品再經(jīng)過(guò)市場(chǎng)檢驗(yàn)的兩三年,怎么也是三年后的事了。
五、回到大分類
在《AI個(gè)體戶的崛起:普通人“屁胡”的機(jī)會(huì)、模式和風(fēng)險(xiǎn)》中,我們做過(guò)一個(gè)這樣的總結(jié):
長(zhǎng)尾曲線最頭部是通用大模型以及配套的生態(tài),次一級(jí)是現(xiàn)有應(yīng)用的人工智能化和垂直領(lǐng)域的系統(tǒng)型超級(jí)應(yīng)用,尾部會(huì)甩開大量人工智能的新應(yīng)用。這個(gè)尾巴有可能比過(guò)去應(yīng)用商店里的應(yīng)用甩得長(zhǎng)。
現(xiàn)在看來(lái)大模型自身,系統(tǒng)型超級(jí)應(yīng)用,長(zhǎng)尾新應(yīng)用中,現(xiàn)在看中間這節(jié)是最不通暢的。多模態(tài)應(yīng)用比如智能音箱則正好是其中一個(gè)比較大的分支。
這其實(shí)很要命的,就像人的腰很關(guān)鍵一樣,如果這節(jié)起不來(lái),那回卷會(huì)把一切基礎(chǔ)設(shè)施上比如英偉達(dá)、數(shù)據(jù)等的泡沫擠的干干凈凈(我有個(gè)朋友經(jīng)常關(guān)注基礎(chǔ)設(shè)施,但其實(shí)基礎(chǔ)設(shè)施后續(xù)走勢(shì)的關(guān)鍵可能并不在大模型,而在這里)。
六、小結(jié)
順道一說(shuō),近來(lái)經(jīng)常看到很多人和10年前一樣,又去追論文,追那個(gè)科學(xué)家的什么觀點(diǎn),試圖弄清楚模型到底什么技術(shù)源流,參數(shù)是什么含義等。這些東西要知道,但實(shí)在離應(yīng)用太遠(yuǎn),科研上越熱的離的越遠(yuǎn),所以更應(yīng)該被折疊,知道一個(gè)相對(duì)確定的結(jié)果就可以了。從應(yīng)用看技術(shù),其實(shí)遠(yuǎn)比比從技術(shù)看應(yīng)用更關(guān)鍵。不管是Mac,Windows,還是iPhone其實(shí)都是從應(yīng)用看技術(shù)的結(jié)果,而非相反。
專欄作家
琢磨事,微信公眾號(hào):琢磨事,人人都是產(chǎn)品經(jīng)理專欄作家。聲智科技副總裁。著有《終極復(fù)制:人工智能將如何推動(dòng)社會(huì)巨變》、《完美軟件開發(fā):方法與邏輯》、《互聯(lián)網(wǎng)+時(shí)代的7個(gè)引爆點(diǎn)》等書。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
手機(jī)上的AI,也是輔助