Siri 們的“愚笨”終于有救了?

0 評論 3267 瀏覽 1 收藏 18 分鐘

在ChatGPT出現之后,不僅人類感受到了威脅,部分互聯(lián)網產品可能也將“備受壓力”、經受“不進則退”的困擾,比如在過去這些年里長進似乎不大的語音助手們。那么,語音助手們的發(fā)展面臨著哪些亟需解決的問題?一起來看看作者的分析和解讀。

“今天北京比上海熱嗎?”

摸著良心講,問這個問題的時候,并沒有想刁難Siri。但是Siri它就是回答不上來。

“今天似乎是晴天?!盨iri天真(但驢唇不對馬嘴)地回答,配以用戶所在的上海的天氣卡片。

用同樣的問題去問必應機器人,它雖然沒有直接回答是或否,但至少給出了兩地的氣溫數據。

Siri 們的“智障”終于有救了?

不光是Siri,語音助手們十年間似乎一點長進都沒有。用戶也已經習慣于對它們降低要求,給出明確、直接的指令:“音量小一些”“關燈”“下一首”。

但ChatGPT的出現改變了一切。人們感受著ChatGPT、新必應機器人、谷歌Bard等一眾大語言模型驅動的機器人切題、流暢、豐富的對話能力,Siri們的呆板從未如此明顯。

語音助手背后的大公司們也感受到了壓力。

北京時間4月28日,亞馬遜發(fā)布2023年第一財季財報,CEO安迪·賈西(Andy Jassy)在電話會議上表示:“我們已經在Alexa下面建立了一個大語言模型,但我們正在構建一個更大、更通用、更有能力的大語言模型,我認為這將會加速我們成為世界上最好的個人助理的愿景?!?/p>

幾乎同一時間,The Information爆出消息,蘋果的工程師正在醞釀將LLM大語言模型與Siri結合,推出更聰明的Siri,隨此后的iOS更新與用戶見面。

谷歌似乎將資源在谷歌助手與Bard間進行了重新分配,在架構上將二者融合。

國內,在本月早些時候,阿里宣布所有產品未來將接入“通義千問”大模型,其中當然也包括天貓精靈。在官方演示Demo中,新天貓精靈支持自由對話,根據用戶需求和場景隨時生成內容,比如“合成1小時歌單,50%穿插搖滾風格的歌曲”。

從令人振奮,到令人失望,從代表未來,到明日黃花,Siri們走過了十幾個春秋,終于站在了抉擇的路口。

01

2011年10月,蒂姆·庫克(Tim Cook)迎來自己接任蘋果CEO后的第一場大型發(fā)布會。

全世界期待的iPhone 5沒有如約而至,庫克拿出的是中間代產品iPhone 4s。拯救那次新品發(fā)布的,是蘋果全新的數字語音助理產品Siri。

在此之前,手機內嵌語音指令功能并不是個新鮮事。中國用戶印象最深的也許是“金立語音王”,按住按鈕說出想撥打電話的用戶名,手機就會把電話打出去。

但這種語音功能能做的事情很少(基本就是打電話),對指令的識別率也不高,你必須嚴格說出“打電話給XXX”才行,“給XXX打個電話”都行不通。

Siri顯然是另一個維度的產品:用自然的語言,更靈活的指令,使喚設備做更多的事情,如查天氣、查地圖、讀短信、設置提醒事項和鬧鐘等等。

結果大家都知道了,iPhone 4s成為蘋果手機史上的一個經典機型,推出的那個季度銷量是上一個季度的兩倍有余,分析師也紛紛上調后續(xù)的銷量預期。據當時Sterne Agee公司發(fā)表的投資者聲明,Siri正是推動銷量的重要原因。

亞馬遜在2014年將 Alexa 安裝到最初的 Echo 揚聲器上,自那以后,Echo 設備迅速擴張,第一代兩年銷量超過500萬臺。Alexa語音助手也從智能音箱走向更多終端設備。

而谷歌也在2016年推出,作為 Google Now 的一個擴展,它不僅提供個性化元素——從 Google 日歷、 Gmail 和其他 Google 服務中獲取信息——還能理解上下文,識別不同的語音配置文件,并支持諸如“持續(xù)對話”和“翻譯模式”等功能。

基于安卓的手機廠商們,也紛紛定制自己的語音助手,如三星于2017年推出Bixby,同年小米推出“小愛同學”。如今,主流手機廠商幾乎都會給設備內置個語音助手,如華為的小藝,OPPO的小布,Vivo的小V等。這些助手也被同步進廠商的其他產品如電腦、平板電腦、智能手表中。

智能音箱作為語音助手最直接的載體,也成為大廠們爭相布局的領域,谷歌有Nest Audio,蘋果也推出了HomePod,國內阿里有天貓精靈,小米則有小愛音箱。

在消費電子領域,內置語音助手已經相對普及。據TechInsights,2022年內置語音助手的消費電子設備出貨量為22億臺,包括智能手機、智能電視、無線音箱、平板電腦、可穿戴設備等。其中手機占50%,可穿戴設備為第二大細分市場。

另據Statista,2022年美國大約有1.42億語音助手用戶,幾乎占全國人口的一半。

遺憾的是,有不代表好用,語音助手大行其道的另一面,是其被嫌棄的一生。

02

雖然Siri的推出引來人們的嘗試熱情,但失望接踵而來,而且隨著時間的推移,這種失望在不斷擴大。

早在其剛推出的那幾年,網絡上就有很多關于Siri奇葩回答的討論。2012年,也就是Siri發(fā)布的次年,投資銀行Piper Jaffray分析師基尼·蒙斯特(Gene Munster)最近對Siri進行了一系列測試,發(fā)現在1600多項語音測試中,Siri的回答準確率只有68%,而在喧鬧的室外環(huán)境,這一數字還會降低。

但在那個時候,多數人還是對Siri滿意的。彼時研究公司Parks Associates分析總監(jiān)約翰·巴里特(John Barrett)對482名iPhone用戶進行了調查,有55%給予Siri高分評價,21%很滿意,只有10%完全不滿意。

Siri 們的“智障”終于有救了?

圖源:蘋果官網

然而到了2017年,Adobe的研究報告顯示,37%的受訪用戶認為他們與語音助手的互動“并不好”或者“非常糟糕”,26%的用戶表示體驗“還行”,只有37%的用戶持積極態(tài)度。

到了2018年,調研公司Creative Strartegies的調查報告顯示,Siri的用戶滿意度僅為20%。

一個具有代表性的事件是,亞馬遜的Alexa在2018年還搞出了個“賽博靈異事件”。多位用戶表示Alexa在毫無預警的情況下發(fā)出詭異的笑聲,亞馬遜不僅發(fā)表公開聲明解釋原因(可能是將環(huán)境噪音錯誤識別為“Alexa,笑一個”),還緊急上線了產品補丁。

同樣的情況也發(fā)生在其他語音助手上:自己突然說話、答非所問、不聽指揮等等。

到了如今,智能語音助手已經不能符合人們對“智能”的想象。但這些吐槽和抱怨,似乎沒有推動語音助手的明顯進化。語音助手的“愚蠢”就像房間里的大象,被科技大公司們集體忽視了。

一個最明顯的例子是,如果你去觀看2011年蘋果發(fā)布會上的Siri演示,會發(fā)現其用法和處理能力和今天相比沒有什么明顯的差別。

直到ChatGPT的出現,才讓這個“大象”被看見。雖然自己也曾推出PC語音助手Cortana,但乘上ChatGPT快車的微軟毫不手軟,直接點出了問題。

3月,在接受英國《金融時報》采訪時,微軟CEO薩蒂亞·納德拉(Satya Nadella)表示:“無論是Cortana、Alexa、Google Assistant還是Siri,這些語音助手笨得像塊石頭(dumb as a rock)。我們最新推出的產品(必應聊天機器人),具備這些語音助手所無法提供的功能?!?/p>

03

Siri們的“愚笨”,或者說與ChatGPT相比之下的呆板,直接原因自然是背后的技術。

ChatGPT為代表的新一代聊天機器人由大型語言模型(LLM)驅動,這些模型系統(tǒng)經過大量網絡數據集的訓練,能識別和生成基于數據集的文本,在此基礎上生成完整的句子。

而Siri、Alexa和谷歌助手基本上都屬于所謂的命令和控制系統(tǒng)。這些系統(tǒng)智能理解有限的問題和請求,如果用戶所提出的問題不在其代碼中,助手就無能為力。

根據《紐約時報》的一篇報道,曾在蘋果負責Siri項目的工程師約翰·柏基(John Burkey)表示,由于設計的繁瑣,為Siri添加新功能很難。

他曾于2014年受命對Siri進行改進,而它的數據庫就像一個“巨大的雪球”,要在Siri的數據庫里添加哪怕一個單詞,“實際上就是在一大堆無序的數據庫中再添加一些數據?!?/p>

同樣的問題,Alexa和谷歌助手也有。

作為硅谷頭部科技巨頭,調用人才和財力為語音助手改頭換面不就行了?可惜事情沒有那么簡單。

04

第一個問題是,他們有沒有動力這么做?

用戶自然是希望語音助手更聰明,自從ChatGPT出現,互聯(lián)網上就不斷有“如何將ChatGPT接入我的手機”這樣的提問。而且,目前也已經有基于GPT的語音助手應用推出。

但這并不足以讓巨頭們做出戰(zhàn)略決策。Alexa雖然幫助亞馬遜搶占了智能音箱市場的份額,但卻并沒有清晰的商業(yè)化路徑,甚至是在做賠本買賣。亞馬遜的野心是通過語音助手將用戶引至電商消費,但隨著時間的推移,大部分的用戶只不過用Alexa執(zhí)行諸如“聽音樂”“關燈”等基礎指令。

去年底,亞馬遜宣布裁員1.7萬人,其中,負責Alexa的“全球數字”部門成為了裁員重災區(qū),部分高管離開了公司。據BusinessInsider,這個部門僅在2022年第一季度就虧損了30億美元,罪魁禍首就是Alexa,這是其他部門虧損總和的兩倍。

該報道還稱,硬件團隊2022年預計虧損100億美元。

谷歌助手雖然在語音助手中占比很高,在美國是市場份額第一的語音助手,但似乎被亞馬遜誤導,走了同樣的彎路。從2016年到2021年的5年里,谷歌發(fā)布了8個主要的內嵌主搜的音箱/智能顯示器硬件產品,自那以后似乎就陷入停滯。

2022年,谷歌移除了助手對兩個內部產品線的支持,NestWifi路由器和Fitbit可穿戴設備。同年,The Information報道稱,胡歌欲減少在開發(fā)谷歌助手語音輔助搜索功能方面的投資。

谷歌助手和Alexa一樣,沒有什么賺錢的路徑,無廣告,無訂閱模式,就是一個兢兢業(yè)業(yè)的助手,還經常幫不到點子上。

將ChatGPT、Bard等聊天機器人背后的大型語言模型應用在語音助手上,自然對功能體驗有提升,但仍然無法解決產品商業(yè)化的問題。

至于蘋果,則深深受制于“保護用戶隱私”。幾年前Siri因為“偷聽”丑聞,收回了所有Siri項目的外包公司,對用戶和Siri之間對話的私密性更加尊重。但這對于大語言模型來說,就意味著訓練數據的匱乏。

第二個問題是,身形龐大的科技巨頭,轉起身來有困難。

不管是Siri、Alexa還是谷歌助手,都已經發(fā)展多年,要做大變革,最容易被外界忽略,卻也最棘手的問題,便是內部的資源分配。

蘋果的Siri從一開始就歷經坎坷,喬布斯剛開始親自指導該項目,卻在產品上線第二天去世。到了發(fā)布一年之后,Siri就已經經歷三位負責人,而內部的分歧不斷。不僅有管理方式的分歧,也有搜索、語音識別、自然語義的派系紛爭。

到了2022年,又有三位關鍵人物 Srinivasan Venkatachary、Steven Baker 和 Anand Shukla離開,他們是機器學習初創(chuàng)公司Laselike的創(chuàng)始人,后被蘋果以1.5億美元收購。這次離開,他們投入了谷歌的懷抱。

讓Siri進行大轉向,勢必又要涉及到內部人員和資源的重新分配:誰來領導項目?走什么路徑?過往人員是去是留?這都是擺在庫克面前的老大難問題。

谷歌倒是已經做出了選擇。

3月底,CNBC報道了谷歌的團隊變化,根據一份泄露的內部備忘錄,谷歌助理似乎為公司新的超級巨星Bard讓路。

這份名為“助理和Bard團隊的變化”的備忘錄顯示,公司將把Bard作為高度優(yōu)先事項。曾擔任谷歌助理項目副總裁的Jianchang Mao離職,該項目另一位副總裁則將負責Bard團隊的工作,此前負責Bard項目的高管繼續(xù)擔任Bard“區(qū)域技術領導”。

看起來,谷歌已經做好了將Bard和谷歌助理融合的準備。

至于亞馬遜,在長久的沉默之后,終于宣布要用LLM給Alexa做升級,但具體怎么做,并沒有對外透露。剛剛經歷了裁員重創(chuàng)的內部團隊要如何重振希望,是賈西要解決的難題。

Siri們已經意識到了ChatGPT的威脅,不進則退的局面已經形成。至于怎么進,這是個問題。

希望有天我們可以拿起手機問Siri:“今天北京比上海熱嗎?”并得到令人滿意的有效回答。

參考資料:

  1. 澎湃新聞:《谷歌被曝調整虛擬助理部門領導架構,未來或集成Bard技術》
  2. 愛范兒:《 從領先到落后,蘋果 Siri 和它動蕩的 7 年時光》
  3. 大數據文摘:《從“全村的希望”到“大裁員”,亞馬遜是如何摧毀Alexa 的?》

作者:畢安娣;編輯:王靖

原文標題:Siri 們的“智障”終于有救了?

來源公眾號:字母榜(ID:wujicaijing),讓未來不止于大。

本文由人人都是產品經理合作媒體@字母榜 授權發(fā)布,未經許可,禁止轉載。

題圖來自 Unsplash,基于CC0協(xié)議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!