一文讀懂智能助理的前世今生

1 評論 17501 瀏覽 52 收藏 35 分鐘

本文從智能助理的基本邏輯出發(fā),詳細(xì)分析了國內(nèi)外主要智能助理亞馬遜ALEXA、Google Assistant、蘋果Siri、微軟Cortana、百度度秘、騰訊叮當(dāng)、天貓精靈和阿里小蜜的發(fā)展歷史和主要功能,并給出自己對微軟小娜、蘋果Siri、百度度秘、騰訊叮當(dāng)?shù)捏w驗和分析預(yù)測。

隨著人工智能行業(yè)的發(fā)展,智能個人助理作為人工智能系統(tǒng)應(yīng)用相對成熟的領(lǐng)域也慢慢被大眾熟知。

智能助理可以理解為利用AI技術(shù)通過統(tǒng)一的對話交互界面來一站式給用戶提供需要的信息和服務(wù)。

目前蘋果、谷歌、微軟、亞馬遜已投入大量資源,積極研發(fā)并推出了Siri、Google Assistant、Alexa、Cortana等具有代表性的智能助理。

而國內(nèi)互聯(lián)網(wǎng)三大巨頭BAT也通過組建實驗室、招募AI高端人才等方式緊鑼密鼓地發(fā)布了百度度秘、阿里小蜜、騰訊叮當(dāng)?shù)?,力圖從智能助理的場景切入,完成在未來人工智能市場的布局。

一、智能助理基本邏輯

智能助理也可以看作是任務(wù)導(dǎo)向的chatbot,實現(xiàn)邏輯與chatbot相似,但是多了業(yè)務(wù)處理的流程,智能助理會根據(jù)對話管理返回的結(jié)果進(jìn)行相關(guān)業(yè)務(wù)的處理。

一個包括語音交互的chatbot的架構(gòu)如下圖所示:

一般chatbot由語音識別(ASR)、語音合成(TTS)、自然語言理解(NLU)、對話管理(DM)、自然語言生成(NLG)幾個模塊組成,其中:

  • 語音識別:完成語音到文本的轉(zhuǎn)換,將用戶說話的聲音轉(zhuǎn)化為語音。
  • 自然語言理解:完成對文本的語義解析,提取關(guān)鍵信息,進(jìn)行意圖識別與實體識別。
  • 對話管理:負(fù)責(zé)對話狀態(tài)維護(hù)、數(shù)據(jù)庫查詢、上下文管理等。
  • 自然語言生成:生成相應(yīng)的自然語言文本。
  • 語音合成:將生成的文本轉(zhuǎn)換為語音。

通常智能助理一個完整的交互流程是這樣的:

首先:音頻被記錄在設(shè)備上,經(jīng)過壓縮傳輸?shù)皆贫?。通常會采用降噪算法來記錄音頻,以便云端“大腦”更容易理解用戶的命令。然后使用“語音到文本”平臺將音頻轉(zhuǎn)換成文本命令。 通過指定的頻率對模擬信號進(jìn)行采樣,將模擬聲波轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù),分析數(shù)字?jǐn)?shù)據(jù)以確定音素的出現(xiàn)位置。 一旦識別出音素,就使用算法來確定對應(yīng)的文本。

然后:使用自然語言理解技術(shù)來處理文本,首先使用詞性標(biāo)注來確定哪些詞是形容詞、動詞和名詞等,然后將這種標(biāo)記與統(tǒng)計機(jī)器學(xué)習(xí)模型相結(jié)合起來,推斷句子的含義。

最后:進(jìn)入對話管理模塊,確認(rèn)用戶提供的信息是否完整,否則進(jìn)行多輪對話直至得到所需全部信息。根據(jù)得到的信息進(jìn)行相應(yīng)的業(yè)務(wù)處理,執(zhí)行命令。同時將結(jié)果生成自然語言文本,并由語音合成模塊將生成文本轉(zhuǎn)換為語音。在這些模塊中,對話管理(DM)模塊的首要任務(wù)是要負(fù)責(zé)管理整個對話的流程。

通過對上下文的維護(hù)和解析,對話管理模塊要決定用戶提供的意圖是否明確,以及實體槽的信息是否足夠進(jìn)行數(shù)據(jù)庫查詢或開始履行相應(yīng)的任務(wù)。

當(dāng)對話管理模塊認(rèn)為用戶提供的信息不全或者模棱兩可時,就要維護(hù)一個多輪對話的語境,不斷引導(dǎo)式地去詢問用戶以得到更多的信息,或者提供不同的可能選項讓用戶選擇。

對話管理模塊要存儲和維護(hù)當(dāng)前對話的狀態(tài)、用戶的歷史行為、系統(tǒng)的歷史行為、知識庫中的可能結(jié)果等。當(dāng)認(rèn)為已經(jīng)清楚得到了全部需要的信息后,對話管理模塊就要將用戶的查詢變成相應(yīng)的數(shù)據(jù)庫查詢語句去知識庫(如知識圖譜)中查詢相應(yīng)資料,或者實現(xiàn)和完成相應(yīng)的任務(wù)(如購物下單,或是類似Siri撥打xx的電話,或是智能家居去拉起窗簾等)。

實際實現(xiàn)中,對話管理模塊因為肩負(fù)著大量雜活的任務(wù),是跟使用需求強(qiáng)綁定的,大部分使用規(guī)則系統(tǒng),實現(xiàn)和維護(hù)都比較繁瑣。

規(guī)則的描述主要基于正則表達(dá)式或者類似正則表達(dá)式的pattern,用戶的問題匹配到這樣的pattern上,從而取得答案結(jié)果。

使用規(guī)則的好處是準(zhǔn)確率高,但是缺點也很明顯:用戶的句式千變?nèi)f化,規(guī)則只能覆蓋比較少的部分。

而越寫越多的規(guī)則也極其難維護(hù),常常有可能會發(fā)生互相矛盾的規(guī)則,而往往一個業(yè)務(wù)邏輯的改動就要牽一發(fā)而動全身。另一個方法是維護(hù)一個龐大的問答數(shù)據(jù)庫,對用戶的問題通過計算句子之間的相似度來尋找數(shù)據(jù)庫中已有的最相近的問題來給出相應(yīng)答案。

目前任務(wù)導(dǎo)向chatbot也在逐漸使用基于深度學(xué)習(xí)的端到端來實現(xiàn)架構(gòu)

簡要來說就是將用戶輸入的內(nèi)容直接映射到系統(tǒng)的回答上,但是這種方式也存在需要大量的訓(xùn)練數(shù)據(jù)的問題,還不能完全取代傳統(tǒng)規(guī)則系統(tǒng)。

智能助理發(fā)展至今也遇到一些瓶頸問題,人腦畢竟十分復(fù)雜,用戶問出的問題有時即使是人也需要結(jié)合多年生活經(jīng)驗和知識才能理解,所以這些問題對智能助理來說意圖理解難度很高,知識復(fù)雜度也比較高。所以現(xiàn)在不少公司的思路是做垂直領(lǐng)域的智能助理,場景比較小,語料庫、語義相對有限,對話容易收斂。

了解了智能助理的基本實現(xiàn)邏輯之后我們來看下目前比較主流的智能助理產(chǎn)品。

二、亞馬遜ALEXA

亞馬遜于2014年推出智能音箱Echo,主要功能集中在語音購物和對智能家居的控制上。隨著Echo成為家庭的交互入口,其搭載的“大腦”Alexa智能語音助手也開始遍地開花。

通過亞馬遜Alexa與智能家居設(shè)備的連接,用戶可以輕松控制智能家居設(shè)備,如開關(guān)燈、開關(guān)窗簾、開關(guān)電視等。Alexa還可以通過多個信息源播放流媒體音樂和閱讀新聞,提供天氣、交通等信息,以及通過語音在Amazon Prime會員服務(wù)上購物,甚至還可以預(yù)訂披薩。

2015年6月,亞馬遜宣布將Alexa開放給第三方開發(fā)者,發(fā)布了 Alexa Skills Kit(ASK)和Alexa Voice Service (AVS)兩套工具包,越來越多非亞馬遜產(chǎn)品設(shè)備也開始支持Alexa了。

強(qiáng)大的開放性加上全面陣線的拉開,Alexa逐漸取得先發(fā)入場優(yōu)勢。

目前Alexa已經(jīng)可以支持亞馬遜語音設(shè)備(Echo、Echo Dot、Tap)和Fire TV機(jī)頂盒,亞馬遜正在嘗試讓Alexa支持其他可連接設(shè)備,比如鬧鐘和寵物喂食器。不過Alexa目前在國內(nèi)還不可用,必須“科學(xué)”上網(wǎng)才可以使用Alexa的服務(wù)。

對于智能音箱用戶而言,與音箱中語音助手的每一句對話都需要通過重復(fù)使用喚醒詞才能實現(xiàn),無法與之進(jìn)行一場正常的,具備連續(xù)性的對話,在感覺上極不自然。

Alexa此前就為所有英文Alexa用戶推出Follow Up Mode,當(dāng)你發(fā)出一個指令后,Alexa將會繼續(xù)收聽接下來的指令,你可以進(jìn)行連續(xù)的指令,不需要重復(fù)呼叫“Alexa”來喚醒它。用戶可以通過 Cancel 、Go To Sleep 這樣的指令主動終止對話,或者Alexa在檢測到用戶停止說話之后自動終止對話。

不過目前Alexa主要在智能家居上發(fā)力,因為亞馬遜沒有自己的智能手機(jī)平臺,所以目前還沒有實現(xiàn)智能家居控制和智能手機(jī)的整合。

華為也于今年8月底發(fā)布了一款搭載Alexa的智能音箱AI Cube,這款產(chǎn)品僅在海外銷售,Alexa在全球智能家居市場的影響力也可見一斑。

三、Google Assistant

2016年5月,谷歌重磅發(fā)布了全新語音智能助手Google Assistant。

背靠Google十余年的努力,GoogleAssistant利用了大數(shù)據(jù)、機(jī)器學(xué)習(xí)、自然語義分析等一系列技術(shù),能夠在不斷對話之中為用戶解決問題,而不像之前那樣只能用簡單的提問和回答。

在技術(shù)強(qiáng)化之外,GoogleAssistant的產(chǎn)品邏輯也在不斷進(jìn)化。通過讓視覺、語音、文字等多個人機(jī)交互方式的無縫組合,實現(xiàn)更積極地對話,以及更個性化的推薦。

Google Assistant從某種角度可以說是Google Now的進(jìn)化版,比Google Now增加了雙向?qū)υ?,且對一些功能進(jìn)行了優(yōu)化。

作為Google在AI方面的核心之一,目前Google已經(jīng)幾乎把所有資源和能力都傾向Google Assistant,力圖用Google Assistant來把整個市場格局鋪開。

今年5月份舉辦的谷歌I/O大會谷歌CEO Sundar Pichai宣布谷歌助手已經(jīng)登陸5億臺設(shè)備,將于今年底支持30種語言,80多個國家可用。

此外,Google Assistant還在積極向外部合作進(jìn)行拓展,還與70多家智能家居廠商達(dá)成了合作,呈現(xiàn)出更加包容的開放性。

Google Assistant今年在人機(jī)交互的智能性上做出了非常大的突破。

5月份舉辦的谷歌I/O大會谷歌 CEO Pichai現(xiàn)場展示了升級后的Google Assistant新能力,包括支持自動分解對話,并進(jìn)行多重回復(fù)。也就是說:當(dāng)用戶一句話里面問了兩個問題,谷歌助手會分開回答,同時人聲發(fā)音更加自然流暢。

另一項重磅功能便是Google Assistant的Google Duplex,可以代打預(yù)約電話,幫助用戶點外賣、查路線、預(yù)訂理發(fā)店、預(yù)訂飯店。通過與Google Assistant對話,告訴它你想要預(yù)定什么店,什么時間和多少人,Google Assistant便會直接撥打電話給這家店,并用人的口語和發(fā)音,和對方聊天,確定好預(yù)約信息。整個演示過程中Google Assistant表現(xiàn)得非常接近真人,不知情的商家直到電話結(jié)束都沒有意識到自己在和 AI 對話。

另外,Google已于今年6月21日正式宣布Continued Conversation時代的到來。

與Alexa的follow up模式類似,連續(xù)對話功能使得用戶可以與 Google Assistant 進(jìn)行更加自然的會話,而無需在一場對話中多次重復(fù) Hey Google。開啟該功能之后,只需用 Hey Google 或者 OK Google 喚起一次Google Assistant,就可以與之進(jìn)行連續(xù)對話(買東西、設(shè)置鬧鈴、查天氣等)。

用戶可以通過 Thank You 或者 Stop 主動終止對話,或者 Google Assistant 在檢測到用戶停止說話之后自動終止對話。

當(dāng)然,在終止對話之前,Google Assistant 會等待足夠的時間來回應(yīng)用戶。目前該功能僅支持在 Google Home、Google Home Max 和 Google Home Mini 三款設(shè)備,而搭載 Google Assistant 的智能手機(jī)、智能電視等設(shè)備暫時得不到支持。另外,谷歌助手的連續(xù)對話功能與Alexa的follow up模式同樣只支持英語。

此外,Google Assistant從今年9月起就已經(jīng)可以支持雙語無縫切換識別。

當(dāng)用戶混用兩種語言向Google Assistant提出問題時,利用深度神經(jīng)網(wǎng)絡(luò)開發(fā)口語識別(LangID)技術(shù),谷歌助手都能夠識別出來,并且做出回應(yīng),而這只需用戶設(shè)置好兩種語言即可。

谷歌近年來在 AI 領(lǐng)域積累了大量的領(lǐng)先優(yōu)勢,Google Assistant作為其在AI方面的核心之一,已經(jīng)取得了相當(dāng)不俗的成績。

四、蘋果Siri

2011 年,在 iPhone 4s 面世的當(dāng)天,蘋果 Siri 也以智能語音助手的身份初次正式亮相,并成為當(dāng)時發(fā)布會上最大的亮點。

它是蘋果在iPhone、iPad等產(chǎn)品中使用的一項智能語音控制系統(tǒng),目前已經(jīng)可以支持Apple TV和Apple Watch。

通過Siri,用戶可以輕松的實現(xiàn)設(shè)置鬧鐘、推薦本地商戶、進(jìn)行路線規(guī)劃、播放音樂、讀發(fā)短信、安排日程、定時提醒、獲取資訊、搜索資料、實時翻譯等功能,Siri還通過用戶的行為習(xí)慣,前瞻性地向用戶推薦需要執(zhí)行的行為等。

Siri其實是語音助手領(lǐng)域里起步比較早的應(yīng)用,是大眾認(rèn)知里熟悉度最高的個人智能助理,也使大眾第一次對智能助手的概念有了認(rèn)知,“調(diào)戲”Siri也曾是風(fēng)靡一時的娛樂項目。

但是在過去的幾年時間里,它的智能程度顯然沒有得到較大提升,現(xiàn)在仍然還是在吃老本的階段。

Siri目前還未完全開放Sirikit給開發(fā)者,跟第三方應(yīng)用整合的進(jìn)度也十分緩慢。

Siri曾經(jīng)作為智能助手的先鋒如今地位卻有些尷尬,究其原因,與Siri團(tuán)隊的動蕩以及蘋果對Siri的規(guī)劃頻繁變動分不開關(guān)系。

五、微軟Cortana

2014年2月,微軟公司推出了自己的語音助手小娜(Cortana),并嵌入安裝Windows操作系統(tǒng)的計算機(jī)和手機(jī)中。

它是一款基于語音和文本的虛擬助手,目前已經(jīng)可以支持Windows、iOS、以及Android系統(tǒng)。借助微軟自身深厚的技術(shù)功底,Cortana實現(xiàn)了對語音的較高識別率和與系統(tǒng)功能的深度集成,給用戶帶來了不少便利。

Cortana可以處理事務(wù)提醒和日常預(yù)約,設(shè)置鬧鐘,同時它還能啟動Bing(必應(yīng))搜索引擎獲取體育,天氣和其他信息。

小娜還會對用戶的習(xí)慣和喜好進(jìn)行學(xué)習(xí),在 Cortana與用戶對話時,它并不是簡單地基于存儲式的問答,而是同時記錄下用戶的行為和使用習(xí)慣,利用云計算、搜索引擎和非結(jié)構(gòu)化數(shù)據(jù)分析,讀取和學(xué)習(xí)包括手機(jī)中的文本文件、電子郵件、圖片、視頻等數(shù)據(jù),來理解用戶的語義和語境,從而實現(xiàn)人機(jī)智能交互。

Cortana相比于強(qiáng)調(diào)任務(wù)和效率,更注重它與用戶之間的情感連接和親密關(guān)系,隨著Cortana越來越了解用戶的行為習(xí)慣,它可以做出更加個性化的的智能推薦。

2016年12月,微軟在舊金山宣布,把Cortana開放給第三方硬件公司,使其可以集成至音響、汽車等多種硬件。

今年8月,微軟Cortana和亞馬遜Alexa正式結(jié)盟,推出了融合后的服務(wù)。一個微軟Cortana的用戶,可以通過相關(guān)的語音指令直接在亞馬遜網(wǎng)站進(jìn)行購物。

另外,亞馬遜Echo智能音箱的用戶,也能夠通過微軟Cortana的幫助,回復(fù)Windows中的電子郵件,或是設(shè)置日程提醒等。融合語音助手的服務(wù)首先作為公眾預(yù)覽版對美國用戶發(fā)布。

其中,亞馬遜Echo音箱的用戶能夠通過Alexa獲取Cortana的服務(wù),另外Windows10個人電腦用戶以及三星電子旗下哈曼國際公司Kardon Invoke智能音箱的用戶,也能夠在Cortana中獲得Alexa服務(wù)。

目前在產(chǎn)品實用性和用戶體驗這個維度上,Cortana還是落后于谷歌助手和亞馬遜Alexa。在和第三方硬件產(chǎn)品和互聯(lián)網(wǎng)服務(wù)的整合方面,微軟Cortana更是明顯落后于谷歌和亞馬遜。

六、百度度秘

度秘是李彥宏在2015年9月8日百度世界大會上推出的對話式人工智能秘書。

度秘基于DuerOS對話式人工智能系統(tǒng),用戶可以使用文字、圖片或者語音與百度機(jī)器人進(jìn)行交流溝通,度秘通過語音識別、自然語言處理和圖像識別可以在對話中清晰的理解用戶的多種需求,進(jìn)而在廣泛索引真實世界的服務(wù)和信息的基礎(chǔ)上,為用戶提供各種優(yōu)質(zhì)服務(wù)。

依托百度搜索能力、百度地圖、百度糯米等O2O類的服務(wù),度秘可以覆蓋用戶衣、食、住、行、玩各方面的需求和推薦,擴(kuò)展了用戶對于服務(wù)的體驗寬度和深度,也是每個商家不可錯過的新入口和新商機(jī)。

此外,目前DuerOS已經(jīng)可以提供為第三方接入的Bots Platform,能夠賦能于手機(jī)、智能家居、可穿戴設(shè)備以及車載等多個場景,搭載DuerOS落地的主控設(shè)備也超過了80余款,不乏聯(lián)想、美的、海爾、小米等知名企業(yè),設(shè)備激活數(shù)量已經(jīng)突破5000萬。

百度現(xiàn)在的戰(zhàn)略已經(jīng)是“all in?AI ”,同樣是做搜索引擎發(fā)家,百度與谷歌因為中美兩國的互聯(lián)網(wǎng)環(huán)境不同,在AI領(lǐng)域的布局思路也不盡相同。

谷歌依托自己自身的系統(tǒng),力圖在已有生態(tài)上嵌入AI服務(wù)。

而百度因為缺少系統(tǒng)級入口,更多的采用從服務(wù)和場景的角度構(gòu)建生態(tài)的思路,利用AI撬開新生態(tài),更側(cè)重于“連接服務(wù)”。

在國內(nèi)市場,團(tuán)購、O2O、新零售、共享經(jīng)濟(jì)等已經(jīng)高度發(fā)達(dá),用戶更需要能夠提供無感服務(wù)的AI,只需要一個指令,智能助手就可以幫助我們訂餐、購物、打車、閱讀新聞等。百度便是基于DuerOS給用戶提供美食、電影、外賣、酒店、購物、打車、保潔、旅游、充值等多種生活O2O服務(wù),憑借簡單的數(shù)據(jù)交換就可以做到。

在這個意義上,谷歌助手的Google Duplex功能雖然炫酷,但也僅僅適用于多數(shù)服務(wù)無法直接通過網(wǎng)上預(yù)約的美國市場。

七、騰訊叮當(dāng)

2017年4月,騰訊推出智能語音助手“騰訊叮當(dāng)”,它基于自然語言理解和海量的語料標(biāo)注數(shù)據(jù),整合了信息服務(wù)、內(nèi)容服務(wù)、生活服務(wù)和各種硬件的連接服務(wù),覆蓋新聞、體育賽事、票務(wù)、快遞、音樂、股票、文學(xué)、LBS的附近資源等領(lǐng)域,功能與亞馬遜Alexa相似,是一款基于騰訊技術(shù)生態(tài)和內(nèi)容生態(tài)迅速發(fā)力的產(chǎn)品,可以提供智能助手產(chǎn)品形態(tài)和平臺級的業(yè)務(wù)支持,連接廣泛的智能化需求和海量的服務(wù)資源。

騰訊叮當(dāng)可以說是騰訊在人工智能領(lǐng)域的探路石。

目前叮當(dāng)已經(jīng)可以提供API和SDK接入方式給廠商,類似智能穿戴、智能音箱、智能車載、智能電視以及各類形態(tài)的機(jī)器人,都可以搭載騰訊叮當(dāng)AI助手。

八、阿里天貓精靈和阿里小蜜

阿里在智能助理這個領(lǐng)域有兩個比較知名的產(chǎn)品,一個是智能音箱天貓精靈,另一個則是主打購物這個細(xì)分場景的阿里小蜜。

天貓精靈是阿里巴巴AI labs于2017年7月5日發(fā)布的AI智能產(chǎn)品品牌,當(dāng)天同步發(fā)布了天貓精靈首款硬件產(chǎn)品——AI智能語音終端設(shè)備天貓精靈X1。

天貓精靈X1內(nèi)置AliGenie操作系統(tǒng),AliGenie依賴云端,能夠聽懂中文普通話語音指令,目前可實現(xiàn)智能家居控制、語音購物、手機(jī)充值、叫外賣、音頻音樂播放等功能。

天貓精靈整合了市場中的內(nèi)容資源、音頻資源、技術(shù)資源以及自身的平臺資源。接入的互聯(lián)網(wǎng)服務(wù)內(nèi)容多為阿里生態(tài)自身內(nèi)容,但依靠阿里自身的布局,服務(wù)數(shù)量很客觀。家居控制方面,支持阿里小智以及bordlink等品牌商的接入。

AliGenie開發(fā)者平臺是主要面向四種類型的開發(fā)者,包括內(nèi)容開發(fā)者、應(yīng)用開發(fā)者、智能家居開發(fā)商和硬件生產(chǎn)商。開發(fā)者既可以創(chuàng)建技能,為更多的語音用戶提供服務(wù),也可以將自己的設(shè)備接入云端服務(wù),獲取語音交互能力。

在智能助手這個場景下,由于不同情境下語言的意義可以多種多樣,有時意圖無法確認(rèn),所以不少產(chǎn)品的思路是限定談話的領(lǐng)域,從寬度發(fā)展變?yōu)樯疃劝l(fā)展,也就是做更加細(xì)分的垂直領(lǐng)域的智能助理

具體來說就是在一個細(xì)分的場景下,用戶產(chǎn)生大量相似的疑問和需求,目標(biāo)明確或半明確且可能需要引導(dǎo),而智能助理具有領(lǐng)域?qū)I(yè)知識(知識圖譜)與豐富問答經(jīng)驗(問答歷史數(shù)據(jù)),可以在幾分鐘內(nèi)解決用戶問題和需求,智能助理解決不掉的,再扔給人工客服。

很多場景可能最頻繁的前十個問題已經(jīng)能解決大部分用戶通用的問題,而智能助理的優(yōu)勢在于可以自動化獲取用戶畫像、快速讀取海量相關(guān)知識庫、通過多輪對話快速給出針對用戶需求的個性化答案。阿里小蜜就是這樣一款著重打造在購物這個細(xì)分場景下的智能助理。

阿里小蜜是阿里在2015年7月發(fā)布的一款人工智能購物助理虛擬機(jī)器人,使用入口在手機(jī)淘寶客戶端【我的淘寶】,基于阿里海量消費和商家數(shù)據(jù)來結(jié)合線上、線下的生活場景需求,以智能+人工的模式提供智能導(dǎo)購、服務(wù)、助理的擬人交互業(yè)務(wù)體驗。

機(jī)器通過智能化技術(shù)處理掉絕大部分的簡單、重復(fù)等可識別處理的問題,對于解決不了的問題則流向人工。

目前阿里小蜜可以在跨終端、多場景領(lǐng)域支持多輪交互、多模式交互(文本、語音和圖像)和問題推薦預(yù)測,支持多模型識別客戶意圖,通過結(jié)合上下文語義理解來給用戶推薦想要購買的產(chǎn)品,以及解決淘寶和支付寶相關(guān)的服務(wù)問題。

在這種意義下,阿里小蜜還是側(cè)重定義為淘寶或支付寶的輔助功能,而不是獨立作為智能助理來產(chǎn)出價值。

九、智能助理體驗分析

對人工智能領(lǐng)域的頭部公司而言,AI仍然是未知且需要不斷探索的。不同的公司文化,不同的技術(shù)體系,不同的業(yè)務(wù)結(jié)構(gòu),不同的產(chǎn)業(yè)背景等等,決定了在人工智能布局上的差異,除了時間上的先后順序,還有對AI場景理解的不同。

作為智能助手領(lǐng)域的兩大巨頭,Alexa和Google assistant都在英語國家取得了不俗的成績,但因為智能助手產(chǎn)品強(qiáng)依賴于語音識別和語義理解,中文可以說是他們進(jìn)入中國市場的一個強(qiáng)壁壘,因為中文是全世界最復(fù)雜的語言之一,沒有對中文長期的研究和數(shù)據(jù)積累,很難達(dá)到用戶的預(yù)期。

本次主要分析四款面向國內(nèi)用戶,支持智能手機(jī)終端,主打個人智能助手場景的產(chǎn)品:微軟小娜、蘋果Siri、百度度秘、騰訊叮當(dāng)。主要側(cè)重于分析智能性上,因此不對APP的結(jié)構(gòu)層、框架層和表現(xiàn)層進(jìn)行分析。

首先直接來看詢問常見問題時四款智能助手的表現(xiàn):

1. 微軟小娜

體驗環(huán)境與版本:iOS11.4.1? v2.6.17

先來看官方幫助所提供的功能導(dǎo)引:

微軟小娜支持文字或語音輸入,但是只有少部分問答支持語音輸入時同樣輸出語音。在較為安靜的環(huán)境下語音識別基本沒有差錯。

小娜提供的服務(wù)和內(nèi)容基本都是基于必應(yīng)系列產(chǎn)品,強(qiáng)依賴必應(yīng)搜索引擎,很多時候無法直接呈現(xiàn)用戶需要的服務(wù),而只是單純將在必應(yīng)里的搜索結(jié)果展示給用戶。

小娜在用戶一次性問兩個相關(guān)問題時可以拆分回答。

例如詢問“今天天氣怎么樣我需要帶傘嗎”,小娜會回答“我覺得沒有這個必要,今天的天氣是晴轉(zhuǎn)多云”。

2. 蘋果Siri

體驗版本:iOS11.4.1

首先來看Siri的官方導(dǎo)引:

Siri主要以語音交互為主,輔助功能里可以開啟文本輸入。在較為安靜的環(huán)境下語音識別基本沒有差錯。語音合成方面中文發(fā)音較之英文發(fā)音要生硬刻板很多。

Siri團(tuán)隊作為美國本土的團(tuán)隊,在英文上的語義理解也做的要比中文好很多,而且語言設(shè)置為英文時可提供的服務(wù)也更多。

舉個例子,用中文詢問“24的平方是多少”,Siri只會給出搜索結(jié)果,但是用英文詢問“the square of 24”就會直接給出答案。

同樣的,用中文詢問“π的平方是多少”,會識別為“派的平方是多少”,同時只能提供搜索結(jié)果。而用英文詢問則會識別“the square of pi”,并直接給出答案。

3. 百度度秘

體驗環(huán)境與版本:iOS11.4.1? v3.1.2

同樣先來看看度秘的官方指引:

雖然李彥宏早前多次為度秘站臺,但是在app store里度秘最新上傳的版本已經(jīng)是1年前了,而且很明顯這個最新的版本也并沒有適配iPhone x,可以推斷目前在百度的AI版圖里度秘并不是很重要的一款產(chǎn)品。

使用時,在度秘獲取了訪問通訊錄權(quán)限的情況下測試“打電話給xx”時(xx為通訊錄中的聯(lián)系人),度秘語音識別準(zhǔn)確但反饋沒有找到該聯(lián)系人,只有在直接說打電話給某個號碼時才可以撥出電話。

度秘在用戶一次性問兩個相關(guān)問題時不可以拆分回答。例如詢問“今天天氣怎么樣我需要帶傘嗎”,度秘的回答與“今天天氣怎么樣”的回答相同。

4. 騰訊叮當(dāng)

體驗環(huán)境與版本:iOS11.4.1? v1.3.2

騰訊叮當(dāng)?shù)墓俜綆椭敢缦拢?/p>

騰訊叮當(dāng)支持文本交互和語音交互,中文狀態(tài)下語音識別英文的能力較好,它的語音合成效果是四款產(chǎn)品里最自然流暢的,機(jī)械感很弱。

騰訊叮當(dāng)目前基本不支持對一些手機(jī)基本操作的控制,仔細(xì)研究就會發(fā)現(xiàn)它不需要獲取通訊錄權(quán)限,所以打電話發(fā)短信更無從談起,因為這款產(chǎn)品發(fā)布時間并不久,可提供的服務(wù)不多,兜底回答出現(xiàn)的概率也比其他產(chǎn)品要高一些。

十、小結(jié)

因為所面對的用戶群體不同,用戶使用習(xí)慣也有很大差別,中外AI頭部企業(yè)在智能助理這一領(lǐng)域發(fā)力方向也都不盡相同。

Google Assistant、Alexa等國外具有代表性的智能助理,它們不僅在AI芯片、自然語言處理、語音識別、機(jī)器學(xué)習(xí)、計算機(jī)視覺等技術(shù)方向上取得進(jìn)展,而且在開放性和智能設(shè)備未來生態(tài)的布局上,搶占了先機(jī)。

而國內(nèi)BAT三家巨頭研發(fā)的智能助理,目前他們的服務(wù)既有重合之處,也有各自的側(cè)重與特色。

百度的度秘在資訊搜索和生活消費推薦上略勝一籌,騰訊叮當(dāng)基于海量數(shù)據(jù)和社交基因,它在泛娛樂上有著不小的優(yōu)勢,而阿里小蜜則在購物和商業(yè)鏈接上更有施展之地。

未來的智能助理將伴隨著智能生態(tài)系統(tǒng)的發(fā)展變得無處不在,而作為這個生態(tài)中的重要角色,智能助理將承擔(dān)起協(xié)調(diào)指揮這個生態(tài)的重任。這意味著,智能助理將成為新的商業(yè)匯聚點,也將引起新一輪的智能生態(tài)大洗牌。

 

本文由 @樊帆fan 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖由作者提供

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 厲害

    來自江蘇 回復(fù)