基于大屏的語(yǔ)音交互平臺(tái)競(jìng)品分析報(bào)告:從閉環(huán)問(wèn)答到開(kāi)放交流

1 評(píng)論 9514 瀏覽 67 收藏 24 分鐘

作為人工智能中最為典型的應(yīng)用交互系統(tǒng),智能語(yǔ)音交互系統(tǒng)將會(huì)成為人工智能發(fā)展的一個(gè)重要體現(xiàn),在未來(lái)的生活中扮演著越來(lái)越重要的作用。

  • 分析目的:了解語(yǔ)音助手的市場(chǎng)現(xiàn)狀以及趨勢(shì),分析競(jìng)品產(chǎn)品定位,異同點(diǎn),深化對(duì)產(chǎn)品的理解。
  • 分析范疇:訊飛語(yǔ)點(diǎn)機(jī)頂盒,小米電視,小愛(ài)同學(xué),小度DuerOs電視伴侶。
  • 分析方法:智能語(yǔ)音交互技術(shù)解析,智能語(yǔ)音市場(chǎng)分析,競(jìng)品主要產(chǎn)品功能,競(jìng)品體驗(yàn)。

一、語(yǔ)音交互技術(shù)

語(yǔ)音交互(VUI)指的是人類(lèi)與設(shè)備通過(guò)自然語(yǔ)音進(jìn)行信息的傳遞,一次完整的語(yǔ)音交互需要經(jīng)歷ASR→NLP→Skill→TTS的流程。

基于大屏的語(yǔ)音交互平臺(tái)競(jìng)品分析報(bào)告(初稿)

  • 語(yǔ)音識(shí)別(Automatic Speech Recognition):簡(jiǎn)稱(chēng)ASR,是將聲音轉(zhuǎn)化成文字的過(guò)程。
  • 自然語(yǔ)言處理(Natural Language Processing):簡(jiǎn)稱(chēng)NLP,是理解和處理文本的過(guò)程。
  • 語(yǔ)音合成(Text-To-Speech):簡(jiǎn)稱(chēng)TTS,是把文本轉(zhuǎn)化成語(yǔ)音的過(guò)程。

智能語(yǔ)音交互系統(tǒng)作為人工智能最為典型的應(yīng)用之一,可以將其技術(shù)拆分為如上圖部分。

在實(shí)際的應(yīng)用場(chǎng)景中,對(duì)智能語(yǔ)音交互系統(tǒng)將提出特定的需求,本報(bào)告集中于家庭大屏場(chǎng)景下的交互分析。

基于大屏的語(yǔ)音交互平臺(tái)競(jìng)品分析報(bào)告(初稿)

值得注意的是,不同公司在智能語(yǔ)音技術(shù)的優(yōu)勢(shì)各有不同。其中,以行業(yè)龍頭科大訊飛為代表,基于其深耕行業(yè)20載,在語(yǔ)音識(shí)別,聲紋識(shí)別,語(yǔ)種識(shí)別有著較大的優(yōu)勢(shì)。

二、語(yǔ)音助手的市場(chǎng)現(xiàn)狀

1. 全球智能語(yǔ)音市場(chǎng)分析

據(jù)統(tǒng)計(jì)數(shù)據(jù)顯示:2017年全球智能語(yǔ)音美元,同比增長(zhǎng)30%。隨著移動(dòng)互聯(lián)網(wǎng),智能家居,汽車(chē),醫(yī)療等領(lǐng)域的應(yīng)用帶動(dòng)智能語(yǔ)音產(chǎn)業(yè)規(guī)模持續(xù)快速增長(zhǎng),預(yù)計(jì)2019年全球智能語(yǔ)音市場(chǎng)規(guī)模將突破170億美元。

基于大屏的語(yǔ)音交互平臺(tái)競(jìng)品分析報(bào)告(初稿)

2. 全球智能語(yǔ)音市場(chǎng)份額

在全球智能語(yǔ)音市場(chǎng)份額占比中,Nuance全球市場(chǎng)占有率排名第一,市占率達(dá)到31.6%;其次為谷歌,市場(chǎng)占有率為28.4%;排名第三的是蘋(píng)果,市占率為15.4%;其后為微軟以及科大訊飛分別占有8.1%以及4.5%的市場(chǎng)份額。

基于大屏的語(yǔ)音交互平臺(tái)競(jìng)品分析報(bào)告(初稿)

3. 中國(guó)智能語(yǔ)音市場(chǎng)分析

在人工智能和物聯(lián)網(wǎng)技術(shù)的發(fā)展帶領(lǐng)下,智能家居蓬勃興起,互聯(lián)網(wǎng)巨頭及新興創(chuàng)業(yè)公司從硬件、技術(shù)、系統(tǒng)解決方案等不同角度進(jìn)行布局,智能家居系統(tǒng)初步顯現(xiàn)。

預(yù)計(jì)2019年,中國(guó)智能家具市場(chǎng)規(guī)模將超1900億,雖增長(zhǎng)規(guī)模有所放緩,但市場(chǎng)規(guī)模將保持穩(wěn)定增長(zhǎng),2020年將突破2000億元。

基于大屏的語(yǔ)音交互平臺(tái)競(jìng)品分析報(bào)告(初稿)

4. 語(yǔ)音交互的市場(chǎng)規(guī)模以及市場(chǎng)格局

目前,中國(guó)智能語(yǔ)音市場(chǎng)的主要份額被科大訊飛、百度以及蘋(píng)果分割。

數(shù)據(jù)顯示:目前為止,中國(guó)智能語(yǔ)音市場(chǎng),科大訊飛市場(chǎng)占有率排名第一,市占率達(dá)到44%;其次為百度,市場(chǎng)占有率為28%;排名第三的是的蘋(píng)果,市占率為7%;其后為Nuance以及小i機(jī)器人占有均為3.0%的市場(chǎng)份額(前瞻產(chǎn)業(yè)研究)。

基于大屏的語(yǔ)音交互平臺(tái)競(jìng)品分析報(bào)告(初稿)

5. 中國(guó)家庭大屏產(chǎn)業(yè)

中國(guó)電視機(jī)出貨量在經(jīng)歷2011年到2016年的持續(xù)正向增長(zhǎng)后,2017年?次出現(xiàn)負(fù)增長(zhǎng),這?情況將在 2018年有所好轉(zhuǎn)。

同時(shí),互聯(lián)?電視機(jī)出貨量占?連年穩(wěn)定攀升,預(yù)計(jì)2018年將達(dá)到88%,全年出貨量近 4000萬(wàn)臺(tái)。2018年上半年,受世界杯效應(yīng)影響,銷(xiāo)量同?增長(zhǎng)3.6%,但受降價(jià)影響,整體營(yíng)業(yè)額下降2%,綜合測(cè)算全年銷(xiāo)量同?增長(zhǎng)3%。

基于大屏的語(yǔ)音交互平臺(tái)競(jìng)品分析報(bào)告(初稿)

以電視機(jī)為代表的大屏設(shè)備在智能家居中扮演著舉足輕重的作用,作為智能家居最為主要的交互方式——語(yǔ)音交互,智能語(yǔ)音交互系統(tǒng)有著巨大的市場(chǎng)規(guī)模和發(fā)展?jié)摿?,本?bào)告聚焦于基于大屏的智能語(yǔ)音交互系統(tǒng)進(jìn)行分析。

相較于移動(dòng)端的場(chǎng)景不同,大屏設(shè)備的主要使用場(chǎng)景在室內(nèi),集中于家庭。目標(biāo)客戶(hù)和使用場(chǎng)景的獨(dú)特性,使得智能語(yǔ)音應(yīng)用在該場(chǎng)景的使用具有特殊性。

例如用戶(hù)在近景中,我要看語(yǔ)文。這里“看”理解成學(xué)還是點(diǎn)播,意味著完全不同的跳轉(zhuǎn)頁(yè)面。這對(duì)于語(yǔ)義理解提出了較高的要求。

大屏設(shè)備作為智能家居概念的重要組成部分,也是語(yǔ)音交互的重要入口必然成為市場(chǎng)必爭(zhēng)的重要領(lǐng)域。

當(dāng)我們轉(zhuǎn)向用戶(hù)思考IOT時(shí)代萬(wàn)物互聯(lián),意味著你身邊的任何設(shè)備都是聯(lián)網(wǎng)的,你可以在任何地方、任何時(shí)間和任何設(shè)備交互(IOT的4A原則),所以IOT將大大消弱了手機(jī)當(dāng)前的交互中心地位。

當(dāng)云端開(kāi)始普及之后,未來(lái)計(jì)算平臺(tái)的前臺(tái),是一系列形態(tài)、功能各異的智能硬件,這些硬件或大或小,有屏或無(wú)屏,近場(chǎng)或遠(yuǎn)場(chǎng),位置固定或隨身移動(dòng)。雖然千差萬(wàn)別,用戶(hù)卻希望在任何一臺(tái)設(shè)備上的交互狀態(tài)可以云端同步至其他設(shè)備,用戶(hù)可能隨時(shí)在設(shè)備間切換,但希望交互進(jìn)程和數(shù)據(jù)流不被中斷、持續(xù)向前(集群智能)。

那么,什么樣的交互能夠支撐這種切換需求、適配各類(lèi)設(shè)備而又保證體驗(yàn)的一致性呢?

從這個(gè)角度思考,我們很容易就能發(fā)現(xiàn)語(yǔ)音交互的獨(dú)特優(yōu)勢(shì)。

6. 語(yǔ)音交互的優(yōu)勢(shì)

  • 解放雙手、雙眼、雙腿,接觸空間限制,近場(chǎng),遠(yuǎn)場(chǎng)可交互;
  • 指向明確,語(yǔ)義直達(dá)目標(biāo),縮短使用路徑;
  • 自然簡(jiǎn)單人性化,學(xué)習(xí)門(mén)檻低;
  • 可以1對(duì)1,也可以1對(duì)多;
  • 對(duì)設(shè)備要求低。

二、競(jìng)品對(duì)比分析概覽

1. 競(jìng)品簡(jiǎn)介

基于大屏的語(yǔ)音交互平臺(tái)競(jìng)品分析報(bào)告(初稿)

小愛(ài)同學(xué)是小米科技于2017年7月26日推出的智能語(yǔ)音交互系統(tǒng),適用于智能音響及其他智能設(shè)備,建構(gòu)于小愛(ài)開(kāi)放平臺(tái)上,可以通過(guò)連接進(jìn)入米家物聯(lián)網(wǎng)系統(tǒng)控制所有的米家智能設(shè)備。

小度電視伴侶是百度旗下的一款智能硬件產(chǎn)品,內(nèi)置DuerOS系統(tǒng)。從產(chǎn)品的概念來(lái)看,其以 Soundbar 的形態(tài)融入高性能 4K 機(jī)頂盒、智能音箱的功能,其三合一的創(chuàng)新產(chǎn)品形態(tài),為客廳影音場(chǎng)景帶來(lái)了簡(jiǎn)潔的一體性解決方案。

依托全語(yǔ)音交互大屏吸引,小度電視伴侶可實(shí)現(xiàn)利用語(yǔ)音打開(kāi)設(shè)置中的藍(lán)牙開(kāi)關(guān)、調(diào)整圖像設(shè)置等等。如“打開(kāi)WiFi”“打開(kāi)設(shè)置”等等,或者根據(jù)界面顯示的內(nèi)容,用語(yǔ)音命令指定播放視頻內(nèi)容,如“播放第三個(gè)”“這個(gè)人是誰(shuí)”等等。此外,小度電視伴侶還可以通過(guò)語(yǔ)音控制多款智能設(shè)備,如“打開(kāi)落地?zé)簟薄按蜷_(kāi)空調(diào)”等等。

訊飛語(yǔ)點(diǎn)是由科大訊飛推出的智能語(yǔ)音交互系統(tǒng), 在2015年,科大訊飛重新定義了萬(wàn)物互聯(lián)時(shí)代的人機(jī)交互標(biāo)準(zhǔn),發(fā)布了對(duì)人工智能產(chǎn)業(yè)具有里程碑意義的人機(jī)交互界面——AIUI。

2016年,圍繞科大訊飛人工智能開(kāi)放平臺(tái)的使用人次與創(chuàng)業(yè)團(tuán)隊(duì)成倍增長(zhǎng)。截至2017年1月,訊飛開(kāi)放平臺(tái)在線日服務(wù)量超30億人次,合作伙伴達(dá)到25萬(wàn)家,用戶(hù)數(shù)超9.1億,以科大訊飛為中心的人工智能產(chǎn)業(yè)生態(tài)持續(xù)構(gòu)建。

2. 目標(biāo)客戶(hù)

本報(bào)告針對(duì)基于家庭大屏的智能語(yǔ)音交互系統(tǒng)的競(jìng)品分析,故家庭大屏用戶(hù)為本報(bào)告產(chǎn)品的目標(biāo)用戶(hù)。

現(xiàn)階段,主流大屏視頻接入主要分為DTV,IPTV和OTT三種類(lèi)型,截?2018年Q2,DTV、OTT的中國(guó)城鎮(zhèn)家庭?屏保有量均超過(guò)2億戶(hù),IPTV??保有量達(dá)到1.42億。其中,中國(guó)移動(dòng)魔百和在?東省有約1000萬(wàn)的?戶(hù)成功轉(zhuǎn)為IPTV?戶(hù),移動(dòng)OTT盒?并?IPTV陣營(yíng)可能成為趨勢(shì),那么有望在短期內(nèi)使IPTV總?戶(hù)也躍升?2億戶(hù)。

受限于數(shù)據(jù)和資料,本報(bào)告對(duì)不同類(lèi)型的大屏終端用戶(hù)不作區(qū)分,以所有大屏用戶(hù)作為目標(biāo)用戶(hù)作為分析對(duì)象。

基于大屏的語(yǔ)音交互平臺(tái)競(jìng)品分析報(bào)告(初稿)

大屏用戶(hù)性別分布比例:

基于大屏的語(yǔ)音交互平臺(tái)競(jìng)品分析報(bào)告(初稿)

大屏用戶(hù)年齡分布比例:

基于大屏的語(yǔ)音交互平臺(tái)競(jìng)品分析報(bào)告(初稿)

大屏用戶(hù)學(xué)歷分布比例:

基于大屏的語(yǔ)音交互平臺(tái)競(jìng)品分析報(bào)告(初稿)

基于現(xiàn)有數(shù)據(jù)可以分析得出,大屏用戶(hù)的用戶(hù)分布較為平均。

與傳統(tǒng)的人工智能產(chǎn)品以年輕人、高學(xué)歷、男性為主要目標(biāo)用戶(hù)不同;基于大屏的智能語(yǔ)音交互系統(tǒng)用戶(hù)分布更為平均和廣泛,這種特點(diǎn)對(duì)具體場(chǎng)景的需求設(shè)計(jì)提出的新的要求。

目標(biāo)用戶(hù)群體畫(huà)像不具有代表性,使得產(chǎn)品在設(shè)計(jì)和開(kāi)發(fā)時(shí)需要更多的關(guān)注于場(chǎng)景而不是用戶(hù),從該場(chǎng)景下的通用需求出發(fā)對(duì)產(chǎn)品進(jìn)行設(shè)計(jì)和迭代。

三、評(píng)價(jià)指標(biāo)

本報(bào)告基于智能語(yǔ)音交互系統(tǒng)使用場(chǎng)景,在大屏語(yǔ)音交互外結(jié)合了車(chē)載語(yǔ)音交互系統(tǒng)評(píng)價(jià)的標(biāo)準(zhǔn),制定出對(duì)于大屏語(yǔ)音交互的性能評(píng)價(jià)體系。

智能語(yǔ)音交互系統(tǒng)的性能需滿(mǎn)足以下指標(biāo)要求,其中喚醒率和誤喚醒率應(yīng)針對(duì)支持語(yǔ)音喚醒功能的語(yǔ)音交互系統(tǒng)。

1. ASR

1.1 字準(zhǔn)確率

該指標(biāo)用于評(píng)價(jià)語(yǔ)音交互系統(tǒng)輸出的人類(lèi)可是別的文本信息正確率。對(duì)于中文普通話語(yǔ)音交互系統(tǒng),該項(xiàng)指標(biāo)的評(píng)價(jià)分類(lèi)如表1。

1.2 識(shí)別成功率

若語(yǔ)音交互系統(tǒng)在既定的識(shí)別輪數(shù)內(nèi)完成了語(yǔ)音識(shí)別任務(wù),則此次語(yǔ)音識(shí)別成功。語(yǔ)音識(shí)別成功與否應(yīng)該兼顧語(yǔ)音交互系統(tǒng)動(dòng)作的可靠性問(wèn)題。

若語(yǔ)音交互系統(tǒng)共進(jìn)行了R次特定的語(yǔ)音識(shí)別任務(wù),其中SR次識(shí)別成功,F(xiàn)R次識(shí)別出現(xiàn)誤操作(包括但不限于 未在既定的識(shí)別輪數(shù)內(nèi)完成,未完成識(shí)別前提前退出,識(shí)別無(wú)響應(yīng))。則:

識(shí)別成功率= SR/R * 100%

誤操作率 = FR/R * 100%

識(shí)別成功率 + 誤操作率 = 1

1.3 平均響應(yīng)時(shí)間

該指標(biāo)用于評(píng)價(jià)語(yǔ)音交互系統(tǒng)對(duì)語(yǔ)音識(shí)別任務(wù)的響應(yīng)速度,離線語(yǔ)音交互系統(tǒng)的平均響應(yīng)時(shí)間應(yīng)≤2S;在線語(yǔ)音交互系統(tǒng)的評(píng)價(jià)響應(yīng)時(shí)間應(yīng)≤3S。

1.4 喚醒率

若語(yǔ)音交互系統(tǒng)共進(jìn)行了W次喚醒,其中SW次成功喚醒。則:

喚醒率 = SW/W * 100%

該指標(biāo)用于評(píng)價(jià)語(yǔ)音交互系統(tǒng)在有背景噪音情況下,對(duì)語(yǔ)音喚醒操作的正確響應(yīng)情況。

1.5 誤喚醒率

若車(chē)載語(yǔ)音交互系統(tǒng)在T小時(shí)內(nèi)出現(xiàn)FW次誤喚醒。則:

誤喚醒率=FW/T 次/小時(shí)

該指標(biāo)用于評(píng)價(jià)語(yǔ)音交互系統(tǒng)在有背景噪音的情況下,對(duì)語(yǔ)音喚醒操作的錯(cuò)誤響應(yīng)情況。

2. TTS

主觀測(cè)試(自然度),以MOS為主:

  • MOS(Mean Opinion Scores),專(zhuān)家級(jí)評(píng)測(cè)(主觀);1-5分,5分最好;
  • ABX,普通用戶(hù)評(píng)測(cè)(主觀)。讓用戶(hù)來(lái)視聽(tīng)兩個(gè)TTS系統(tǒng),進(jìn)行對(duì)比,評(píng)測(cè)出聲音的自然度。

3. 交流體驗(yàn)

3.1 用戶(hù)任務(wù)達(dá)成率(表征產(chǎn)品功能是否有用以及功能覆蓋度)

比如智能客服,如果這個(gè)Session最終是以接入人工操作為結(jié)束的,那基本就說(shuō)明機(jī)器的回答有問(wèn)題,或者重復(fù)提供給用戶(hù)相同答案等。

3.2 對(duì)話交互效率

比如用戶(hù)完成一個(gè)任務(wù)的耗時(shí)、回復(fù)語(yǔ)對(duì)信息傳遞和動(dòng)作引導(dǎo)的效率、用戶(hù)進(jìn)行語(yǔ)音輸入的效率等(可能和打斷,One-shot等功能相關(guān))。

3.3 根據(jù)對(duì)話系統(tǒng)的類(lèi)型分類(lèi)

1)閑聊型

  • CPS(Conversations Per Session,平均單次對(duì)話輪數(shù))。值得注意的是此指標(biāo)為微軟小冰最早期提出的指標(biāo),并且是小冰內(nèi)部的(唯一)最重要指標(biāo)。
  • 相關(guān)性和新穎性。與原話題要有一定的相關(guān)性,但又不能是非常相似的話;
  • 話題終結(jié)者。如果機(jī)器說(shuō)過(guò)這句話之后,通常用戶(hù)都不會(huì)繼續(xù)接了,那這句話就會(huì)給個(gè)負(fù)分。

2)任務(wù)型

  • 留存率:雖然是傳統(tǒng)的指標(biāo),但是能夠發(fā)現(xiàn)用戶(hù)有沒(méi)有形成這樣的使用習(xí)慣;留存的計(jì)算甚至可以精確到每個(gè)功能,然后進(jìn)一步根據(jù)功能區(qū)做歸類(lèi),看看用戶(hù)對(duì)哪類(lèi)任務(wù)的接受程度較高,還可以從用戶(hù)的問(wèn)句之中分析發(fā)出指令的習(xí)慣去針對(duì)性的優(yōu)化解析和對(duì)話過(guò)程;到后面積累的特征多了,評(píng)價(jià)機(jī)制建立起來(lái)了,就可以上強(qiáng)化學(xué)習(xí);比如之前百度高考,教考生填報(bào)志愿,就是這么弄的。
  • 完成度(即前文提過(guò)的“用戶(hù)任務(wù)達(dá)成率”):由于任務(wù)型最后總要去調(diào)一個(gè)接口或者觸發(fā)什么東西來(lái)完成任務(wù),所以可以計(jì)算多少人進(jìn)入了這個(gè)對(duì)話單元,其中有多少人最后調(diào)了接口。
  • 相關(guān)的還有(每個(gè)任務(wù))平均slot填入輪數(shù)或填充完整度。即完成一個(gè)任務(wù),平均需要多少輪,平均填寫(xiě)了百分之多少的槽位slot。

3)問(wèn)答型

  • 最終借助人工操作的比例;
  • 重復(fù)問(wèn)同樣問(wèn)題的比例;
  • “沒(méi)答案”之類(lèi)的比例。

整體來(lái)說(shuō),行業(yè)一般PR宣傳時(shí),會(huì)更多的提CPS,其他指標(biāo)看起來(lái)可能相對(duì)太瑣碎或不夠高大上。

但是,實(shí)際工作中,可能CPS更多是面向閑聊型對(duì)話系統(tǒng);而其他的場(chǎng)景,可能更應(yīng)該從“效果”出發(fā)。比如,如果小孩子哭了,機(jī)器人能夠“哭聲安慰”,沒(méi)必要對(duì)話那么多輪次,反而應(yīng)該越少越好。

4. 語(yǔ)料自然度和人性化的程度

目前對(duì)于這類(lèi)問(wèn)題,一般是使用人工評(píng)估的方式進(jìn)行。這里的語(yǔ)料,通常不是單個(gè)句子,而是分為單輪的問(wèn)答對(duì)或多輪的一個(gè)session。

一般來(lái)講,評(píng)分范圍是1~5分:

  • 1分或2分:完全答非所問(wèn),以及含有不友好內(nèi)容或不適合語(yǔ)音播報(bào)的特殊內(nèi)容;
  • 3分:基本可用,問(wèn)答邏輯正確;
  • 4分:能解決用戶(hù)問(wèn)題且足夠精煉;
  • 5分:在4分基礎(chǔ)上,能讓人感受到情感及人設(shè)。

另外,為了消除主觀偏差,采用多人標(biāo)注、去掉極端值的方式。

四、產(chǎn)品功能對(duì)比一覽

基于大屏的語(yǔ)音交互平臺(tái)競(jìng)品分析報(bào)告(初稿)

可以看出智能語(yǔ)音交互系統(tǒng)不僅僅局限于對(duì)智能家居設(shè)備的語(yǔ)言控制,不同廠家的語(yǔ)言交互產(chǎn)品都進(jìn)行了大量的功能開(kāi)發(fā),包括但不限于生活管理服務(wù)、游戲、生活百科、增值服務(wù)。如

何挖掘出該場(chǎng)景下用戶(hù)的深度需求,抓住場(chǎng)景下用戶(hù)的痛點(diǎn)變成了各家廠商需要重點(diǎn)考慮的問(wèn)題。

五、產(chǎn)品體驗(yàn)細(xì)節(jié)對(duì)比

1. 功能體驗(yàn)

根據(jù)影響用戶(hù)選擇語(yǔ)音助手線上調(diào)查問(wèn)卷的結(jié)構(gòu),語(yǔ)音識(shí)別準(zhǔn)確度,操作便捷,輸入速度快,功能多樣,詞庫(kù)豐富等因素,對(duì)比分析部分產(chǎn)品體驗(yàn)細(xì)節(jié)。

本報(bào)告針對(duì)語(yǔ)音交互系統(tǒng)中常用的業(yè)務(wù)場(chǎng)景進(jìn)行了測(cè)試,通過(guò)對(duì)具體功能的體驗(yàn)對(duì)比進(jìn)一步了解。

基于大屏的語(yǔ)音交互平臺(tái)競(jìng)品分析報(bào)告(初稿)

基于上述功能體驗(yàn),訊飛語(yǔ)點(diǎn)在語(yǔ)音合成失真度和反應(yīng)時(shí)間上具有一定的優(yōu)勢(shì),這主要得益于科大訊飛在語(yǔ)音技術(shù)上的技術(shù)積累。

小度在語(yǔ)音交互時(shí),更加側(cè)重音樂(lè)搜索功能。在“劉德華的無(wú)間道”和黃梅戲的交互中,小度均直接跳轉(zhuǎn)進(jìn)QQ語(yǔ)音界面。

在開(kāi)放式聊天中,小度的體驗(yàn)感較差。無(wú)法理解用戶(hù)意圖時(shí),采用了相同的語(yǔ)音反饋使得用戶(hù)的使用欲望降低。小愛(ài)同學(xué)針對(duì)開(kāi)發(fā)式問(wèn)題,有著不同的反饋。

在知識(shí)百科場(chǎng)景下,小度體現(xiàn)出了較強(qiáng)的優(yōu)勢(shì)。該優(yōu)勢(shì)得益于百度在搜索引擎中的長(zhǎng)期積累。

2. VUI體驗(yàn)

(因機(jī)頂盒配置問(wèn)題,無(wú)法體驗(yàn))

六、總結(jié)分析

  1. 智能語(yǔ)音交互系統(tǒng)依然存在著發(fā)展空間,競(jìng)爭(zhēng)進(jìn)入了白熱化階段。以本報(bào)告的三款產(chǎn)品為例,訊飛語(yǔ)點(diǎn),小愛(ài)同學(xué)和小度分別擁有自身的發(fā)展優(yōu)勢(shì)。但值得一提的是,暫時(shí)未出現(xiàn)一款絕對(duì)領(lǐng)先的產(chǎn)品。各款產(chǎn)品都擁有自己優(yōu)勢(shì)和劣勢(shì),特別地在某些特定的場(chǎng)景中體驗(yàn)分化極大。
  2. 現(xiàn)階段,語(yǔ)音交互系統(tǒng)中語(yǔ)音識(shí)別環(huán)節(jié)暫無(wú)較大差距。盡管在地方性語(yǔ)言識(shí)別上科大訊飛擁有著較大優(yōu)勢(shì),由于其使用場(chǎng)景較為單一且目標(biāo)用戶(hù)數(shù)量有限,難以形成產(chǎn)品優(yōu)勢(shì)。
  3. 在NLP階段,由于各款產(chǎn)品技術(shù)背景的差異,使得其在不同場(chǎng)景下存在獨(dú)特的優(yōu)勢(shì)。例如:訊飛語(yǔ)點(diǎn)的方言識(shí)別,小愛(ài)的米家產(chǎn)品控制,小度的語(yǔ)音檢索。但在識(shí)別語(yǔ)音意圖時(shí),與真實(shí)的對(duì)話依然才存在著較大差距。
  4. 搭載于大屏上的智能語(yǔ)音交互系統(tǒng),由于其場(chǎng)景較為復(fù)雜,仍然需要一段時(shí)間進(jìn)行發(fā)展和完善。

關(guān)于語(yǔ)音交互系統(tǒng)未來(lái)的猜想

智能語(yǔ)音交互系統(tǒng)在IOT和5G的技術(shù)的不斷發(fā)展和普及下,將會(huì)擁有越來(lái)越大的發(fā)揮空間和巨大的市場(chǎng)需求,智能語(yǔ)音交互系統(tǒng)也將會(huì)從閉環(huán)問(wèn)答式的產(chǎn)品逐步走向開(kāi)環(huán)交流式的智能產(chǎn)品。

作為一款智能產(chǎn)品,智能語(yǔ)音交互系統(tǒng)將逐漸實(shí)現(xiàn)情感化的功能,從一個(gè)智能系統(tǒng)到擁有情感需求的智能機(jī)器人??梢韵胂蟮氖?,智能語(yǔ)音交互系統(tǒng)將會(huì)成為人工智能發(fā)展的一個(gè)重要體現(xiàn),并在未來(lái)的生活中扮演著越來(lái)越重要的作用。

參考文獻(xiàn)

《語(yǔ)音交互的三駕馬車(chē):ASR、NLP、TTS》[http://www.aharts.cn/ai/2620327.html]

《2018年智能語(yǔ)音行業(yè)發(fā)展現(xiàn)狀及趨勢(shì)分析》[https://bg.qianzhan.com/report/detail/459/190203-4d8a0a01.html]

《2019 中國(guó)家庭大屏產(chǎn)業(yè)生態(tài)發(fā)展白皮書(shū)》

《2018年中國(guó)智能語(yǔ)音企業(yè)案例研究報(bào)告》

《TAF-WG7-AS0041-V1.0.0 2019 智能產(chǎn)品語(yǔ)音識(shí)別測(cè)評(píng)方法 車(chē)載語(yǔ)音交互系統(tǒng)》

《填槽與多輪對(duì)話 | AI產(chǎn)品經(jīng)理需要了解的AI技術(shù)概念》。

 

本文由 @方阿貝? 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 謝謝,非常受益

    來(lái)自北京 回復(fù)