一起聊聊,智能座艙語(yǔ)音交互的發(fā)展現(xiàn)狀和趨勢(shì)
在功能層上進(jìn)行合理布局、給予用戶完善的交互體驗(yàn),是幾乎所有產(chǎn)品都需要遵循的一個(gè)原則,智能座艙產(chǎn)品也不例外。那么智能座艙的語(yǔ)音交互功能,包括哪些組成環(huán)節(jié)?本篇文章里,作者針對(duì)智能座艙的語(yǔ)音交互設(shè)計(jì)及發(fā)展做了解讀,一起來看。
?之前有車企的負(fù)責(zé)人咨詢當(dāng)前智能座艙語(yǔ)音交互的現(xiàn)狀和發(fā)展趨勢(shì),筆者借此做個(gè)簡(jiǎn)單的總結(jié)和歸納,以下內(nèi)容將分為語(yǔ)音交互的喚醒、聆聽、理解、播報(bào)4個(gè)部分。
一、喚醒
1. 聲源定位從雙音區(qū)發(fā)展到四音區(qū)
使用聲源定位的目的主要有兩個(gè),第一個(gè)目的是知道是誰(shuí)在說話并提供個(gè)性化服務(wù),例如副駕說“打開窗戶”,這時(shí)只有副駕的窗戶會(huì)被打開;第二個(gè)目的是實(shí)現(xiàn)定向拾音,由于車內(nèi)外環(huán)境的噪音較大,同時(shí)乘客之間的討論和回聲會(huì)影響語(yǔ)音交互的拾音質(zhì)量,因此聲源定位能讓麥克風(fēng)陣列鎖住某個(gè)方向的聲音。
雙音區(qū)的意思是將座艙分為左側(cè)和右側(cè),無(wú)法識(shí)別是駕駛員還是后排左側(cè)的乘客說話,因此局限性較大。四音區(qū)可以將座艙區(qū)分為駕駛員、副駕、后排左側(cè)和后排右側(cè)四個(gè)區(qū)域,能較好地解決雙音區(qū)的問題。
以下是騰訊騰訊AI Lab總結(jié)的各種車載麥克風(fēng)陣列分布形式,及其優(yōu)缺點(diǎn) 。
2. 語(yǔ)音交互支持One-Shot
部分語(yǔ)音技術(shù)供應(yīng)商支持“One-Shot”技術(shù),這也被稱為“喚醒連說”。它的意思是“喚醒詞+意圖識(shí)別”一體化,支持用戶可以在說出喚醒詞之后不作停頓,立刻說出后續(xù)需求。
例如用戶直接說“Alexa幫我打開車窗”,Alexa就能直接把車窗打開。這種方式摒棄傳統(tǒng)的一問一答的形式,極大減少用戶語(yǔ)音操控的步驟,化繁為簡(jiǎn),操作簡(jiǎn)便?!癘ne-Shot”不會(huì)改變語(yǔ)音交互設(shè)計(jì)的任何邏輯,但它能明顯提升使用時(shí)的體驗(yàn)。
3. 語(yǔ)音交互支持喚醒詞+離線意圖識(shí)別
離線識(shí)別就是為了解決信號(hào)不好導(dǎo)致指令無(wú)法執(zhí)行的問題。為了控制硬件成本和體積大小,客戶端的算力遠(yuǎn)不如云端,其次核心算法放在本地有被競(jìng)爭(zhēng)對(duì)手盜取機(jī)密的可能,所以我們不可能將所有的識(shí)別技術(shù)放在本地進(jìn)行。
一般離線識(shí)別主要服務(wù)于常用簡(jiǎn)單的指令,例如“打開車窗”、“調(diào)節(jié)溫度”等等,它們會(huì)通過正則表達(dá)式獲取關(guān)鍵詞,匹配指令后執(zhí)行。
4. 語(yǔ)音交互支持免喚醒指令
部分語(yǔ)音技術(shù)供應(yīng)商支持“免喚醒”技術(shù),例如省略“Alexa”直接說“打開車窗”,車窗會(huì)直接打開。
其實(shí)“免喚醒”正是用了喚醒詞技術(shù),只不過把默認(rèn)喚醒詞改為指令,新的喚醒詞被命中后會(huì)直接執(zhí)行相關(guān)指令。
但是,我們不能把所有的指令設(shè)置為免喚醒,首先喚醒詞識(shí)別有自己的局限性,不是所有的文字都能被正確識(shí)別,其次,越多的喚醒詞意味著被誤喚醒的幾率越高。用戶對(duì)其他乘客說打開車窗時(shí),語(yǔ)音系統(tǒng)會(huì)誤以為用戶對(duì)自己發(fā)出的指令從而執(zhí)行了相關(guān)操作。所以“免喚醒”要慎用。
5. 語(yǔ)音交互支持多模喚醒
語(yǔ)音交互喚醒方式除了常見的喚醒詞和方向盤按鍵,姿態(tài)追蹤和眼動(dòng)追蹤在未來有可能成為語(yǔ)音交互喚醒的新方式。
在人和人的交流過程中,當(dāng)A轉(zhuǎn)向并看著B時(shí),B大概率知道A要發(fā)起交流,而且A也不會(huì)先說:“你好,B”,除非兩者關(guān)系較差或者場(chǎng)景比較微妙。
在人機(jī)交流過程中應(yīng)該滿足以上場(chǎng)景,如果智能座艙中擁有一個(gè)實(shí)體機(jī)器人或者在屏幕里有較大面積能顯示一個(gè)語(yǔ)音助手,我們可以通過用戶頭部姿態(tài)的轉(zhuǎn)向和注視時(shí)長(zhǎng)判斷用戶是否想和語(yǔ)音助手發(fā)起交流,用戶也有可能向語(yǔ)音助手揮手,以上動(dòng)作觸發(fā)后語(yǔ)音助手應(yīng)該激活并開始聆聽。
有讀者可能會(huì)問,為什么要做這么多方式來喚醒語(yǔ)音助手?
因?yàn)樽匀唤换ズ投嗄=换ビ袀€(gè)特點(diǎn)就是要考慮冗余的設(shè)計(jì),用戶在不同場(chǎng)景下有可能采用不同的方式向語(yǔ)音助手發(fā)起交互,例如在上車場(chǎng)景時(shí)用戶心情較好確實(shí)有可能向語(yǔ)音助手揮手Say Hi,如果語(yǔ)音助手沒有任何動(dòng)靜,用戶的心情有可能受到打擊;還有另外一個(gè)例子是小孩的交流方式是多樣的,語(yǔ)音助手應(yīng)該有相應(yīng)的配合。
眼動(dòng)追蹤在未來有可能成為一種喚醒方式,當(dāng)用戶看向哪個(gè)地方并發(fā)起語(yǔ)音交互時(shí),這時(shí)用戶眼睛看向的地方會(huì)成為語(yǔ)音指令中的主語(yǔ),例如儀表盤上突然出現(xiàn)一個(gè)紅色圖標(biāo),用戶有可能看著它直接問這是什么意思?這時(shí)語(yǔ)音助手可以做相應(yīng)的解答。
二、聆聽
1. 全雙工語(yǔ)音交互成為主流
持續(xù)監(jiān)聽可以理解為一旦喚醒語(yǔ)音助手,語(yǔ)音助手會(huì)把麥克風(fēng)一直打開。用戶可以一直說,語(yǔ)音助手會(huì)針對(duì)用戶每一句話分別作出響應(yīng)。
但是持續(xù)監(jiān)聽的體驗(yàn)依然存在很多問題,因?yàn)辂溈孙L(fēng)一直打開,語(yǔ)音助手會(huì)把所有的聲音進(jìn)行聆聽并做出響應(yīng)。假設(shè)上一輪對(duì)話未結(jié)束,這時(shí)候語(yǔ)音助手聽到其他人說的話,誤以為這是新的語(yǔ)音任務(wù),會(huì)把上一輪對(duì)話直接結(jié)束并播報(bào)新的內(nèi)容。
還有些具備持續(xù)監(jiān)聽能力的語(yǔ)音助手一旦聽到其他聲音會(huì)立刻停止播報(bào),這對(duì)用戶來說無(wú)疑是一種斷斷續(xù)續(xù)的體驗(yàn),效果可能比單輪交互、多輪交互還要差。
目前很多車廠已經(jīng)宣稱自己的車配備了全雙工語(yǔ)音交互技術(shù),相比簡(jiǎn)單地把麥克風(fēng)打開,全雙工語(yǔ)音交互不會(huì)像持續(xù)監(jiān)聽一樣容易被噪音打斷整個(gè)對(duì)話過程。要實(shí)現(xiàn)以上效果,全雙工語(yǔ)音交互需要擁有更強(qiáng)的抗噪能力和上下文理解能力,它能理解每一句噪音是否跟當(dāng)前任務(wù)有關(guān),并且能猜測(cè)當(dāng)前任務(wù)下一輪對(duì)話是什么,這對(duì)于技術(shù)的要求非常高。
全雙工語(yǔ)音交互可以簡(jiǎn)單地理解為真正的“邊聽邊說”,用戶一旦習(xí)慣了全雙工語(yǔ)音交互,就很難回到以上單輪交互、多輪交互和持續(xù)監(jiān)聽三種交互模式,因?yàn)樗鼈兌疾皇亲匀坏慕换シ绞健?/p>
2. ASR支持自動(dòng)校正
筆者發(fā)現(xiàn)以前自己在手機(jī)地圖使用語(yǔ)音輸入,它會(huì)根據(jù)你的口音、地理位置和歷史記錄等因素進(jìn)行ASR的校正,以及將ASR中出現(xiàn)一些同音字、二義性詞以及用戶發(fā)音不標(biāo)準(zhǔn)或者說錯(cuò)的字詞進(jìn)行校正。
百度地圖、高德地圖的手機(jī)地圖做得好的原因是地圖是用了自己的語(yǔ)音交互系統(tǒng),以及十多年的地圖數(shù)據(jù)積累,但是車載地圖的語(yǔ)音交互系統(tǒng)有可能采用的是思必馳、科大訊飛等供應(yīng)商,在ASR校正時(shí)缺乏地圖數(shù)據(jù)的校驗(yàn)導(dǎo)致識(shí)別準(zhǔn)確率較低,這個(gè)問題的解決需要多個(gè)供應(yīng)商一起配合才能較好地解決。
3. 聲紋識(shí)別在未來有一定作用
聲紋識(shí)別在聆聽過程中能有效區(qū)分不同人正在說的話,對(duì)于上下文理解有一定的幫助,而且根據(jù)應(yīng)用場(chǎng)景為車內(nèi)駕乘人員提供差別化服務(wù),但目前有可能因?yàn)榧夹g(shù)仍未成熟暫未看到有車企使用了聲紋識(shí)別技術(shù),在未來有一定的發(fā)展空間。
三、理解
1. 支持一句話包含多個(gè)任務(wù)的理解
這是一項(xiàng)體現(xiàn)語(yǔ)音交互高效率的重要特性。一般來說GUI完成一項(xiàng)任務(wù)需要分幾個(gè)步驟,語(yǔ)音交互可以一句話就搞定,在導(dǎo)航場(chǎng)景下用戶可以說“我想去廣州機(jī)場(chǎng),途中先去趟超市和充電站”,語(yǔ)音交互可以幫助用戶一次性設(shè)置三項(xiàng)途經(jīng)點(diǎn),效率提升了不少。手機(jī)百度地圖在幾年前已率先支持該能力。
2. Shortcuts成為基礎(chǔ)能力
iOS應(yīng)用Shortcuts允許用戶設(shè)置多個(gè)指令,然后命名為一條語(yǔ)音指令,用戶只要對(duì)Siri說出這條語(yǔ)音指令就能把相關(guān)指令按順序執(zhí)行。小鵬汽車在2020年已經(jīng)支持了Shortcuts功能。
3. VUI和GUI融合將成為系統(tǒng)底層設(shè)計(jì)
小鵬汽車在2020年發(fā)布的全場(chǎng)景語(yǔ)音交互正是將語(yǔ)音交互和GUI進(jìn)行深度打通,它能有效實(shí)現(xiàn)語(yǔ)音交互直接控制GUI上的控件和組件,極大提升了駕駛員對(duì)于系統(tǒng)控制的效率。
四、播報(bào)
1. 讓播報(bào)音色更擬人
當(dāng)前大部分語(yǔ)音助手在播報(bào)時(shí)語(yǔ)氣沒有任何變化,而且音色機(jī)械感強(qiáng),實(shí)現(xiàn)語(yǔ)音助手的擬人化播報(bào)將有效提升語(yǔ)音助手的情感表達(dá)。小鵬汽車在2021年7月份新推出的小P版本聲稱具備愉快、溫和、親熱等14種強(qiáng)烈情緒的變換能力,而且在微軟MOS(Mean Opinion Score)語(yǔ)音質(zhì)量評(píng)測(cè)中獲得了4.49的高分(滿分為5分,分?jǐn)?shù)越高越接近真實(shí)人聲)。
音色自定義也是一個(gè)可見得著的趨勢(shì),2019年百度地圖推出了地圖語(yǔ)音定制產(chǎn)品,用戶只需在百度地圖App上錄制20句話,20分鐘左右即可生成個(gè)人完整語(yǔ)音包,21年億咖通攜手百度Apollo定制新一代智能座艙系統(tǒng)也包含了相關(guān)功能。
2. TTS個(gè)性化播報(bào)
除了音色可以提升情感表達(dá),根據(jù)場(chǎng)景定制TTS文本也能有效提升語(yǔ)音助手的情感表達(dá)。
舉個(gè)例子,語(yǔ)音助手和所有用戶對(duì)話過程中都會(huì)用“你”字,“不好意思我聽不懂你能再說一遍嗎”、“請(qǐng)問有什么可以幫你的呢”……如果將“你”字改為名字和昵稱,這時(shí)表達(dá)和用戶的感受會(huì)發(fā)生新的變化,因?yàn)橛脩糁勒Z(yǔ)音助手知道自己是誰(shuí),這有可能會(huì)加強(qiáng)用戶對(duì)語(yǔ)音助手的信任感;第二說名字和昵稱更能體現(xiàn)親切感,就跟朋友聊天的時(shí)候不會(huì)天天用“你”字。
再舉個(gè)例子,當(dāng)用戶上車時(shí)語(yǔ)音助手會(huì)根據(jù)不同的上車順序和用戶身份一一打招呼,例如“Hi,奶奶(年老的婦女,坐在后排左側(cè))、小明(駕駛員)、小紅(小孩,坐在后排右側(cè))”,這比語(yǔ)音助手只跟駕駛員打招呼親切得多,而且能體現(xiàn)出這個(gè)語(yǔ)音助手是智能且懂禮貌的。
以上例子看起來是在TTS文案上進(jìn)行優(yōu)化,背后其實(shí)采用了一系列空間信息、身份理解以及性別、年齡預(yù)測(cè)等技術(shù)。以上技術(shù)都已成熟,雖然這看起來使用了大量技術(shù)而且最后呈現(xiàn)的結(jié)果僅僅是文案的變化,但筆者認(rèn)為它們對(duì)于語(yǔ)音助手的情感化和個(gè)性化有質(zhì)的提升。
最后,除了語(yǔ)音交互,基于聲音的創(chuàng)新也在不斷發(fā)展當(dāng)中。由于駕駛員在駕駛過程很難看到背后的事物,但聽覺能接收并感知來自360°的信息,因此在不同位置播放音效能有效對(duì)駕駛員進(jìn)行預(yù)警和提示,提升駕駛員的空間感知能力。
除了空間上的預(yù)警提醒,娛樂和體驗(yàn)也是智能座艙重點(diǎn)關(guān)注對(duì)象,7.1聲道以及7.1.4聲道音響能為乘客帶來不一樣的感官體驗(yàn),因?yàn)槁曇艨梢栽诳臻g中流動(dòng)起來,這時(shí)電動(dòng)汽車可以在7.1聲道的基礎(chǔ)上重新設(shè)計(jì)引擎聲浪系統(tǒng),也可以配合主動(dòng)式氛圍燈做更多空間上的渲染。
專欄作家
薛志榮,微信公眾號(hào):薛志榮,人人都是產(chǎn)品經(jīng)理專欄作家。暢銷書《AI改變?cè)O(shè)計(jì)-人工智能時(shí)代的設(shè)計(jì)師生存手冊(cè)》作者,全棧開發(fā)者,專注于交互設(shè)計(jì)和人工智能設(shè)計(jì)。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
車載語(yǔ)音方向吃香嗎?最近對(duì)這個(gè)方向很感興趣
對(duì)于TTS個(gè)性化播報(bào)應(yīng)該會(huì)遇到很多問題,我第一想到的是人類社交文化,例如上車是一位28歲左右的女性,由于年齡預(yù)測(cè)失誤,“Hi,阿姨”那是會(huì)讓這位女性不開心的,也會(huì)讓社恐人士感受到尷尬。技術(shù)革新的路上會(huì)遇到很多的問題,大腦們也在面臨不同角度問題產(chǎn)生的解決方案,respect。
語(yǔ)音交互不僅是有情感的,而且也有效地對(duì)駕駛員進(jìn)行預(yù)警和提示,提升駕駛員的空間感知能力。
1