黄色A级毛片,伊人久久大香线蕉AV色婷婷色,亚洲综合av一区二区三区不卡

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

一起聊聊，智能座艙語(yǔ)音交互的發(fā)展現(xiàn)狀和趨勢(shì)

薛志榮

2022-09-21

4 評(píng)論 5149 瀏覽 43 收藏

15 分鐘

在功能層上進(jìn)行合理布局、給予用戶完善的交互體驗(yàn)，是幾乎所有產(chǎn)品都需要遵循的一個(gè)原則，智能座艙產(chǎn)品也不例外。那么智能座艙的語(yǔ)音交互功能，包括哪些組成環(huán)節(jié)？本篇文章里，作者針對(duì)智能座艙的語(yǔ)音交互設(shè)計(jì)及發(fā)展做了解讀，一起來看。

?之前有車企的負(fù)責(zé)人咨詢當(dāng)前智能座艙語(yǔ)音交互的現(xiàn)狀和發(fā)展趨勢(shì)，筆者借此做個(gè)簡(jiǎn)單的總結(jié)和歸納，以下內(nèi)容將分為語(yǔ)音交互的喚醒、聆聽、理解、播報(bào)4個(gè)部分。

一、喚醒

1. 聲源定位從雙音區(qū)發(fā)展到四音區(qū)

使用聲源定位的目的主要有兩個(gè)，第一個(gè)目的是知道是誰(shuí)在說話并提供個(gè)性化服務(wù)，例如副駕說“打開窗戶”，這時(shí)只有副駕的窗戶會(huì)被打開；第二個(gè)目的是實(shí)現(xiàn)定向拾音，由于車內(nèi)外環(huán)境的噪音較大，同時(shí)乘客之間的討論和回聲會(huì)影響語(yǔ)音交互的拾音質(zhì)量，因此聲源定位能讓麥克風(fēng)陣列鎖住某個(gè)方向的聲音。

雙音區(qū)的意思是將座艙分為左側(cè)和右側(cè)，無(wú)法識(shí)別是駕駛員還是后排左側(cè)的乘客說話，因此局限性較大。四音區(qū)可以將座艙區(qū)分為駕駛員、副駕、后排左側(cè)和后排右側(cè)四個(gè)區(qū)域，能較好地解決雙音區(qū)的問題。

以下是騰訊騰訊AI Lab總結(jié)的各種車載麥克風(fēng)陣列分布形式，及其優(yōu)缺點(diǎn) 。

智能座艙語(yǔ)音交互的發(fā)展現(xiàn)狀和趨勢(shì)

2. 語(yǔ)音交互支持One-Shot

部分語(yǔ)音技術(shù)供應(yīng)商支持“One-Shot”技術(shù)，這也被稱為“喚醒連說”。它的意思是“喚醒詞+意圖識(shí)別”一體化，支持用戶可以在說出喚醒詞之后不作停頓，立刻說出后續(xù)需求。

例如用戶直接說“Alexa幫我打開車窗”，Alexa就能直接把車窗打開。這種方式摒棄傳統(tǒng)的一問一答的形式，極大減少用戶語(yǔ)音操控的步驟，化繁為簡(jiǎn)，操作簡(jiǎn)便?！癘ne-Shot”不會(huì)改變語(yǔ)音交互設(shè)計(jì)的任何邏輯，但它能明顯提升使用時(shí)的體驗(yàn)。

3. 語(yǔ)音交互支持喚醒詞+離線意圖識(shí)別

離線識(shí)別就是為了解決信號(hào)不好導(dǎo)致指令無(wú)法執(zhí)行的問題。為了控制硬件成本和體積大小，客戶端的算力遠(yuǎn)不如云端，其次核心算法放在本地有被競(jìng)爭(zhēng)對(duì)手盜取機(jī)密的可能，所以我們不可能將所有的識(shí)別技術(shù)放在本地進(jìn)行。

一般離線識(shí)別主要服務(wù)于常用簡(jiǎn)單的指令，例如“打開車窗”、“調(diào)節(jié)溫度”等等，它們會(huì)通過正則表達(dá)式獲取關(guān)鍵詞，匹配指令后執(zhí)行。

4. 語(yǔ)音交互支持免喚醒指令

部分語(yǔ)音技術(shù)供應(yīng)商支持“免喚醒”技術(shù)，例如省略“Alexa”直接說“打開車窗”，車窗會(huì)直接打開。

其實(shí)“免喚醒”正是用了喚醒詞技術(shù)，只不過把默認(rèn)喚醒詞改為指令，新的喚醒詞被命中后會(huì)直接執(zhí)行相關(guān)指令。

但是，我們不能把所有的指令設(shè)置為免喚醒，首先喚醒詞識(shí)別有自己的局限性，不是所有的文字都能被正確識(shí)別，其次，越多的喚醒詞意味著被誤喚醒的幾率越高。用戶對(duì)其他乘客說打開車窗時(shí)，語(yǔ)音系統(tǒng)會(huì)誤以為用戶對(duì)自己發(fā)出的指令從而執(zhí)行了相關(guān)操作。所以“免喚醒”要慎用。

5. 語(yǔ)音交互支持多模喚醒

語(yǔ)音交互喚醒方式除了常見的喚醒詞和方向盤按鍵，姿態(tài)追蹤和眼動(dòng)追蹤在未來有可能成為語(yǔ)音交互喚醒的新方式。

在人和人的交流過程中，當(dāng)A轉(zhuǎn)向并看著B時(shí)，B大概率知道A要發(fā)起交流，而且A也不會(huì)先說：“你好，B”，除非兩者關(guān)系較差或者場(chǎng)景比較微妙。

在人機(jī)交流過程中應(yīng)該滿足以上場(chǎng)景，如果智能座艙中擁有一個(gè)實(shí)體機(jī)器人或者在屏幕里有較大面積能顯示一個(gè)語(yǔ)音助手，我們可以通過用戶頭部姿態(tài)的轉(zhuǎn)向和注視時(shí)長(zhǎng)判斷用戶是否想和語(yǔ)音助手發(fā)起交流，用戶也有可能向語(yǔ)音助手揮手，以上動(dòng)作觸發(fā)后語(yǔ)音助手應(yīng)該激活并開始聆聽。

有讀者可能會(huì)問，為什么要做這么多方式來喚醒語(yǔ)音助手？

因?yàn)樽匀唤换ズ投嗄＝换ビ袀€(gè)特點(diǎn)就是要考慮冗余的設(shè)計(jì)，用戶在不同場(chǎng)景下有可能采用不同的方式向語(yǔ)音助手發(fā)起交互，例如在上車場(chǎng)景時(shí)用戶心情較好確實(shí)有可能向語(yǔ)音助手揮手Say Hi，如果語(yǔ)音助手沒有任何動(dòng)靜，用戶的心情有可能受到打擊；還有另外一個(gè)例子是小孩的交流方式是多樣的，語(yǔ)音助手應(yīng)該有相應(yīng)的配合。

眼動(dòng)追蹤在未來有可能成為一種喚醒方式，當(dāng)用戶看向哪個(gè)地方并發(fā)起語(yǔ)音交互時(shí)，這時(shí)用戶眼睛看向的地方會(huì)成為語(yǔ)音指令中的主語(yǔ)，例如儀表盤上突然出現(xiàn)一個(gè)紅色圖標(biāo)，用戶有可能看著它直接問這是什么意思？這時(shí)語(yǔ)音助手可以做相應(yīng)的解答。

二、聆聽

1. 全雙工語(yǔ)音交互成為主流

持續(xù)監(jiān)聽可以理解為一旦喚醒語(yǔ)音助手，語(yǔ)音助手會(huì)把麥克風(fēng)一直打開。用戶可以一直說，語(yǔ)音助手會(huì)針對(duì)用戶每一句話分別作出響應(yīng)。

但是持續(xù)監(jiān)聽的體驗(yàn)依然存在很多問題，因?yàn)辂溈孙L(fēng)一直打開，語(yǔ)音助手會(huì)把所有的聲音進(jìn)行聆聽并做出響應(yīng)。假設(shè)上一輪對(duì)話未結(jié)束，這時(shí)候語(yǔ)音助手聽到其他人說的話，誤以為這是新的語(yǔ)音任務(wù)，會(huì)把上一輪對(duì)話直接結(jié)束并播報(bào)新的內(nèi)容。

還有些具備持續(xù)監(jiān)聽能力的語(yǔ)音助手一旦聽到其他聲音會(huì)立刻停止播報(bào)，這對(duì)用戶來說無(wú)疑是一種斷斷續(xù)續(xù)的體驗(yàn)，效果可能比單輪交互、多輪交互還要差。

目前很多車廠已經(jīng)宣稱自己的車配備了全雙工語(yǔ)音交互技術(shù)，相比簡(jiǎn)單地把麥克風(fēng)打開，全雙工語(yǔ)音交互不會(huì)像持續(xù)監(jiān)聽一樣容易被噪音打斷整個(gè)對(duì)話過程。要實(shí)現(xiàn)以上效果，全雙工語(yǔ)音交互需要擁有更強(qiáng)的抗噪能力和上下文理解能力，它能理解每一句噪音是否跟當(dāng)前任務(wù)有關(guān)，并且能猜測(cè)當(dāng)前任務(wù)下一輪對(duì)話是什么，這對(duì)于技術(shù)的要求非常高。

全雙工語(yǔ)音交互可以簡(jiǎn)單地理解為真正的“邊聽邊說”，用戶一旦習(xí)慣了全雙工語(yǔ)音交互，就很難回到以上單輪交互、多輪交互和持續(xù)監(jiān)聽三種交互模式，因?yàn)樗鼈兌疾皇亲匀坏慕换シ绞健?/p>

2. ASR支持自動(dòng)校正

筆者發(fā)現(xiàn)以前自己在手機(jī)地圖使用語(yǔ)音輸入，它會(huì)根據(jù)你的口音、地理位置和歷史記錄等因素進(jìn)行ASR的校正，以及將ASR中出現(xiàn)一些同音字、二義性詞以及用戶發(fā)音不標(biāo)準(zhǔn)或者說錯(cuò)的字詞進(jìn)行校正。

百度地圖、高德地圖的手機(jī)地圖做得好的原因是地圖是用了自己的語(yǔ)音交互系統(tǒng)，以及十多年的地圖數(shù)據(jù)積累，但是車載地圖的語(yǔ)音交互系統(tǒng)有可能采用的是思必馳、科大訊飛等供應(yīng)商，在ASR校正時(shí)缺乏地圖數(shù)據(jù)的校驗(yàn)導(dǎo)致識(shí)別準(zhǔn)確率較低，這個(gè)問題的解決需要多個(gè)供應(yīng)商一起配合才能較好地解決。

3. 聲紋識(shí)別在未來有一定作用

聲紋識(shí)別在聆聽過程中能有效區(qū)分不同人正在說的話，對(duì)于上下文理解有一定的幫助，而且根據(jù)應(yīng)用場(chǎng)景為車內(nèi)駕乘人員提供差別化服務(wù)，但目前有可能因?yàn)榧夹g(shù)仍未成熟暫未看到有車企使用了聲紋識(shí)別技術(shù)，在未來有一定的發(fā)展空間。

三、理解

1. 支持一句話包含多個(gè)任務(wù)的理解

這是一項(xiàng)體現(xiàn)語(yǔ)音交互高效率的重要特性。一般來說GUI完成一項(xiàng)任務(wù)需要分幾個(gè)步驟，語(yǔ)音交互可以一句話就搞定，在導(dǎo)航場(chǎng)景下用戶可以說“我想去廣州機(jī)場(chǎng)，途中先去趟超市和充電站”，語(yǔ)音交互可以幫助用戶一次性設(shè)置三項(xiàng)途經(jīng)點(diǎn)，效率提升了不少。手機(jī)百度地圖在幾年前已率先支持該能力。

2. Shortcuts成為基礎(chǔ)能力

iOS應(yīng)用Shortcuts允許用戶設(shè)置多個(gè)指令，然后命名為一條語(yǔ)音指令，用戶只要對(duì)Siri說出這條語(yǔ)音指令就能把相關(guān)指令按順序執(zhí)行。小鵬汽車在2020年已經(jīng)支持了Shortcuts功能。

3. VUI和GUI融合將成為系統(tǒng)底層設(shè)計(jì)

小鵬汽車在2020年發(fā)布的全場(chǎng)景語(yǔ)音交互正是將語(yǔ)音交互和GUI進(jìn)行深度打通，它能有效實(shí)現(xiàn)語(yǔ)音交互直接控制GUI上的控件和組件，極大提升了駕駛員對(duì)于系統(tǒng)控制的效率。

四、播報(bào)

1. 讓播報(bào)音色更擬人

當(dāng)前大部分語(yǔ)音助手在播報(bào)時(shí)語(yǔ)氣沒有任何變化，而且音色機(jī)械感強(qiáng)，實(shí)現(xiàn)語(yǔ)音助手的擬人化播報(bào)將有效提升語(yǔ)音助手的情感表達(dá)。小鵬汽車在2021年7月份新推出的小P版本聲稱具備愉快、溫和、親熱等14種強(qiáng)烈情緒的變換能力，而且在微軟MOS（Mean Opinion Score）語(yǔ)音質(zhì)量評(píng)測(cè)中獲得了4.49的高分（滿分為5分，分?jǐn)?shù)越高越接近真實(shí)人聲）。

音色自定義也是一個(gè)可見得著的趨勢(shì)，2019年百度地圖推出了地圖語(yǔ)音定制產(chǎn)品，用戶只需在百度地圖App上錄制20句話，20分鐘左右即可生成個(gè)人完整語(yǔ)音包，21年億咖通攜手百度Apollo定制新一代智能座艙系統(tǒng)也包含了相關(guān)功能。

2. TTS個(gè)性化播報(bào)

除了音色可以提升情感表達(dá)，根據(jù)場(chǎng)景定制TTS文本也能有效提升語(yǔ)音助手的情感表達(dá)。

舉個(gè)例子，語(yǔ)音助手和所有用戶對(duì)話過程中都會(huì)用“你”字，“不好意思我聽不懂你能再說一遍嗎”、“請(qǐng)問有什么可以幫你的呢”……如果將“你”字改為名字和昵稱，這時(shí)表達(dá)和用戶的感受會(huì)發(fā)生新的變化，因?yàn)橛脩糁勒Z(yǔ)音助手知道自己是誰(shuí)，這有可能會(huì)加強(qiáng)用戶對(duì)語(yǔ)音助手的信任感；第二說名字和昵稱更能體現(xiàn)親切感，就跟朋友聊天的時(shí)候不會(huì)天天用“你”字。

再舉個(gè)例子，當(dāng)用戶上車時(shí)語(yǔ)音助手會(huì)根據(jù)不同的上車順序和用戶身份一一打招呼，例如“Hi，奶奶（年老的婦女，坐在后排左側(cè)）、小明（駕駛員）、小紅（小孩，坐在后排右側(cè)）”，這比語(yǔ)音助手只跟駕駛員打招呼親切得多，而且能體現(xiàn)出這個(gè)語(yǔ)音助手是智能且懂禮貌的。

以上例子看起來是在TTS文案上進(jìn)行優(yōu)化，背后其實(shí)采用了一系列空間信息、身份理解以及性別、年齡預(yù)測(cè)等技術(shù)。以上技術(shù)都已成熟，雖然這看起來使用了大量技術(shù)而且最后呈現(xiàn)的結(jié)果僅僅是文案的變化，但筆者認(rèn)為它們對(duì)于語(yǔ)音助手的情感化和個(gè)性化有質(zhì)的提升。

最后，除了語(yǔ)音交互，基于聲音的創(chuàng)新也在不斷發(fā)展當(dāng)中。由于駕駛員在駕駛過程很難看到背后的事物，但聽覺能接收并感知來自360°的信息，因此在不同位置播放音效能有效對(duì)駕駛員進(jìn)行預(yù)警和提示，提升駕駛員的空間感知能力。

除了空間上的預(yù)警提醒，娛樂和體驗(yàn)也是智能座艙重點(diǎn)關(guān)注對(duì)象，7.1聲道以及7.1.4聲道音響能為乘客帶來不一樣的感官體驗(yàn)，因?yàn)槁曇艨梢栽诳臻g中流動(dòng)起來，這時(shí)電動(dòng)汽車可以在7.1聲道的基礎(chǔ)上重新設(shè)計(jì)引擎聲浪系統(tǒng)，也可以配合主動(dòng)式氛圍燈做更多空間上的渲染。

專欄作家

薛志榮，微信公眾號(hào)：薛志榮，人人都是產(chǎn)品經(jīng)理專欄作家。暢銷書《AI改變?cè)O(shè)計(jì)-人工智能時(shí)代的設(shè)計(jì)師生存手冊(cè)》作者，全棧開發(fā)者，專注于交互設(shè)計(jì)和人工智能設(shè)計(jì)。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載

題圖來自 Unsplash，基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

薛志榮

《AI改變?cè)O(shè)計(jì)》作者，公眾號(hào)：薛志榮

24篇作品 353714總閱讀量

上海黑湖科技，7年估值25億，MES市場(chǎng)份額前六，它是如何脫穎而出？

10-117193 瀏覽

品牌組合戰(zhàn)略：企業(yè)如何規(guī)劃并實(shí)施多品牌？

04-2512575 瀏覽

用金字塔原理做數(shù)據(jù)匯報(bào)

10-251952 瀏覽

微信悄悄發(fā)力，內(nèi)測(cè)全新流量口

10-093467 瀏覽

7個(gè)實(shí)用技巧，教你搞定可視化圖表

01-036593 瀏覽

評(píng)論

球球你別吃了

車載語(yǔ)音方向吃香嗎？最近對(duì)這個(gè)方向很感興趣

最近來自廣東回復(fù)
汪仔5282

對(duì)于TTS個(gè)性化播報(bào)應(yīng)該會(huì)遇到很多問題，我第一想到的是人類社交文化，例如上車是一位28歲左右的女性，由于年齡預(yù)測(cè)失誤，“Hi,阿姨”那是會(huì)讓這位女性不開心的，也會(huì)讓社恐人士感受到尷尬。技術(shù)革新的路上會(huì)遇到很多的問題，大腦們也在面臨不同角度問題產(chǎn)生的解決方案，respect。

最近來自四川回復(fù)
沙卡拉卡

語(yǔ)音交互不僅是有情感的，而且也有效地對(duì)駕駛員進(jìn)行預(yù)警和提示，提升駕駛員的空間感知能力。

最近來自廣東回復(fù)
1. Dorothy Li 回復(fù)沙卡拉卡
  
  1
  
  最近來自湖南回復(fù)