av人摸人人人澡人人超碰,国产午夜亚洲精品国产成人,国产亚洲欧美精品永久

搜索

APP

起點(diǎn)課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

從智障到智能，語音交互對智能座艙的重要性

ALICS

2024-05-15

3 評論 531 瀏覽 1 收藏

7 分鐘

語音交互不占用視覺和雙手，因而最適合放在智能座艙之類的場景上。這篇文章，我們來看看智能座艙中語音交互的使用效率和頻率，如何進(jìn)行提升。

在聊智能座艙中的語音交互技術(shù)之前，我們先來插播一條新聞：5月14日，OpenAI宣布推出GPT-4o，據(jù)說GPT-4o在處理速度上提升了高達(dá)200%，同時在價格上也實(shí)現(xiàn)了50%的下降，GPT-4o所有功能包括視覺、聯(lián)網(wǎng)、記憶、執(zhí)行代碼以及GPT Store等，后續(xù)將對所有用戶免費(fèi)開放。

不得不說，在IA賽道上，我們國內(nèi)廠商又被甩了半步！

GPT-4o的名稱中“o”代表Omni，即全能的意思，凸顯了其多功能的特性，GPT-4o是OpenAI為聊天機(jī)器人ChatGPT發(fā)布的語言模型，“可以實(shí)時對音頻、視覺和文本進(jìn)行推理，新模型使ChatGPT能夠處理50種不同的語言，同時提高了速度和質(zhì)量。可以預(yù)期，GPT-4o的能力接入智能座艙，將會給整個用戶體驗(yàn)帶來更大的想象空間。

當(dāng)前每個車企都在全力發(fā)展語音交互技術(shù)，其中重要原因是語音交互幾乎不占視覺和手部資源，從而可以大幅提高駕駛安全。車機(jī)屏幕中的大量視覺信息占用駕駛員的認(rèn)知資源，從而引起駕駛員的分心。其次，基于屏幕的GUI交互需要駕駛員通過觸摸或者按鍵的方式進(jìn)行交互，前者需要駕駛員單手離開方向盤從而有可能引起安全風(fēng)險，后者則效率低下。

從智能座艙語音交互技術(shù)發(fā)展來看，提升語音交互的使用效率和頻率我認(rèn)為主要由以下四點(diǎn)決定。

一、更自然的喚醒技術(shù)

部分語音技術(shù)供應(yīng)商支持“免喚醒”和“one-shot”技術(shù)，“免喚醒”是指省略喚醒詞直接說“打開車窗”，車窗就會直接打開。其實(shí)“免喚醒”正是用了喚醒詞技術(shù)，只不過把默認(rèn)喚醒詞改為指令，新的喚醒詞被命中后會直接執(zhí)行相關(guān)指令。

“one-shot”技術(shù)也被稱為“喚醒連說”，支持用戶在說出喚醒詞之后不作停頓，立刻說出后續(xù)需求。例如用戶直接說“小艾同學(xué)幫我打開車窗”，小艾同學(xué)就能直接把車窗打開。這種方式摒棄傳統(tǒng)的一問一答形式，極大減少了用戶語音操控的步驟。

二、全雙工語音交互

在幾年前，由于部分語音交互技術(shù)暫未成熟，用戶和語音助手的交互大多屬于單輪交互或多輪交互，兩種交互方式帶來的問題是用戶無法持續(xù)地向語音助手發(fā)起指令。單輪交互是指每次語音助手被喚醒后只能完成一項對話，不管任務(wù)能否被完成，語音助手都會進(jìn)入休眠狀態(tài)。多輪交互是指用戶可以不用多次晚醒語音助手，雙方可以通過多輪交流的方式完成一個任務(wù)，當(dāng)任務(wù)完成后語音助手會自動進(jìn)入休眠狀態(tài)。

為了讓語音交互擁有更自然和更高效率的體驗(yàn)，近年陸續(xù)有車企推出持續(xù)監(jiān)聽和全雙工語音交互技術(shù)。持續(xù)監(jiān)聽可以理解為一旦喚醒語音助手，語音助手會把麥克風(fēng)一直打開。用戶可以一直說，語音助手會針對用戶每一句話分別做出響應(yīng)。

但是持續(xù)監(jiān)聽的體驗(yàn)依然存在很多問題，因?yàn)辂溈孙L(fēng)一直打開，語音助手會把所有的聲音進(jìn)行聆聽并做出響應(yīng)。假設(shè)上一輪對話未結(jié)束，這時候語音助手聽到其他人說的話，誤以為這是新的語音任務(wù)，會把上一輪對話直接結(jié)束并報新的內(nèi)容。

相比簡單地把麥克風(fēng)打開，全雙工語音交互不會像持續(xù)監(jiān)聽一樣容易被噪聲打斷整個對話過程。要實(shí)現(xiàn)以上效果，全雙工語音交互需要擁有更強(qiáng)的抗噪能力和上下文理解能力，它能理解聲音是否跟當(dāng)前任務(wù)有關(guān)，并且能猜測當(dāng)前任務(wù)下一輪對話是什么，這對于技術(shù)的要求非常高。

全雙工語音交互可以簡單地理解為真正的“邊聽邊說”，用戶一旦習(xí)慣了全雙工語音交互，就很難回到以上三種交互模式，所以全雙工語音交互是提升語音交互的使用效率和頻率的重要基礎(chǔ)能力。

三、實(shí)現(xiàn)捷徑

小鵬汽車 P7在2020年發(fā)布的官方視頻中提到駕駛員進(jìn)入座艙時對語音助手說一句話，系統(tǒng)會自動幫助駕駛員完成十幾項步驟，極大提升了人和機(jī)器的交互效率。這項體驗(yàn)的背后是捷徑的實(shí)現(xiàn)，捷徑是指用戶可以將若干操作選項按順序整合在一起，并賦予一個指令，當(dāng)指令被響應(yīng)后，涉及的操作選項按順序會依次執(zhí)行。

盡管該技術(shù)跟語音交互沒有太大的關(guān)系，但從用戶心智來看，這是語音交互和人工智能技術(shù)帶來的便利。