從智障到智能,語音交互對智能座艙的重要性
語音交互不占用視覺和雙手,因而最適合放在智能座艙之類的場景上。這篇文章,我們來看看智能座艙中語音交互的使用效率和頻率,如何進(jìn)行提升。
在聊智能座艙中的語音交互技術(shù)之前,我們先來插播一條新聞:5月14日,OpenAI宣布推出GPT-4o,據(jù)說GPT-4o在處理速度上提升了高達(dá)200%,同時在價格上也實(shí)現(xiàn)了50%的下降,GPT-4o所有功能包括視覺、聯(lián)網(wǎng)、記憶、執(zhí)行代碼以及GPT Store等,后續(xù)將對所有用戶免費(fèi)開放。
不得不說,在IA賽道上,我們國內(nèi)廠商又被甩了半步!
GPT-4o的名稱中“o”代表Omni,即全能的意思,凸顯了其多功能的特性,GPT-4o是OpenAI為聊天機(jī)器人ChatGPT發(fā)布的語言模型,“可以實(shí)時對音頻、視覺和文本進(jìn)行推理,新模型使ChatGPT能夠處理50種不同的語言,同時提高了速度和質(zhì)量。可以預(yù)期,GPT-4o的能力接入智能座艙,將會給整個用戶體驗(yàn)帶來更大的想象空間。
當(dāng)前每個車企都在全力發(fā)展語音交互技術(shù),其中重要原因是語音交互幾乎不占視覺和手部資源,從而可以大幅提高駕駛安全。車機(jī)屏幕中的大量視覺信息占用駕駛員的認(rèn)知資源,從而引起駕駛員的分心。其次,基于屏幕的GUI交互需要駕駛員通過觸摸或者按鍵的方式進(jìn)行交互,前者需要駕駛員單手離開方向盤從而有可能引起安全風(fēng)險,后者則效率低下。
從智能座艙語音交互技術(shù)發(fā)展來看,提升語音交互的使用效率和頻率我認(rèn)為主要由以下四點(diǎn)決定。
一、更自然的喚醒技術(shù)
部分語音技術(shù)供應(yīng)商支持“免喚醒”和“one-shot”技術(shù),“免喚醒”是指省略喚醒詞直接說“打開車窗”,車窗就會直接打開。其實(shí)“免喚醒”正是用了喚醒詞技術(shù),只不過把默認(rèn)喚醒詞改為指令,新的喚醒詞被命中后會直接執(zhí)行相關(guān)指令。
“one-shot”技術(shù)也被稱為“喚醒連說”,支持用戶在說出喚醒詞之后不作停頓,立刻說出后續(xù)需求。例如用戶直接說“小艾同學(xué)幫我打開車窗”,小艾同學(xué)就能直接把車窗打開。這種方式摒棄傳統(tǒng)的一問一答形式,極大減少了用戶語音操控的步驟。
二、全雙工語音交互
在幾年前,由于部分語音交互技術(shù)暫未成熟,用戶和語音助手的交互大多屬于單輪交互或多輪交互,兩種交互方式帶來的問題是用戶無法持續(xù)地向語音助手發(fā)起指令。單輪交互是指每次語音助手被喚醒后只能完成一項對話,不管任務(wù)能否被完成,語音助手都會進(jìn)入休眠狀態(tài)。多輪交互是指用戶可以不用多次晚醒語音助手,雙方可以通過多輪交流的方式完成一個任務(wù),當(dāng)任務(wù)完成后語音助手會自動進(jìn)入休眠狀態(tài)。
為了讓語音交互擁有更自然和更高效率的體驗(yàn),近年陸續(xù)有車企推出持續(xù)監(jiān)聽和全雙工語音交互技術(shù)。持續(xù)監(jiān)聽可以理解為一旦喚醒語音助手,語音助手會把麥克風(fēng)一直打開。用戶可以一直說,語音助手會針對用戶每一句話分別做出響應(yīng)。
但是持續(xù)監(jiān)聽的體驗(yàn)依然存在很多問題,因?yàn)辂溈孙L(fēng)一直打開,語音助手會把所有的聲音進(jìn)行聆聽并做出響應(yīng)。假設(shè)上一輪對話未結(jié)束,這時候語音助手聽到其他人說的話,誤以為這是新的語音任務(wù),會把上一輪對話直接結(jié)束并報新的內(nèi)容。
相比簡單地把麥克風(fēng)打開,全雙工語音交互不會像持續(xù)監(jiān)聽一樣容易被噪聲打斷整個對話過程。要實(shí)現(xiàn)以上效果,全雙工語音交互需要擁有更強(qiáng)的抗噪能力和上下文理解能力,它能理解聲音是否跟當(dāng)前任務(wù)有關(guān),并且能猜測當(dāng)前任務(wù)下一輪對話是什么,這對于技術(shù)的要求非常高。
全雙工語音交互可以簡單地理解為真正的“邊聽邊說”,用戶一旦習(xí)慣了全雙工語音交互,就很難回到以上三種交互模式,所以全雙工語音交互是提升語音交互的使用效率和頻率的重要基礎(chǔ)能力。
三、實(shí)現(xiàn)捷徑
小鵬汽車 P7在2020年發(fā)布的官方視頻中提到駕駛員進(jìn)入座艙時對語音助手說一句話,系統(tǒng)會自動幫助駕駛員完成十幾項步驟,極大提升了人和機(jī)器的交互效率。這項體驗(yàn)的背后是捷徑的實(shí)現(xiàn),捷徑是指用戶可以將若干操作選項按順序整合在一起,并賦予一個指令,當(dāng)指令被響應(yīng)后,涉及的操作選項按順序會依次執(zhí)行。
盡管該技術(shù)跟語音交互沒有太大的關(guān)系,但從用戶心智來看,這是語音交互和人工智能技術(shù)帶來的便利。
四、實(shí)現(xiàn)GUI和VUI融合
在上述的小鵬官方視頻中也提到了駕駛員可以在23s內(nèi)完成10輪語音交互對話,這項體驗(yàn)的背后是GUI和VUI融合的實(shí)現(xiàn),它能讓用戶說出屏幕內(nèi)容并被VUI執(zhí)行,加上全雙工語音交互技術(shù)實(shí)現(xiàn)“可見即可說”。
GUI和VUI融合為語音交互帶來的好處是有效提升語音交互的使用頻率,但融合背后有些問題也需要注意后面有時間我們再聊。
本文由 @ALICS 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
大佬為啥不更新了?
請問一下智能座艙語音交互產(chǎn)品經(jīng)理日常都負(fù)責(zé)哪些工作啊
你好,想申請轉(zhuǎn)載您的文章??梢约游⑿帕囊幌?,microuxcn