車載語音助手-技術(shù)流程梳理(概覽)
一次完整的語音交互??
信號處理→語音識別(ASR)→自然語言處理(NLP)→語音合成(TTS)→對話管理(DM)
一、什么是語音交互
先舉例語音中的一個經(jīng)典案例;
酒吧里燈光耀眼,音樂勁爆,盡管周邊的噪音很大,盡管周圍的人使用的是各自的母語,英文、西語、等等,此時,如果遠(yuǎn)處突然有人用中文叫你的名字時,你還是能夠馬上就注意到他,甚至可以聽到他說的內(nèi)容;這是語音中一個非常經(jīng)典的現(xiàn)象,稱之為“雞尾酒會效應(yīng)”,它體現(xiàn)出了人耳在聽覺上的天賦異稟,同時也是語音識別中的經(jīng)典難題。
1.? 在這個例子里,語音助手先做了一件事,就是“聽清楚”,我們把這個過程,叫做“信號處理”。信號處理的目的是能夠讓這段聲音,盡可能干凈,高質(zhì)量地提取出來,而要做到這個,需要解決很多問題,比如:“聲源定位”,在環(huán)境中,找到“叫你的名字”的那個“他”的具體位置;“降噪”,將“酒吧的噪音”、“其它人交談的噪音”都消除干凈等等。
2. 當(dāng)語音助手“聽清楚”了,之后就要“識內(nèi)容”,要識別出聲音中的具體內(nèi)容,這是我們經(jīng)常說到的“語音識別”,即“聲音轉(zhuǎn)寫成文字”的過程;比如他說:“現(xiàn)在幾點了?”,將音頻轉(zhuǎn)換為文字的過程
3. 語音助手知道內(nèi)容了,就得“想意思”,想“現(xiàn)在幾點了?”里的具體意思,這個過程為“語義理解”,即“自然語言理解”;他的意思是:“他期望我反饋”、“現(xiàn)在”、“時間”、“具體時間中的小時”;聽懂了,就得“去行動”,得先看下手表里顯示的現(xiàn)在時間,然后把小時的數(shù)值反饋給他,我們把這個處理過程稱為“語義處理”;行動完了,要“想話術(shù)”,同樣都是告訴他時間,說法會有很多種,可以說“8點”,可以說“現(xiàn)在是2024年4月7日20點12分50秒”,也可以說“剛過8點,咋啦”等等,不同的表達(dá)方式,會給人帶來不一樣的體驗和感受,我們稱這個過程為“語言生成”;當(dāng)然,我們也會把“想意思”->“去行動”->“想話術(shù)” ->”語言生成“放在一起,都叫做“自然語言處理”。
4. 想清楚怎么表達(dá)之后,就要“說出來”,將“文字轉(zhuǎn)換成聲音”的過程,我們叫它“語音合成”,之后再通過揚聲器播放出來,不同的聲音會給人帶來不同的感受,比如“星河”和“蜜糖”(小愛同學(xué)的音色),兩種聲音給人的體驗是不一樣。
二、小結(jié)
一次語音交互=“聽清楚”->“識內(nèi)容”->“想意思”->“去行動”->“想話術(shù)”->“語言生成”->“說出來”
在這個過程中,用戶感知到語音助手的狀態(tài)即為:
1. 初始/休息狀態(tài):語音機器人未喚醒,大家相安無事,無互動(以Nomi為例子,Nomi會處于待機狀態(tài),或者根據(jù)車況做出伴隨表情)
2. 傾聽狀態(tài):通過喚醒詞喚醒語音助手,語音助手提供反饋高速用戶可以說話了,我在聽。這種信號通常會采用視覺文字上屏文字+虛擬人物表情,表示人類發(fā)出的音頻流正在被語音機器人接收。
3. 處理/思考狀態(tài):發(fā)生在人們停止說話但語音機器人還沒有處理好用戶需求給出結(jié)果反饋的時候。通常還伴有聲音+虛擬人物表情反饋。
4. 說話狀態(tài):這種信號是通過語音機器人在回應(yīng)時發(fā)出聲音來傳遞的。
5. 免喚醒狀態(tài):通常語音機器人被中斷,或者已經(jīng)處理完用戶的一個語音需求后處于免喚醒狀態(tài)(通常維持20-60秒,大家可以測試一下自己的語音助手可以維持多久)。免喚醒狀態(tài)和初始狀態(tài)之間的區(qū)別在于前者支持上下文理解,后者不支持,前者不需要喚醒詞喚醒可以直接呼出,后者需要。
參考:
–《語音優(yōu)先:智能語音技術(shù)驅(qū)動的交互界面設(shè)計與語音機器人設(shè)計》艾哈邁德·布齊德
–《一段聲音的旅程》秋歌
本文由 @大魚 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)
- 目前還沒評論,等你發(fā)揮!