車載語(yǔ)音助手——信號(hào)處理(一)

0 評(píng)論 1254 瀏覽 3 收藏 9 分鐘

在語(yǔ)音交互流程中,最具挑戰(zhàn)性的是“語(yǔ)音處理”。語(yǔ)音處理的核心目標(biāo)是提高有效聲源的接受質(zhì)量,那么該怎么提高呢?作者以生活中的案例類比分析,一起來(lái)看看吧。

作為語(yǔ)音產(chǎn)品經(jīng)理,這部分在我們的工作中可能不會(huì)涉及到,但是一定要清楚,對(duì)于一次語(yǔ)音交互的流程來(lái)說(shuō),最具挑戰(zhàn)性的部分并不是語(yǔ)音和語(yǔ)義本身,而是“音頻信號(hào)處理”。

音頻信號(hào)處理的結(jié)果,即音頻數(shù)據(jù)的質(zhì)量,直接影響到最終的語(yǔ)音識(shí)別效果。而語(yǔ)音識(shí)別的效果,又直接影響到語(yǔ)義理解的結(jié)果。這就像一條鏈,每個(gè)環(huán)節(jié)都緊密相連,缺一不可(沒(méi)錄上人聲總不能指望機(jī)器無(wú)中生有吧)。

每一環(huán)到下一環(huán)都會(huì)導(dǎo)致有效信息的損耗,而我們要做的就是盡可能減少每一個(gè)環(huán)節(jié)的信息損耗。

所以信號(hào)處理環(huán)節(jié)核心目標(biāo)就是一個(gè):提高有效聲源的接受質(zhì)量。如何做到呢?第一提高有效聲源的質(zhì)量;第二降低干擾聲源的影響。

對(duì)于影響信號(hào)處理的原因,用我們生活中的案例類比??

1.玩絕地求生如果只戴一只耳機(jī),是不是腳步來(lái)源的方向就不確定了?

2.在衛(wèi)生間唱歌,在KTV包廂里唱歌和在操場(chǎng)上唱歌自己聽(tīng)的效果是不是完全不一樣

3.如果課堂上大家都在說(shuō)話,要聽(tīng)清楚老師講課的內(nèi)容是不是很困難?

對(duì)應(yīng)到上面三個(gè)例子中“信號(hào)處理”的影響因素主要是【硬件】、【空間】、【噪音】?,F(xiàn)在看看他們分別可以在哪些地方做文章。

一、硬件音源拾取

1. 麥克風(fēng)陣列定向收音

和信號(hào)處理強(qiáng)相關(guān)的硬件,主要是麥克風(fēng),一個(gè)麥克風(fēng)很難定位出聲音的位置,這里引入一個(gè)新的概念,叫“麥克風(fēng)陣列”,它可以進(jìn)行”聲源定位“,用來(lái)確定聲源發(fā)出的具體方向,甚至是位置(距離)。一般情況下,麥克風(fēng)數(shù)量越多,定“向”的精準(zhǔn)度越高。如下圖理想汽車麥克風(fēng)布局圖示意,采用四麥克風(fēng)陣列的方式,這些麥克風(fēng)的組合在一起共同去完成指定聲音的采集,這些采集好的聲音,其實(shí)就是“信號(hào)處理”的“輸入”。

(車廠一般采用雙麥方案,若支持四音區(qū)識(shí)別的一般采用四麥陣列方案)

2. 麥克風(fēng)陣列定向抑制

從原理上看,既然多麥方案可以分辨出聲源的方向,那我們就可以在這基礎(chǔ)之上,增加“定向抑制”的要求,從而達(dá)到,在一個(gè)合理角度區(qū)域內(nèi)采集的聲音進(jìn)行增益,對(duì)這個(gè)區(qū)域之外的聲音進(jìn)行抑制。進(jìn)而可以降低其他區(qū)域產(chǎn)生的聲音的干擾。

硬件會(huì)影響信號(hào)處理,但公司用誰(shuí)的麥克風(fēng)產(chǎn)品,或者開(kāi)發(fā)什么收音設(shè)備不是一個(gè)軟件產(chǎn)品經(jīng)理可以影響,并且目前大部分語(yǔ)音公司的基礎(chǔ)硬件能力都?jí)蛴昧?。所以關(guān)于硬件就先分享到這兒。

二、空間降低自身噪音

初中物理講過(guò)聲音在傳播過(guò)程中會(huì)出現(xiàn)反射和混響,簡(jiǎn)而言之就是聲音會(huì)在一個(gè)空間內(nèi)不斷的反射,并且混合其他聲音一起反射。比較大,吸音做的比較好的空間可以讓人耳分不清原聲和回聲,但是這些聲音是存在,會(huì)被麥克風(fēng)收入影響后續(xù)的信號(hào)處理。

舉例:車載場(chǎng)景,在導(dǎo)航態(tài)和音樂(lè)播放態(tài)下 用戶說(shuō):“打開(kāi)座椅按摩”。

在這個(gè)例子中,麥克風(fēng)采集到的音頻包含:

  • 聲源原音:“打開(kāi)座椅按摩”的原聲音頻,打開(kāi)座椅按摩”的回聲音頻*N
  • 內(nèi)部噪音:比如車載音樂(lè)的音頻,導(dǎo)航的播報(bào)音頻
  • 外部噪音:比如車噪,風(fēng)噪

麥克風(fēng)直接懵掉,這么多聲音混合在一起,該提取哪一個(gè)呢?

這里引入一個(gè)新的概念,叫“回聲消除”(AEC),主要的工作原理就是將由設(shè)備所發(fā)出的聲音,比如車載音樂(lè),導(dǎo)航播報(bào),告訴“信號(hào)處理”,這是我自己說(shuō)的話,麻煩處理掉。

當(dāng)然,語(yǔ)音助手的回復(fù)也會(huì)被一起處理,不然就會(huì)出現(xiàn)車載助手說(shuō)話,然后識(shí)別自己的話,再回復(fù)自己的話,陷入一個(gè)無(wú)意義的循環(huán)。

補(bǔ)充一下AEC的效果影響因素:音頻設(shè)備的質(zhì)量、空間的大小/形狀、聲源與麥克風(fēng)的相對(duì)位置、背景噪聲的影響、AEC算法的復(fù)雜度(通常越復(fù)雜,需要的算力越高,效果越好)

為什么要補(bǔ)充這個(gè),因?yàn)檐囕d的場(chǎng)景尤其復(fù)雜,車型,車內(nèi)空間,車窗,車速,空調(diào),天氣等等原因都遠(yuǎn)影響AEC的效果,每一個(gè)AEC的算法都有其最佳的適用范圍,所以我們也要知道AEC不是萬(wàn)能的,看到漏網(wǎng)之魚(yú)要知道緣由,并能給出解釋

(拓展一下:AEC雖然好用,但是也不能杜絕所有的回聲情況,所以你會(huì)發(fā)現(xiàn)在車載場(chǎng)景,在語(yǔ)音助手被喚醒后,其他聲源的音量都會(huì)被主動(dòng)降低,以此來(lái)保證用戶說(shuō)話的清晰度;同時(shí)在語(yǔ)義處理階段,也會(huì)有拒識(shí)的能力介入,將非用戶聲源或者用戶聲源的無(wú)意義query過(guò)濾掉)

三、噪音降低外部噪音

從語(yǔ)音產(chǎn)品的角度,除了聲源之外的所有聲音都是噪音,信號(hào)處理的一個(gè)重要職責(zé)就是降噪,或者叫噪聲抑制等。

以車載場(chǎng)景為例,噪音可以分為自身噪音、天氣噪音、路況噪音、車速噪音、風(fēng)速噪音、環(huán)境噪音(城市&鄉(xiāng)村)、空調(diào)噪音、人聲噪音等等。

在這個(gè)階段,信號(hào)處理會(huì)通過(guò)“噪音抑制技術(shù)”來(lái)減少這些噪音的影響,主要包括:

  • 優(yōu)化噪音抑制的算法(研發(fā))
  • 調(diào)整麥克風(fēng)陣列(抑制非聲源方向噪音)(硬件)
  • 利用深度學(xué)習(xí)技術(shù)訓(xùn)練更好的噪音模型,通過(guò)高質(zhì)量的噪音素材訓(xùn)練提高模型效果(研發(fā)+產(chǎn)品)
  • 硬件改進(jìn)(硬件)

咱們產(chǎn)品可以做的比如說(shuō)具體的使用場(chǎng)景,提供高數(shù)量高質(zhì)量該場(chǎng)景下的噪音音頻,用于模型訓(xùn)練

四、其他自動(dòng)增益控制(AGC)

當(dāng)檢測(cè)到用戶的聲音忽高忽低的時(shí)候,通過(guò)AGC對(duì)較低語(yǔ)音信號(hào)的某些屬性進(jìn)行調(diào)整(如音量,音調(diào),清晰度等)來(lái)實(shí)現(xiàn)。這可以使語(yǔ)音信號(hào)在 錄音質(zhì)量較差或背景噪聲較大的情況下仍然清晰可辨。

以上均是在信號(hào)處理階段可能會(huì)影響音頻質(zhì)量的因素,我們不用更深入的去理解背后的原理,但是作為PM,要了解這個(gè)階段的影響因素,才能更好的考慮產(chǎn)品的落地效果。

參考:

《智能座艙顛覆傳統(tǒng),蔚來(lái)改變出行體驗(yàn)》湘怡聊汽車

《頭疼的音頻處理》秋歌

《想知道|理想ONE的聽(tīng)聲辯位》產(chǎn)品想知道

本文由 @大魚(yú) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!