智能座艙——語音交互系統

5 評論 10688 瀏覽 116 收藏 31 分鐘

本文作者從什么是語音交互、語音交互的底層技術、智能座艙的語音交互等方面,對智能座艙語音交互系統相關的知識進行了梳理與總結,希望能給你帶來一些幫助。

出于學習-總結的目的,在我從什么是智能座艙、智能座艙的發展驅動因素、智能座艙的構成要素三個方面梳理我對智能座艙的基礎認識之后,為了加深“智能座艙產品入門”課程中語音交互部分知識的理解,我從什么是語音交互、語音交互的底層技術、智能座艙的語音交互等方面,對智能座艙語音交互系統相關的知識進行了梳理與總結。

一、什么是語音交互

語音交互:語音是方式,交互的對象是任何的智能設備,顧名思義,即通過語音的方式完成人與機的交互。

在現今的各種智能化場景中,語音交互已成為一種非常關鍵的人機交互方式。從用戶的角度來看,語音交互的核心價值主要體現在釋放用戶的雙手,使得人與機之間的交互變的更高效便捷。

然而,從用戶發出語音指令到實現與智能設備的交互,其過程并不像其名詞描述的那么簡單,要實現通過語音來完成人機交互,要解決解決三個關鍵問題,如何讓機器聽清用戶的語音內容?如何機器理解用戶的意圖?如何讓機器執行用戶的意圖?,解決這些問題的的過程是復雜的,其背后涉及到多個復雜的技術環節,如語音識別、自然語言理解、對話管理、自然語言生成、語音合成等。

二、語音交互的底層技術

1. 語音識別

在語音交互系統中,用戶的語音信號需要經過多個處理階段才能得出正確的結果,而語音識別是實現語音交互的第一步,其在語音交互系統中負責對用戶的語音信號進行前置處理,通過對用戶語音信息的預處理、解碼等關鍵任務,最終得到語音信號對應的文本內容,從而實現機器聽清的用戶的語音內容。

1)語音輸入

用戶通過麥克風輸入內容語音,例如:打開空調。

2)預處理

預處理是語音識別過程中的一個基礎性步驟,它的意義在于對錄音文件進行分幀、去除噪音、語音增強、加窗等預處理,提取出有效的聲音特征,用于后續的語音內容分析處理。

①去除噪音

由于用戶環境因素影響,MIC設備錄制的聲音,除了人聲,可能還會包各種噪音,那么為了語音識別的準確性,在識別前就需要先處理掉原始音頻中的噪音部分。

去除噪音的實現過程大體可以理解為:首先提取原始音頻中聲音的頻率、時域、能量等特征,通過對這些特征的對比分析區分原始音頻中的人聲和其他聲音,然后通過濾波、降噪算法(基于頻域的傅里葉變換、小波變換,或者基于時域的信號平滑法)等手段,實現去除噪聲的目標。

②預加重

在語音輸入的過程中,由于環境和距離等影響因素,MIC錄制聲音可能會出現高頻衰減和低頻增益等失真現象,這將會影響后續語音識別的結果。

例如:用戶的語音內容為“apple”,由于高頻信號被衰減掉,錄制的聲音中可能只留下了“p”和“l”的較強信號,這將導致語音識別系統誤認為說的是“pl”而不是“apple”。 針對這種現象,預加重通過加強高頻成分的能量和減少低頻成分的能量,讓不同頻率的音頻信號能夠在信號處理過程中均衡化,從而提高語音識別的準確性。

為了更形象的理解“預加重”,可以將其類比于在圖像中的“銳化”,使得邊緣更為清晰。

③分幀

原始語音信號是一個連續的波形,是一種時間和頻率上都變化較快的信號,在語音識別的過程中,如直接對連續且長的語音進行計算處理,會增加計算的難度降低識別的準確性。因此,為了提高語言識別結果的準備性,需要將連續且長的語音信號分為若干個固定長度的幀,分幀后每幀內的信號的頻譜變化就會較為緩慢、穩定。

例如:以“打開空調”為例,假設錄制的語音時長為2秒,采樣率為16000Hz,那么原始語音信號就是一個長度為32000的一維向量,如果直接對這個聲音信息進行語音識別,計算量會非常大,而且由于語音信號的頻率和幅度變化非常快,很難進行有效的特征提取。

④特征提取

完成去噪、預加重、分幀等前端處理后的語音信號,不能直接用于識別,還需要將其變換到頻域,然后利用線性預測倒譜系數(LPCC)和 Mel 倒譜系數(MFCC)等方法,從語音信號中提取用來描述語音信號的各種特征,以便識別模型能夠更好地對其進行分析和區分,這些特征包括:幀能量、音調(調子、語氣等)、基音頻率、音周期、共振峰、諧波結構、聲道特性等。

為了更加形象地理解“特征提取”,可以將其類比為制作抖音電影解說短視頻,在制作的過程中,你需要從完整的電影中篩選出最精彩、最有代表性的片段,需要對整部電影進行剪輯,然后把這些片段組成一部短視頻,以便于快速地展現電影的精華和主題。

⑤其他

原始音頻的預處理,除了去除噪音、預加重、分幀,還有加窗、語音信號能量歸一化、頻率濾波、動態特征等,具體可以參考專業資料。

3)解碼

在完成原始音頻信號的預處理與特征提取之后,需要將提取到的特征輸入語音識別模型中通過聲學模型、詞典、語音模型的協同計算來得到最終的識別結果。

①聲學模型

聲學模型負責對語音信號進行特征提取和處理,生成一系列特征向量,然后使用這些特征向量來計算每個可能的音素的得分,并根據得分選出最可能的音素序列。

②詞典

在生活中,我們有認識的字的時候,可能會通過網絡搜索或查字典的方式去尋找答案。在語音識別系統中,也有需要一個詞典,用于識別音素對應的漢字(詞)或者單詞。語音識別系統中的詞典包括了一系列的詞語和它們對應的音素序列,這些音素序列反映了詞語在語音信號中的語音學特征和發音方式,通過將語音信號的實際發音與詞典中存儲的發音進行匹配,語音識別系統可以推算出說話人所說的詞語。

③語言模型

在通過聲學模型與詞典,得到一組候選詞語或句子的情況下,最后需要通過語言模型得到符合用戶表達內容的結果。語音模型的作用就是通過統計文本中詞與詞之間的關系和概率,預測一個詞語或句子出現的概率大小,從而對識別出的多個文本候選結果進行打分、排序和篩選,最終,得分最高的結果就是系統認為最符合用戶表達內容的結果。

舉個例子:如果用戶說的是“我想要一杯咖啡”,在語音識別的過程中,可能會產生如下多個候選句子:
我向要一杯咖啡、我想要一輩咖啡、 我想要一杯可菲 、我向要一杯咖啡色菲 ,語言模型通過預測每個識別候選結果的概率大小,就可以計算出每個候選結果的得分,從而篩選出最符合用戶表達內容的最終結果,“我想要一杯咖啡”。

4)輸出結果

指最終輸出識別結果,即轉換后的文本或指令等形式的結果。

2. 自然語言處理

1)自然語言理解

在完成用于語音內容的識別之后,要讓設備能順利執行用戶的意圖,還需要自然語言處理(NLP)算法模型對計算機可識別的文本進行分析和處理,以理解用戶語言的含義和意圖,并根據需要進行相應的回答或操作,一般情況下,NLP算法模型對文本的處理過程包括包括詞法分析、句法分析、語義分析等多個環節。

①預處理

為了降低文本處理的復雜度,提高算法的精度和效率,文本本輸入自然語言理解模型前,需要先進行預處理,如去掉句子中的特殊字符、停用詞、將所有字母變成小寫等。

例如:停用詞是指一些在自然語言中使用比較頻繁但實際上并不具有實際含義,對于句子的語義理解貢獻較小的一些詞語,比如一些代詞、介詞、連詞等等(如“的”、“和”、“就”、“在”、“用”等),這些停用詞雖然常常出現在文本中,但是對于計算機理解句子的真實含義并沒有太大幫助,只會增加文本處理的復雜度,降低算法的精度和效率。

②分詞

自然語言理解模型,在理解在自然語言文本時,不是整句直接分析的,而時通過對自然語言文本的每個組成部分(如單詞、短語等)的含義進行深入的分析和理解,進而確定整個文本的含義。 因此,在對文本進行預處理之后,需要對文本進行分詞操作,將文本按照一定的規則切分成一個個詞語,它的目的是將文本轉化為計算機可以處理的離散的詞語序列。

舉個例子:以“導航去寶安機場”為例,通過分詞,可以得到以下詞語序列:導航 / 去 / 寶安機場。

③詞性標注

對每個詞語進行詞性標注,即確定每個詞語在句子中的詞性,通過對每個詞語進行詞性標注,可以確定詞在句子中的語法角色和含義,從而更準確地進行語義分析、句法分析等任務。常見的詞性包括名詞、動詞、形容詞、副詞、介詞、連詞、代詞、數詞、量詞、助詞、嘆詞等。

舉個例子:以“導航去寶安機場”為例,“導航”:名詞;“去”:動詞;“寶安”:名詞;“機場”:名詞;通過這樣的詞性標注,可以分析出“導航”為主語,“去”為動詞,表示導航的動作,“寶安”、“機場”由于都是名詞,可以確定它們是導航的目的地。

④實體識別

指從文本中識別特定實體,例如如人名、地名、組織機構名等,通過實體識別,計算機可以更準確地理解文本中的內容。

舉個例子:以“導航去寶安機場”為例,實體識別可以識別出“寶安機場”是一個地名實體,通過這一步得到的結果,計算機可以更好地理解用戶的意圖。

⑤句法分析

對句子的語法結構進行分析,確定句子中各個詞語之間的關系,其意義在于理清句子中的語法結構和詞語關系以便于計算機進一步理解語音交互中的用戶意圖。

舉個例子:以“導航去寶安機場”為例,句法分析可以將這個句子分析為“導航 去 寶安機場”,從中獲取到“導航”是動作, “去”是一個方向,“寶安機場”是具體的地點信息,這些信息對于計算機進行后續處理是非常重要的。

⑥語義分析

在完成預處理、分詞、詞性標注、實體識別、句法分析等前置任務之后,接下來就需要進行最后的語義分析,例如:情感分析、主體提取、語義聯想、語義角色標注、槽位信息等,其主要意義是更全面地理解用戶輸入的意圖,幫助計算機能夠更好地理解用戶輸入的內容,從而根據用戶意圖執行相應的操作。

舉個例子:以“導航去寶安機場”為例,經過語義分析后,計算機可以清晰地理解用戶的意圖,即需要進行導航操作,并且目的地是寶安機場。

⑦結果輸出:將經過預處理、分詞、詞性標注、實體識別、句法分析、語義分析處理后的結果,按結構輸出給自然語言處理中的對話管理模塊,進行進一步處理。

舉個例子:以“導航去寶安機場”為例,自然語言理解最終輸出的結果為“動作-導航,目的地-寶安機場,起點-當前位置。”

2)對話管理

在自然語言理解對語音識別的文本進行分析處理之后,需要對話管理系統進行意圖識別,確定用戶想要做什么,并且根據所處的對話狀態進行狀態跟蹤,決定下一步需要執行的操作或回復用戶的方式,這個過程包括根據用戶輸入的信息選擇相應的策略、控制多輪對話流程、解決歧義等。

對話管理系統是基于一個預先定義好的對話模型工作,對話模型中定義了對話流程、對話狀態、對話策略等,在對話管理過程中,系統會使用這個對話模型來處理用戶的請求。

①意圖識別

在通過自然語言理解對文本的分析處理,得到用戶意圖的關鍵詞之后,對話管理系統負責將用戶意圖的關鍵詞與預設的意圖庫(或指令庫)進行對比來確定用戶的意圖,并進一步決定下一步的操作。

舉個例子:以“打開空調”為例,語音助手接收到語音信號后,會先進行語音識別,將語音信號轉化為文本,然后,自然語言理解系統會對轉化后的文本進行解析,提取其中的關鍵詞和語義信息,比如“打開空調”,理解用戶的意圖,接下來,對話管理系統會根據用戶的意圖進行響應。

②對話狀態跟蹤

指的是記錄和維護整個對話過程中的各個狀態信息,以便在后續的對話中進行參考、分析和處理,狀態信息包括上下文、用戶意圖、技能選擇等等。

舉個例子:當用戶詢問“今天下雨嗎?”,對話管理系統可以通過狀態跟蹤,結合當前的用戶意圖和上下文信息,快速準確地回答用戶問題。

3)自然語言生成

在語音交互系統中,當對話管理系統確定要繼續與用戶對話或反饋執行結果的時候,此時需要自然語言生成模塊根據對話管理系統的指令,從相關的知識庫或語料庫中提取信息,以及根據語境和上下文信息,將結構化數據轉化為自然、邏輯連貫的文本,以人類語言回答用戶的問題、提供建議或執行任務,其生成自然語言的過程一般包括:句法分析、語義分析、語法分析、信息抽取、輸出文本等步驟。

舉個例子,當用戶詢問“明天的天氣如何?”時,自然語言生成模塊可能會根據當前的時間和位置信息,生成類似于“明天的天氣為晴天,最高氣溫27℃,最低氣溫18℃”的文本回復內容。

3. 語音合成

在通過語音識別、自然語言理解、對話管理、自然語言生成對用戶的語音信息進行分析處理之后,最后想要機器開口與人交流,則需要語音合成系統將自然語言文本轉化為語音并通過輸出設備輸出給用戶。

語音合成系統既是語音交互的終點也是起點,是語音交互系統的的重要底層技術之一,它基于語言模型、聲學模型、音頻處理等技術,通過文本前置處理、聲學特征生成和音頻合成等關鍵步驟,將自然語言文本合成為高質量、自然流暢的人類語音。

1)文本前置處理

在計算機獲得一段文本之后,要讓計算機像人類一樣開口講這段文本講出來,首先需要讓機器知道文本中字、詞如何發音和文本要表達的意思與文本里蘊含的情緒。因此,在語音合成系統中,第一個關鍵任務對文本的前置處理,具體包括:分詞、詞性標注、句法分析、韻律預測、字形轉音素、對音字與變調分析等。

舉個例子: 舉個例子,比如輸入一段文本:“明天下雨,出門記得帶傘。”在文本前置處理的過程中,可能需要經過分詞、音素標注和添加天氣標簽的處理,變成:“明天/t 下雨/v ,出門/v 記得/v 帶/v 傘/n ,天氣/t 標簽/rainy?!?/p>

2)聲學特征生成

要想讓機器像人類一樣將自然語言文本內容有韻律、頓挫、情感地說出來,就需要讓機器知道自然語言文本中每個音素的聲學特征,包括基頻、時長、頻譜形態等,這些聲學特征是語音信號的特征,用于描述和控制語音信號的音色、音高、節奏等方面。

因此,在完成文本預處理后,要將自然語言文本內容合成為最近人類表達的語音內容,就需要先將自然語言文本轉換成發音單元(音素),然后利用特定的算法將音素序列轉化為對應的聲學特征。

3)音頻合成

這一步是將前面處理好的聲學特征和文本信息進行結合,最終合成音頻文件,作為語音合成系統的輸出。具體來說,關鍵任務包括:波形合成、合成后處理等。

小結:以上我從產品的視角,基于課程內容、專業資料結合自身的理解,梳理的我對語音交互系統底層關鍵技術的理解,目的不在于學習語言交互相關的具體技術知識,而是知其大概原理。如存在歧義,歡迎交流,并建議參考相關的專業書籍與資料。

三、智能座艙的語音交互

1. 語音交互對智能座艙的意義

在傳統的汽車座艙內,存在著大量的傳統機械和電子設備,駕乘人員在執行駕駛任務或使用汽車功能時,需要不斷地操作各種控制器和按鈕,以控制車輛的速度、方向、功能等,這些操作可能同時占用駕乘人員的雙手、手眼、雙腳,不僅繁瑣和復雜,還容易導致駕駛疲勞和注意力不集中,從而增加駕駛安全的風險。

因此,為了提高汽車駕駛的安全性和舒適性,語音交互系統被應用在汽車智能座艙中。語音交互系統通過語音交互的方式來代替部分駕駛操作,從而可以讓駕乘人員的雙手、手眼、雙腳更多地用于安全駕駛和應急操作。例如,駕乘人員可以使用語音指令來操控空調、導航系統、音樂播放器等,而不需要手動操作控制面板,減少了駕駛員的分心和疲勞,在一定程度上提高了駕駛安全性和方便性。

從消費者的角度來看,語音交互系統不僅可以通過被動的接收用戶的指令,幫用戶高效地完成人與車交互,而且可以為通過主動式的交互為用戶帶來更智能化、情感化的人車交互體驗。在當前“人機共駕”階段,語音交互是座艙內最直接、最人性化、最完全的交互方式。

從廠商的角度來看,由于語音交互系統具備較大個性化、自定義空間,廠商可以基于結合品牌定位與用戶需求,為用戶打造具有差異化特征語言交互系統,在品牌差異化發展中發揮著重要的作用。另外,基于用戶的個性化需求,在基礎語音服務的基礎上衍生除很多付費服務場景,例如,在samrt精靈1號上,付費的語音助手形象,付費的音助手裝扮。

2. 智能座艙語音交互場景

基于用戶、場景、需求,以語音交互系統為起點,我們可以將智能座艙語音交互的場景抽象的分為主動交互場景和被動交互場景。

1)被動交互場景

當我們在討論“人機交互”時,大部分情況討論的是“被動式交互”,它的實現邏輯很簡單,即由人給機器發號施令,機器執行并輸出結果反饋給人。如,傳統的被動式語音交互,是由用戶主動向機器輸入語音指令,然后由機器對用戶的音指令進行分析、處里并執行,以實現特定的功能,其能為用戶提供的最大價值僅僅是“君子動口不動手”。

在人與車的交互場景中,被動式的語音交互,僅能實現的是“不動手”地去實現車身功能、信息娛樂的功能的控制。這種被動式的交互,在某些情況下還是會分散用戶的注意力,從而造成安全隱患,例如:用戶在發起語言指令的時候,視線和注意力可能會從駕駛任務上轉移。

2)主動交互場景

不同于被動式交互,主動式交互以機器為起點,機器可以自己主動地輸入信息,主動輸出執行結果或建議給用戶。

在人與車的交互場景中,語音交互系統可以與其他模態交互融合,基于人、車狀態和內外部環境,通過傳感器、攝像頭等設備主動輸入信息進行決策判斷,為用戶提供主動的服務,例如:主動關懷服務、提醒服務、推薦服務等,主動式的語音交互,在一步提高人車交互效率的同時,還可以為用戶提供更加智能化、情感化的人交互體驗。

3. 智能座艙語音交互系統基礎框架

智能座艙的語音交互系統是一個高度復雜的綜合系統,它不僅需要精密的硬件與軟件協同配合,同時需要專業的運營管理來保障其可靠性和穩定性??偟膩砜?,整個系統可以分為硬件層、服務層、應用層和運營管理平臺四個組成部分。

1)硬件層

在語音交互系統中,硬件層是智能座艙語音交互系統的物理基礎,關鍵的硬件設備包括輸入/輸出設備和音頻處理芯片,其中輸入/輸出設備負責采集用戶的語音指令和反饋信息,主要包括:麥克風陣列、揚聲器、攝像頭、傳感器、燈光等,芯片部分主要負責音頻信號的處理與分析,主要包括數字信號處理器(DSP)、音頻解碼器、音頻放大器等。

2)服務層

服務層是智能座艙語音交互系統的核心,它承擔著語音、圖像等信息的處理和解析,并提供必要反饋和響應的重要任務。主要包括自然語言處理(NLP)引擎、語音識別引擎、語音合成引擎、聲紋識別、云端服務、API服務、業務邏輯處理服務等模塊。

3)應用層

應用層是指基于服務層提供的核心能力與用戶的實際需求相結合,為用戶提供的具體應用程序,以幫助用戶通過語音交互實現具體的功能控制。例如,車身控制模塊中的空調控制、座椅控制、車窗控制等應用,以及信息娛樂模塊中娛樂、通訊、導航等應用。

4)運營管理平臺

用戶在使用語音交互系統的過程中,會產生大量的用戶行為數據與音頻、文本、圖像數據,運營管理平臺通過對這些數據的統計分析,為語音交互系統與各種AI模型的持續優化提供數據支持。從業務角度分類,運營管理平臺主要分為兩大核心模塊:用戶數據統計分析和模型數據運營。

  • 用戶數據統計分析模塊,可以對實車用戶使用語音交互系統的行為數據進行統計和分析,從而生成不同維度、不同粒度的分析報表。這些報表可以幫助我們深入了解用戶使用習慣和偏好,及時發現并解決系統存在的問題,為語音交互系統的優化提供數據依據。
  • 模型數據運營模塊,可以通過對用戶在使用語音交互系統過程中產生的大量音頻、文本、圖像數據的定期回收與采集、標注,生產出各個AI模型需要的數據,為模型訓練提供數據支持。

作者:汪童學;公眾號:汪童學

本文由@汪童學 原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 請問這是什么課程

    來自廣東 回復
  2. 很專業的一篇文章,可能因為我是外行,讀起來難理解,斷斷續續花了40分鐘才看完。

    來自廣東 回復
  3. 干貨滿滿,受益匪淺!

    來自廣東 回復
  4. 很專業

    來自上海 回復
    1. 謝謝

      來自廣東 回復