欧美日韩第一区麻豆国产在线,AV片在线观看,亚洲精品无码专区久久久

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

智能座艙系列六：車載語音系統介紹

賽博七號

2022-05-17

4 評論 15597 瀏覽 66 收藏

12 分鐘

編輯導語：隨著科技的進步，智能座艙技術也在不斷地發展中，本篇文章作者系統地介紹了智能座艙的語言系統，從各個方面詳細地介紹了其車載語音的功能介紹以及整體架構等，感興趣的一起來看一下吧。

智能座艙有兩大人工智能交互系統，一個基于視覺（計算機視覺）、一個基于語音。前者的應用體現在IMS系統，我之前的文章有過介紹；后者的應用在艙內的語音功能。這篇文章就系統地介紹智能座艙的語音系統（VOS）。

一、概述

VOS（語音操作系統）旨在為用戶提供車內環境下的語音交互服務。 VOS系統系統采用了喚醒、語音識別、語義理解等技術實現語音控制。

座艙的車設車控、地圖導航、音樂及多媒體應用、系統設置、空調等均可通過語音來操作。除了針對車身、車載的控制外，語音還支持天氣查詢、日程管理以及閑聊對話。

用戶只要說喚醒詞，即可使用。語音指令可以一步直達功能，既能解放手指，又無需視線偏移注視車機中控區域，從而保障行車安全。

二、總體架構

在總體的架構上，語音系統可分為四個模塊。即車端系統、云端系統、語音運營管理平臺以及訓練和分析統計模塊。整體的語音系統和要求，包括車端到云端鏈接、數據到功能的構建、Online的運營平臺、線下線上的數據采集和標注。

三、架構模塊

1. VOS車端系統

車機端主要是對話系統（DS），也是用戶感受最直觀的，產品的重點側向交互設計。

2. VOS車端模塊

從上圖可以看到，車機端由以下幾個模塊組成：

音頻處理模塊：AEC /AGC/ANR/ BF；
喚醒模塊/本地ASR；
語音控制器語；
本地對話系統；
TTS模塊。

以上每個模塊均包含一個或多個應用，這些應用內置在車機：音頻處理包括AEC (Acoustic Echo Cancelling)、VAD (Voice Activity Detection)、音頻壓縮、喚醒詞、本地的ASR識別等。該模塊可以對來自麥克風的原始音頻信號進行各種預處理，向語音助手提供獲取喚醒信號、預處理后的音頻、本地ASR識別結果等接口。

前端信號處理包括：AEC、ANR、AGC、聲源定位（SSL）、Beamforming，全部通過軟件方案實現。

3. 語音助手

車機端負責語音對話的中樞控制模塊，負責協調車機端對話系統的總體流程。車機端的其他模塊或者被語音助手調用(音頻服務、本地對話系統、TTS模塊、應用程序)，或者屬于語音助手的組成部分(對話控制器)。

4. 本地對話系統(本地DS)

本地對話系統是云端對話系統在車機上的一個鏡像。它負責執行那些需要在車機上執行的對話處理，如:離線無網絡狀態下的對話功能、基于本地SDK的導航或音樂搜索相關的對話處理、或者其他一些本地優于云端的場景下的對話功能。本地對話系統提供了一系列接口供對話控制器進行調用。

本地對話系統從云端對話系統相同的基礎架構衍生而來，和云端的設計和功能大體相同。

但也根據本地的特點和需求進行了變化。如鑒于車機運算資源的匱乏而精簡了模型；集成了車機專屬的基于SDK的媒體和導航搜索功能；本地對話系統包含語音識別、語義理解、語音合成，系統傾向于支持斷網場景下的業務，如車控、打電話等基本場景。

本地對話系統的交互入口是語音喚醒，有的喚醒會支持雙喚醒詞（隱含）。像百度地圖就支持“小度小度”也支持“小德小德”（高德地圖的喚醒詞），容錯率更好。

5. 本地NLU

本地NLU在無網絡狀態下，提供基礎語義理解服務，考慮到車機端的運算能力，在NLU模型上需做大量的模型裁剪和壓縮，并結合車機芯片進行指令集層面的優化，確保將本地NLU的效果最大程度的逼近云端NLU的效果；本地NLU的資源大約是在線的1/10，最大程度的保證了本地的效果。

6. 本地TTS

TTS模塊被語音助手調用，負責將文本轉換為語音播報。TTS合成引擎由供應商提供，對話話術的TTS文本通過話術運營系統來制定和編輯，其結果存儲在數據庫中、供對話系統調用。

四、云端系統

1. 對話系統

對話系統的云端部分（或者說在線對話系統）由多個部署在云服務上的服務和存儲組成。

云端向車機提供兩種接口：一種是基于TCP的socket流式數據傳輸接口，用于傳輸語音數據并給出
云端ASR識別結果和對話結果：一種是基于HTTP的用于發送非語音類消息的接口。云端服務可以部署在各種云服務（如aws、華為云等）的計算節點上；一套部署在具備64G內存的計算節點
上的云端節點可以同時支持2-3萬臺設備的訪問。

對話系統的云端部分主要提供以下幾項功能：

在線ASR識別對話服務模塊可以接受用戶發起的語音對話的音頻輸入，并給出識別結果。
對話對話服務模塊可以接受用戶發起的語音對話的文本輸入，并給出相應的對話結果，包括TTS文本、要車機進行的操作、車機用來屏顯的內容等。
其他功能如向用戶進行主動推送等。

2. 模型

模型主要提供各種AI算法的運行模型數據，包括聲學模型、語言模型等等多個不同算法不同用途的模型，可獨立升級，來實現最優的AI處理效果。
對于通用領域，模型優化能夠帶來整體的提升，例如整體升級聲學模型和語言模型，在用戶數據積累到一定程度的時候，如1萬小時交互音頻數據，可以帶來20%-30%錯誤率下降。
對于專有領域，模型優化能夠實現從極低到極高，甚至從無到有的提升，例如一些產品強相關的詞匯、使用常見的一些專有名詞、人名地名等，都可以做特定的優化，達到通用的效果。

3. 云端TTS

云端TTS有別于本地端TTS，基于強大的計算能力，云端使用更大的數據庫，技術上使用基于拼接的方案，相比于本地端基于參數合成的TTS，音質更自然；
TTS的聲音可以進行定制，需要經過文本設計、發音人確認、錄音場地和錄音、數據篩選、標注、訓練等過程。

五、運營平臺

運營平臺通過云端和線上對話系統聯通，負責以可視化的形式干預對話系統線上的數據和功能。其中主要包含兩大類功能：數據運營、功能運營。

1. 數據運營

數據部分的運營主要針對兩部分比較常用的可運營數據：

針對系統接入的CP/SP的可運營的內容，比如喜馬拉雅的推薦數據、黃頁數據等等，可以在系統中以手動的方式調整數據的內容、排序等；
針對企業自有的數據，比如主機廠獨有的充電樁數據、服務門店數據，可以有機的結合到對話系統中來。

2. 功能運營

功能運營主要是在特定的時間點，比如某些節日、或者有特殊意義的日子、或者臨時發生一些事件的時候，通過快速干預某些特定的說法的反饋，通過編輯特定說法的TTS回復，來實現系統對特殊情況的特殊處理。

六、訓練及分析

1. 用戶數據統計分析

用戶數據統計分析系統，通過對所有實車用戶使用車載語音的情況進行統計分析，能夠得出不同維度、不同粒度的分析報表。定期進行報表的解讀和分析，可用得出的結論來指導系統功能的改進。

2. 訓練系統

針對音頻、文本、圖像的采集+標注系統，企業通過定期常規的對線上數據的回收、標注和不定期的對特殊要求數據的采集、標注，生產出各個AI模型需要的數據，提供模型訓練支持；每次模型訓練完畢會有迭代上線，從而實現訓練數據系統和線上模型的一個閉環迭代，不斷的提升整體的語音產品的能力。

以上便是對智能座艙車載語音系統的完整介紹。如果你對智能座艙產品感興趣，關注我。

本文由 @賽博七號原創發布于人人都是產品經理，未經許可，禁止轉載。

題圖來自Unsplash，基于 CC0 協議。

本文由 @賽博七號原創發布于人人都是產品經理，未經許可，禁止轉載。

題圖來自Unsplash，基于 CC0 協議。

該文觀點僅代表作者本人，人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

解讀智能座艙的產品模塊文章被收錄于該專欄

共 15 篇文章15028 人已學習

賽博七號

幫助更多人了解座艙產品V：cyber7h

15篇作品 173609總閱讀量

08-094187 瀏覽

03-152512 瀏覽

12-041575 瀏覽

05-303543 瀏覽

10-2310132 瀏覽

評論

球球你別吃了

你好，我想請問下，車載語音方向的PM有市場嗎？吃香嗎

最近來自廣東回復
1. 漢武帝回復球球你別吃了
  
  有市場，吃香不吃香看公司。有的給錢給資源給人，有的“用公版軟件，給你八個月，做出來和小鵬一樣水平的車載語音”。。。。
  
  最近來自上海回復
不想搬磚的打工人

這個系統看上去好智能耶不知道能不能自定義喚醒詞那樣應該很有意思！

最近來自福建回復
1. 不肚饑。回復不想搬磚的打工人
  
  很早就可以實現了~
  
  最近來自湖北回復