智能座艙之語音TTS
目前在車載場景中,TTS技術的應用已經十分常見,那么,想在車載領域、智能座艙領域深耕的產品同學,你是否對車載TTS有所了解呢?不妨來看看這篇文章的內容分享。
一、TTS是什么
文字轉語音,大家可以以微信的語音轉文字的反向工程來理解,主要作用是實現機械對話。
二、車載領域語音合成現狀分析
車載場景目前是TTS技術的重要應用場景,其發展主要經歷了以下四個階段:
其中,高度個性化的發展應該細分為兩個階段。
第一個階段,基于人群圈層的個性化,劃分的圈層可能為男性/女性,兒童/成人/老年人,車主/乘客,基于車企的策略不同。
第二個階段,通過聲紋識別或攝像頭等感知手段,實現真正的千人千面,定制自己專屬的TTS風格化回復。
三、當前車載場景下的痛點
- 機械感:聽感上仍能夠識別出是機械的合成音,不自然、重讀不準確等;
- 風格單一:語音合成風格較為單一,并且多為播音風格,缺少樂趣;
- 情感欠缺:播報的情感音,融合進車載的交互場景方式粗暴,體驗不佳,具體表現為不同情感音不區分場景、不區分文本,僅僅通過音調等變化表達情感,存在機械的僵硬感;
- 智能化:場景定義不全面或不準確,由于車載TTS的回復語基于車載語音產品經理對場景的定義,存在漏定義、定義錯的情況;并且在通過TTS引導用戶的角度看,當前所有的車企方案較少考慮到這一點。
四、車載TTS的重要指標
車載TTS的評價指標沿用語音業界的MOS評價方式,即邀請聽音人試聽合成語音,根據分值描述,從擬人性、連貫性、韻律感等方面為語音選擇合適的分數,通常主要的指標為:
- 韻律準確度;
- 端云音色相似度;
- 發音準確度;
- 發音清晰度。
但是以上指標主要都是針對TTS發音的問題,在實際測試的過程中,也會對TTS反饋的語料準確性、是否合適等進行測試,通常單一問題單一解決。
五、語音TTS遇到的典型問題
- 端云變化:在汽車行駛過程中,進入隧道或停車場等場景時,車輛的網絡狀態會切換為弱網/無網狀態,此時云端的語音資源就會切換為本地資源,切換順滑度、音色相似度等都是典型問題;
- 多音字發音錯誤:機器未準確識別語境,發音錯誤;
- 斷句錯誤:遇到沒有標點符號或者標點符號錯誤的文本,機器未能識別,形成斷句錯誤;
- 方言表達不地道:機器直接采用了文本的發音,未轉換成方言發音。
例:
早上好,粵語應該說zou sen,而TTS會直接說早上好(粵語音調)。
沒有,粵語應該說冇,而TTS會直接說沒有(粵語音調)。
六、產品角度看車載TTS
1. 車載TTS的商業價值
車機作為第三個屏幕,其運營是一個說了很久的話題,但是目前真正在車機上實現商業化運營價值的車企卻沒有,而風格化回復語,沒有安全性、政策等因素的限制,是目前能看到落地最快的方向之一,并且運營價值,如果能保證較低成本形成風格化回復語的情況下,對于具備較多智能存量車的車企來說,在我個人角度上來看為高。
2. 大模型對車載TTS可能的影響
一是個性化定制成本降低:大模型通過大量的數據學習,理想中可以快速對一些特定形象進行學習,降低學習成本,例如影視作品的角色,形成具有該角色風格的回復語。
二是更加快速合成結合業務的風格回復語:車載TTS更多的是結合業務的場景,例如導航去天安門、打開車門等,大模型結合業務將實現更加多變、準確、有趣的回復。
本文由@加飯 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
您好,看了您的文章,我感覺受益匪淺,有個疑問想請教一下您,看您提到語音TTS可能會遇到“機器直接采用了文本的發音,不能轉換為方言發音”,想請問轉化成為粵語句式結構的中文文本后,不能直接對應成粵語的發音嗎?