AIGC音頻合成知識入門

0 評論 6428 瀏覽 37 收藏 10 分鐘

隨著信息技術的發展,AI能幫助我們做的內容越來越多。本篇文章,作者以AI音頻合成為主,分析音頻合成的流程,以及需要考慮的幾個方面,幫助音頻合成零基礎的伙伴,快速掌握音頻合成。

今年席卷而來的AI風潮刮到了各個模態,音頻創作作為重要形態之一,也逐漸涌現出眾多產品與模型,但音頻合成的基本原理你是否了解呢?一起來看看吧。

一、定義

組成聲音的結構包括音素、音節、音位、語素等,音頻生成是對這些基本單位進行預測和組合,通過頻譜逼近或波形逼近的合成策略來生成對應的聲音波形。

語音合成的本質是通過對于語句結構和關系的學習來預測其聲學特征,還原聲音波形的過程。語音+音頻結合后才得到我們常見的歌曲、朗讀等形態。

音頻生成目前主要包括:根據文本合成語音(text-to-speech),進行不同語言之間的語音轉換,音色克隆(Singing Voice Conversion),根據視覺內容(圖像或視頻)進行語音描述,以及生成旋律、音樂等。

二、發展歷程

音頻生成隨著計算機技術的發展,逐漸形成了以“文本分析-聲學模型-聲碼器”為基本結構的語音合成方法。

基于對這個結構部分模塊的替代或優化,音頻生成的關鍵技術大致經歷了拼接合成階段、參數合成階段、端到端合成階段三個時期。

1. 波形拼接語音合成

顧名思義,波形拼接法是通過對語句的音素、音節、單詞等進行特征標注和切分之后,在已有的語音數據庫中查找基本單位,拼接合成語音。

其背后需要錄制大量的音頻,盡可能覆蓋全所有的音節、音素等,數據庫中的錄音量(樣本)越多,最后合成的音頻效果越好。

  • 優點:基于真人錄制的語音音質較好,聽覺上比較真實。
  • 缺點:拼接效果依賴于語音庫的數據量,需要錄制大量的語音才能保證覆蓋率;字詞的銜接過渡較為生硬,不夠自然。

2. 參數語音合成技術

參數合成法是主要是通過數學方法對已有聲音數據進行聲學特征參數建模,構建文本序列映射到語音特征的映射關系,生成參數合成器。

訓練好的模型對輸入數據進行分詞、斷句、韻律分析等,映射出對應的聲學特征,再由聲學模型(聲碼器)合成音頻。

  • 優點:原始錄音數據量?。蛔珠g協同過渡平滑,自然。
  • 缺點:存在音質損失,沒有波形拼接的好;機械感強,有雜音。

3. 端到端語音合成技術

端到端語音合成技術是目前最為主流的技術,通過神經網絡學習的方法,采用編碼器-注意力機制-解碼器(Encoder-Attention-Decoder)的聲學模型,實現直接輸入文本或者注音字符。

中間為黑盒部分,最后輸出頻譜和聲音波形合成音頻,簡化了復雜的語言分析部分和特征抽取過程。

端到端合成大大降低了對語言學知識的要求,可以實現多種語言的語音合成。通過端到端合成的音頻,效果得到的進一步的優化,更加自然,趨近真人發聲效果。

目前,語音生成領域應用廣泛且效果優秀的產品均基于端到端合成框架實現的,模型性能和應用能力的提升使其逐漸成為主流。

  • 優點:對語言學知識要求降低;合成的音頻自然,趨近人聲,效果好;同參數合成一樣所需錄音量小。
  • 缺點:黑盒模型,合成的音頻不能人為調優;復雜合成任務需要較多資源。

當前的開源模型在不斷迭代更新,端到端合成目前比較火的有Tacotron2、Transformer-TTSWavLM等模型。

三、影響應用能力的關鍵因素

四、輸入類型

五、效果指標

1. MOS值

定義:找一些業內專家,對合成的音頻效果進行打分,分值在1-5分之間,通過平均得到最后的分數。

這是一個相對主觀的評分,沒有具體的評分標準。根據個人對音色的喜好,對合成音頻內容場景的掌握情況,以及對語音合成的了解程度是強相關的。

雖然mos值是一個比較主觀的測試方式,但也有一些可評判的標準。例如在合成的音頻中,多音字的讀法、當前場景下數字的播報方式、英語的播報方式,以及在韻律方面,詞語是否連在一起播報、應該重讀的地方是否有重讀、停頓的地方是否合理、音色是否符合應用于當前的這個場景。都可以在打分的時候做為得分失分的依據。

2. ABX測評

定義:熟知的AB測試,選擇相同的文本以及相同場景下的音色,用不同的模型合成來對比哪個的效果較好,也是人為的主觀判斷。

但是具有一定的對比性,哪個模型更適合當前的場景,合成的效果更好。

3. 其他指標

圍繞合成音頻的可懂性、自然度、相似度。以中文為例,還有些指標包括PER(拼音-不包含聲調-錯誤率,越低越好)、PTER(拼音-包含聲調-錯誤率,越低越好)、Sim(與真人聲音的相似度,越高越好)等。

六、應用場景

1. 文本-語音合成(TTS)

目前技術發展已經較為成熟,市面上已有較多公司(訊飛、出門問問、思必馳等)推出了商業化產品,主要聚焦的應用場景是AI語音合成

虛擬人主播

2. 音色遷移/語音克?。⊿VC)

這段時間爆火的“AI孫燕姿”就是音色克隆的代表之一,只需要一定數量的訓練集錄音,就可將輸入的文本或語音轉換為目標模型音色

部分商業化產品目前也在試行推廣這一功能。

目前也有開源模型支持個人訓練,僅需滿足硬件限制(6GB以上顯存的NVDIA顯卡、Windows系統)。

例如比較主流的模型so-vits-svc,部署后可直接通過webui即可進行訓練操作。

github倉庫地址:so-vits-svc/README_zh_CN.md at 4.1-Stable · svc-develop-team/so-vits-svc · GitHub

至此音頻合成的知識入門就告一段落,感興趣的同學可以嘗試語音克隆的模型訓練去了解更多,實踐出真知~

本文引用數據源:

易觀千帆:https://qianfan.analysys.cn/

本文由 @白金之星 原創發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!