語音合成 TTS | AI 產品經理需要了解的 AI 技術概念

2 評論 18372 瀏覽 112 收藏 18 分鐘

在文中,作者替大家收集了很多線上/線下的相關信息后,提煉出的AI產品經理“最必要”了解的TTS技術知識和行業現狀。

TTS(Text-To-Speech,語音合成),目前是一個“小而美”的AI領域,但我個人覺得非常有意思,感覺TTS在未來會被行業真正重視起來,并且會出現做得不錯的創業公司。

本文,是我收集了很多線上/線下的相關信息后,提煉出的AI產品經理“最必要”了解的TTS技術知識和行業現狀(多了沒必要,少了又不足以入門、準備面試或工作實戰),不僅幫大家節省了時間,更是過濾了很多無用信息和過于技術的內容。

目錄:

  • 一、核心概念
  • 二、當前技術邊界
  • 三、瓶頸和機會(重點

一、核心概念

1. TTS和ASR的概念區別

我們比較熟悉的ASR技術(Automatic Speech Recognition,語音識別),是將聲音轉化為文字,可類比于人類的耳朵。

而TTS技術(Text-To-Speech,語音合成),是將文字轉化為聲音(朗讀出來),類比于人類的嘴巴。大家在Siri等各種語音助手中聽到的聲音,都是由TTS來生成的,并不是真人在說話。

TTS的技術實現方法,主要有2種:“拼接法”和“參數法”。

2. 拼接法

  1. 定義:從事先錄制的大量語音中,選擇所需的基本單位拼接而成。這樣的單位可以是音節、音素等等;為了追求合成語音的連貫性,也常常用使用雙音子(從一個音素的中央到下一個音素的中央)作為單位。
  2. 優點:語音質量較高。
  3. 缺點:數據庫要求太大,一般需要幾十個小時的成品預料。企業級商用的話,需要至少5萬句,費用成本在幾百萬元。

3. 參數法

(1)定義:根據統計模型來產生每時每刻的語音參數(包括基頻、共振峰頻率等),然后把這些參數轉化為波形。

主要分為3個模塊:前端后端聲碼器。

前端做的事情,是把文本進行解析,決定每個字的發音是什么,這句話用什么樣的語氣語調,用什么樣的節奏來讀,哪些地方是需要強調的重點等等。常見的語氣相關的數據描述包含但不限于下面這些:韻律邊界、重音、邊界調、甚至情感。 還有更多的信息甚至是難以客觀描述的,目前的算法只能暫且忽略。

注:拼接法和參數法,都有前端模塊,拼接和參數的區別主要是后端聲學建模方法的區別。

(2)優點:數據庫要求相對較小一些。

  • 如果只需要出聲(做demo),大概500句就可以,但是效果肯定不行。
  • 通用TTS,一般至少需要5000句,6個小時(一般錄制800句話,需要1個小時)——從前期的準備、找人、找錄音場地、錄制、數據篩選、標注,最終成為“可以用的數據”,可能至少需要3個月。(訊飛在各方面比較成熟,用時會短很多)
  • 個性化TTS,大多數是用“參數”方法的。(adobe、微軟也有嘗試過拼接法,不過相對參數方法來說不是太成熟,效果也并不是太通用)

(3)缺點:質量比拼接法差一些,因為受制于發聲算法,有損失。

因為主要弱點和難點就是聲碼器,聲碼器的作用是復現聲音信號,難在重現聲音細節,并且讓人聽不出各種雜音、沉悶、機械感等等。目前常見的聲碼器都是對聲音信號本身作各種理論模型,以及簡化假設,可以說對細節的描述近似于忽略。

注:DeepMind的WaveNet,基本解決了聲碼器的問題。因為他們直接對語音樣本進行預測,不依賴任何發音理論模型。最后出來的音質細節十分豐富,基本達到了與原始語音類似的音質水準(所謂質量提高了50%,就是這里),而且幾乎可以對任意聲音建模(這就太牛了)。

4. TTS的評判標準

(1)主觀測試(自然度),以MOS為主

MOS(Mean Opinion Scores),專家級評測(主觀);1-5分,5分最好。

注:微軟小冰公開宣傳是4.3分,但有業內朋友認為,也不能據此就說其“絕對”比科大訊飛好,因為每次評審的專家人選都不一樣。說白了,目前整個AI行業內,還是各家說自己好的節奏。

ABX,普通用戶評測(主觀),讓用戶來試聽兩個TTS系統,進行對比,看哪個好。

每次主觀測評應該有區分,比如:這次著重聽多音字,下次主要聽語氣詞等。

(2)客觀測試

  1. 對合成系統產生的聲學參數進行評估,一般是計算歐式距離等(RMSE、LSD)。
  2. 對合成系統工程上的測試:實時率(合成耗時/語音時長)、首包響應時間(用戶發出請求到用戶感知到的第一包到達時間)、內存占用、CPU占用、3*24小時crash率等。

二、技術邊界

1.通用TTS

在用戶預期不苛刻的場景(APP/硬件),能滿足商業化需求,比如:語音助手/滴滴/高德/智能音箱/機器人),但如果用戶預期非常高的話,是很難滿足的,因為還是會有“機器感/機械感”,不能非常自然的模擬人聲。

目前行業各家公司的產品效果差不多,都基本能商用。

2.?個性化TTS

在用戶預期不苛刻的場景,能“基本”滿足商業化需求,但是效果沒通用TTS那么好。但如果用戶預期非常高的話,暫時是滿足不了的。

目前行業內能成熟商用的,主要還是科大訊飛,也有些創業公司在這個領域有所布局,如微量分貝(HEARD)這家致力于海量內容音頻化的企業,對聲音進行了分門別類的生成和儲備,他們瞄準的企業級需求也會更為個性化、品牌化,諸如阿里巴巴旗下的“動物園”品牌(如天貓、閑魚、盒馬、菜鳥等),都會生成諸如“小豬佩奇”這樣的角色化TTS 并被商用。

3.?情感TTS

目前業界的情感合成更多了,是因為數據本身變多了、更有節奏了,超過了傳統的播音風格,但并不是真正的“喜怒哀樂”等情感合成(想高興就高興的這種智能)

在情感TTS的理論方面,學術界是有儲備的,但是,整個行業目前都沒怎么做(或者沒做好)。是因為情感TTS很依賴“情感意圖識別”,“情感特征挖掘”、“情感數據”以及“情感聲學技術”等,是個系統工程。

其中第1點,即是和自然語言處理相關,比如:需要知道“什么時侯該高興或悲傷”;同時,具有情感演繹的語音數據的儲備,也非常重要。

三、瓶頸和機會

主要有5個方向的瓶頸(同時也是機會)。

1.?基礎技術

(1)TTS技術正處于重大變革:端到端(End-to-End)的TTS建模方法,加上WaveNet 的聲碼器思想,是未來TTS的發展方向。

端到端TTS,一般指tacotron,tacotron只是Google提出的合并了原先時長模型和聲學模型的中段結構,可以接任何TTS前端和TTS后端。

  • TTS前端,如:中文分詞、注音、詞性,都會提升tacotron性能;
  • 后端,參數、拼接、wavenet都可以選用。

關于WaveNet技術的商業化:Google今年初將第二代WaveNet技術商業化了,速度比第一代快一萬倍。而國內各家公司,基本也仿制出來了(論文算法),但工程化還需要時間,而且成本還是太高,短期內應該沒法商用。

關于效果:TTS最終效果好壞,技術只占50%不到,在技術都差不多的情況下,聲優質量和數據量最重要。其次是相同部署規模和成本的TTS才能相互比較,即,不能簡單的說哪家公司的效果比另一家更好。

  • 比如:拿百度/騰訊/阿里/圖靈等很多家AI公司的WaveNet v1的效果,一般都能超過訊飛線上的接口,但部署成本高幾萬倍,且不實時。WaveNet V2商業化以后,雖然能實時,但部署成本至少也比高配拼接TTS高10倍左右。
  • 成本,部分和采樣率相關,例如:訊飛/百度TTS的采樣率都是16k,如果用24k和48k,主觀體驗至少強50%,但成本會翻倍。也就是說,其他AI公司的24kTTS的MOS,能吊打訊飛/百度的API,但不能說他們的技術就比訊飛/百度強,因為在商業化時,會犧牲效果來降低成本。

(2)如何讓離線版效果達到在線版水平?

很多客戶希望(奢望)有離線版本,并且效果和在線版本一樣好……

現階段來說,可能真是“臣妾做不到啊”。

2.?數據缺乏

一方面,特別是個性化TTS,需要數據量更大。比如:默認男孩聲音,要轉成女孩,就比較難。

另一方面,數據的獲?。ㄖ谱鳎┏杀竞椭芷?/strong>,也是各家在初期的競爭著力點,比如:一般來說,一款(套)TTS數據,至少需要先錄制2-3萬句話,再加上數據標注,通常耗時在3個月以上(且需要主播全力配合)。對于30小時的數據,價格通常在30-50萬,而上文提到的微量分貝(HEARD)這家公司,調動了8000+位優質播音人員,在給不同內容配音的同時,也做了大量結構化數據的存儲(庫存化)。

這樣,針對大部分客戶的數據需求,并不需要再找主播進行錄制,而是直接從倉庫調取數據進行解凍即可(數據標注)。通過將這種?“邊進行業務邊賺取數據”的流程標準化,其獲取數據的成本大大降低到行業的五分之一?,并且一旦有需求,可以在1個月內進行交付。

這家公司在南方搭建的數據標注工場的規模,也是巨大的,包括華為等公司都從其采購語音合成數據。

3.?人才匱乏

不僅沒法跟NLP、CV等熱門AI人才比,就算跟同樣不算熱門的ASR比,TTS的人才都還要少一些。

4.?產品化難度

由于技術限制,現階段不可能有非常完美的TTS效果,所以

盡量選擇用戶預期不苛刻的場景,或者在產品體驗設計時,管理好用戶預期(比如:打車軟件,郭德綱/林志玲的聲音,差不多就行)。

選擇“參數法”還是“拼接法”,和公司的技術儲備、成本、以及產品目標相關。在垂直領域,現有的TTS技術(參數或者拼接)都可以針對產品做得很好。現在行業還沒有太好的效果,很大原因是因為產品經理還沒有深入介入,有很多細節的坑要踩(產品設計+工程化實現)——未來應該會有驚艷的產品出現。

體驗細節設計,和一般互聯網產品很不同,比如

  1. 文案設計,非常重要。因為在語音交互場景,不能太長,用戶沒耐心和時間聽完的。
  2. 可以加入背景音樂,掩蓋雜音等細節瑕疵。
  3. 特殊場景,還有特別的需求,比如:遠場場景和戴耳機場景相比,還是會有區別的。
  4. 中英文混合TTS,比如:用戶想播首英語歌曲,困難在于:所有中文的發音當中,中文和英文合拍念出來是很難的,為什么呢?因為往往錄音的人,錄中文是一批人,錄英文又是一批人。兩種語言結合起來,再用機器學習學出來,聲音就會變得非常怪。這方面,小雅音箱曾經花了很大的精力和成本去“死磕”解決。

5.?商業化壓力

如果要有足夠的市場競爭力,至少需要12個月的時間,2~6人團隊(如果有人做過前端相關工作,會節省巨大成本——工作量主要在中文前端NLP部分,比如:分詞、注音、詞性文本規整化等),幾百萬資金投入(1個GPU一年十萬,支持并發只有幾十個)。并且,大公司的先發優勢巨大,小公司必須切細分場景。

我個人認為:個性化TTS、情感TTS會在各細分場景得到更大的應用,比如:知識付費、明星IP、智能硬件、車聯網、實體/虛擬機器人等。

附:相關資料

1. 相關高校及實驗室

語音合成涉及專業領域較廣,包含語言學、聽覺與發聲機理、自然語言分析、深度學習、信號處理等諸多領域,是一門綜合性學科。

國際上,英國愛丁堡大學Simon King教授,卡耐基梅隆大學Alan W Black教授, 日本和歌山大學Kawahara教授,谷歌Heiga Zen所在的實驗室均為國際頂級實驗室。

國內來說,中國學術屆也一直走在行業的前列,國際語音合成挑戰賽blizzard challenge已經連續10多年冠軍在中國。

國內大部分的語音合成人才,均來自于中科大、中科院自動化所、中科院聲學所、清華大學、西北工業大學等幾家單位,比如:西北工業大學的謝磊老師組,已向語音合成屆輸送了大量人才,在微軟、百度、搜狗、小米、IBM、訊飛、流利說、出門問問、獵戶星空、同盾等公司的核心崗位上,都有來自西工大的學生。

2. 參考文章

3. 相關產品

訊飛配音app、訊飛朗讀助手app、閃電配音等。

4. 有趣視頻

《武漢地鐵語音播報已逆天,這是要稱霸全國的節奏啊》

#專欄作家#

hanniman,人人都是產品經理專欄作家,前騰訊、現創業公司PM;專注于人工智能領域的產品化研究,關注人機交互(特別是語音交互)在手機、機器人、智能汽車、智能家居、AR/VR等前沿場景的可行性和產品體驗;擅長對創業團隊管理、個人成長提出實戰型的建議方案;知乎/簡書/微博帳號,均為hanniman。

本文原創發布于人人都是產品經理,未經許可,不得轉載。

題圖來自 Pixabay,基于 CC0 協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 怎么能聯系上作者,聊聊細節問題

    回復