用可量化操作打造AI好聲音

0 評論 4467 瀏覽 12 收藏 8 分鐘

本文將為大家分享實(shí)戰(zhàn)經(jīng)驗(yàn):團(tuán)隊(duì)如何評估和影響語音合成的效果,從而幫助AI“說人話”。

AI產(chǎn)品“能說話”由基礎(chǔ)算法和交互設(shè)計(jì)師來保障,但是說的話能不能讓你聽懂、是否像人,就要考驗(yàn)語音合成的功力了。本文將用實(shí)戰(zhàn)經(jīng)驗(yàn)分享:團(tuán)隊(duì)如何評估和影響語音合成的效果,從而幫助AI“說人話”。

一、評估原則

二、方法選擇

【MOS評價(jià)法】一般用于單一語音庫的合成水平評估。選擇了行業(yè)相對通用的“MOS評價(jià)法”,即主觀質(zhì)量評分法 Mean Opinion Score,進(jìn)行主觀評價(jià)。用戶根據(jù)聽到的聲音質(zhì)量,在李克特5級量表中給出一個主觀評分評價(jià)質(zhì)量優(yōu)劣,1最差-5最優(yōu)。

【注】MOS評價(jià)法初期用于語音通訊中的語音質(zhì)量評估,常用李克特5級量表。近年隨著語音合成技術(shù)的出現(xiàn),這一評價(jià)工具被應(yīng)用于合成語音效果的評估,行業(yè)均值3.5,高于這個分?jǐn)?shù)則被認(rèn)為高于行業(yè)一般水平。但2017-2018年見,隨著語料庫的迅速積累、語音合成技術(shù)也不斷完善,行業(yè)均值有所提升。

(1)我們?yōu)樽约寒a(chǎn)品所用的合成語音定下的最基本評價(jià)原則:是否像人。像人ok,不像out!所以會涉及到一個最主要的評估指標(biāo)(MKPI)『還原度』。為了得到合成語音在MKPI上的表現(xiàn),需要將合成語音與人聲比較,還原度高=像人=ok,還原度低=不像人=out!

(2)為了獲取合成音相較人聲的還原度,讓指標(biāo)可以量化,做了指標(biāo)拆解:用戶在充分認(rèn)識某一人聲特質(zhì)的基礎(chǔ)上,比較合成音對「人聲特質(zhì)的保留水平」,以及在一句話中「特質(zhì)保留水平是否穩(wěn)定」。

(3)還是有點(diǎn)抽象,那就將指標(biāo)進(jìn)行操作定義:所以在專家打分和文獻(xiàn)研究的基礎(chǔ)上,確定了3個一級指標(biāo)及其下6個二級指標(biāo)。

(4)還原度/mos評價(jià)維度釋義

  1. 可懂度-TTS的播報(bào)是否能讓用戶聽懂(語音準(zhǔn)確清晰);
  2. 流暢性-字與字、句子成分之間的連接是否流暢自然;
  3. 音色-還原度TTS播報(bào)的音色是否令用戶滿意;
  4. 語速-TTS播報(bào)的速度是否讓用戶感覺舒適友好;
  5. 語調(diào)-TTS播報(bào)的語調(diào)是否穩(wěn)定?語調(diào)尤其字音是否發(fā)音準(zhǔn)確?

【ABX迫選法】一般用于不同版本迭代效果/競品評估。選擇心里測量工具——迫選量表。設(shè)計(jì)單盲實(shí)驗(yàn)施測,用戶在聽到的A\B\X\……兩兩配對的聲音中,選擇一個主觀認(rèn)為較人聲原聲還原度最高的。最終統(tǒng)計(jì)A\B\X\……各自頻次,頻次較高的版本較好。

三、建議實(shí)施步驟

【MOS評價(jià)法】從6個維度對各條語音進(jìn)行mos評分,發(fā)現(xiàn)短板、比較與人聲的差異。

  1. 測試前培訓(xùn)用戶,為用戶播放評價(jià)演示素材,并確保用戶明確評價(jià)方法。發(fā)放紙質(zhì)mos評價(jià)表
  2. 用戶戴耳機(jī),主持人發(fā)用筆記本電腦隨機(jī)為用戶播放待測試語音
  3. 人聲、合成音按內(nèi)容分組配對。主持人隨機(jī)播放各組語料
  4. 每一句語料播放完畢,邀請用戶對該句語料進(jìn)行6個維度的mos評分
  5. 全部施測完成,主試統(tǒng)計(jì)各維度/總體mos評分均值,比較各產(chǎn)品的總體mos水平,確定相對優(yōu)劣。以下為各維度/總體比較標(biāo)準(zhǔn),其中3.5分為行業(yè)平均水平

【ABX迫選法】人聲PK多版本合成語音,分別比較集內(nèi)內(nèi)容與集外內(nèi)容的還原度。

  1. 主持人為用戶介紹評價(jià)方式,并發(fā)放紙質(zhì)A/B/X量表
  2. 用戶戴耳機(jī),主持人測試筆記本電腦
  3. 人聲、多版本合成音按內(nèi)容分組配對。主持人隨機(jī)播放各組語料
  4. 播放后邀請用戶配對呈現(xiàn)的聲音進(jìn)行比較,并作出選擇:A/B/X
  5. 全部施測完成,主試統(tǒng)計(jì)選擇頻次。以下為評價(jià)標(biāo)準(zhǔn)

【注】集內(nèi)內(nèi)容:語音合成的訓(xùn)練集中的人聲語料,因?yàn)樽鲞^針對性的訓(xùn)練,所以該內(nèi)容生成質(zhì)量輪上比集外內(nèi)容更好;集外內(nèi)容:相對集內(nèi)內(nèi)容的概念,從未進(jìn)行過針對訓(xùn)練的隨機(jī)挑選的語料。

四、合成算法比較

語音合成算法發(fā)展也是與時(shí)俱進(jìn),算法選擇的成功可以事半功倍。(僅比較主流算法之間應(yīng)用場景和優(yōu)劣,詳細(xì)算法原理介紹的文章很多不一一列出)

按出現(xiàn)的年代由遠(yuǎn)及近排列,如下表:

本文聯(lián)合作者:

于爽 | 網(wǎng)易杭研不高級用戶研究員,做了一年半智能音箱

利瑩 | 現(xiàn)回歸高校音樂管理專業(yè)的人民教師,前網(wǎng)易人工智能事業(yè)部策劃

參考文獻(xiàn):

1. 吳志勇 ,蔡蓮紅,《語音合成技術(shù)的原理》,清華大學(xué)計(jì)算機(jī)系智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,2007

2. 語音合成技術(shù)概述?http://www.cnblogs.com/mengnan/p/9474111.html

 

本文由 @鋼镚兒yu 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!