從0開始搭建產(chǎn)品經(jīng)理AI知識框架:語音識別與合成

2 評論 13166 瀏覽 135 收藏 12 分鐘

AI PM認(rèn)知系列第三篇,字?jǐn)?shù):2300+,速讀需4分鐘。

從早期蘋果的Siri,到最近國內(nèi)的智能音箱大戰(zhàn),越來越多AI語音產(chǎn)品走入了大家的生活。

?近幾天我也在思考,相比已有更落地方案的計算機視覺技術(shù),AI的語音技術(shù)在產(chǎn)品應(yīng)用中的本質(zhì)是什么?這個思考我也跟一些語音領(lǐng)域的專家探討過,而其中我個人的理解是:

AI語音技術(shù)的本質(zhì),通過效率的提升,場景的便捷,重新定義了用戶體驗。

為什么我這么理解?那我們先來看看語音有哪些天然屬性

  • 提升效率:一分鐘400字的速度靠打字是無法超越的,所以特定行業(yè),語音的技術(shù)可以大大的提升人機的效率。
  • 操作便捷:解放了你的雙手,除了一些基本的操作,無需要每個字都操作鍵盤或點擊屏幕了。
  • 學(xué)習(xí)成本:對于不認(rèn)字的老人和小孩,可以用語音來進(jìn)行檢索和進(jìn)行操作,對于不會拼音的人,也可以使用語音識別。

所以,以下AI語音相關(guān)的分享,會圍繞兩個方面:

  1. 語音技術(shù):語音識別和語音合成
  2. 語音技術(shù)應(yīng)用和未來思考

1.語音技術(shù):語音識別和語音合成

1.1?語音識別:ASK

語音識別(Automatic Speech Recognition)是以語音為研究對象,通過語音信號處理和模式識別讓計算機自動識別人類口述語言。

簡單來說,就是讓機器可以聽得懂人話。

其中比較核心的部分是語音聽寫:就是將語音信息轉(zhuǎn)化為文字信息。

中文語音聽寫的技術(shù)原理,如下:

  • 說出一段話,比如:「產(chǎn)品經(jīng)理」,機器收到只是一段聲波信號。
  • 進(jìn)行信號的預(yù)處理,如:降噪,消除回音…等。
  • 特征提取,如:說了幾個字,音調(diào)是什么…等。
  • 通過聲學(xué)模型匹配,輸出“音”:chan2,pin3,jing1,li3。(拼音舉例)
  • 通過語言模型處理,最終得到文字:產(chǎn)品經(jīng)理。

而這里的特征提取,聲學(xué)模型語言模型在技術(shù)實現(xiàn)上,有兩種方法:

  • 傳統(tǒng):隱馬爾可夫模型(HMM)
  • 端到端:深度神經(jīng)網(wǎng)絡(luò)(DNN)

目前語音識別技術(shù)主要是通過DNN實現(xiàn)的,特定場景下最高可以達(dá)到97%的識別率。

1.2語音合成:TTS

語音合成(Text-To-Speech)是計算機將自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月牭枚?、流利的漢語口語輸出的技術(shù)。

簡單來說,就是機器講文字朗讀出來。

中文的語音合成技術(shù)原理,如下:

  1. 先通過規(guī)則把一段文字分詞,如:我|愛|產(chǎn)品|經(jīng)理。
  2. 把這段文字進(jìn)行韻律的處理,標(biāo)出是發(fā)什么音。
  3. 根據(jù)語音庫的發(fā)音,進(jìn)行單元的拼接。
  4. 最后就可以播放出這段語音了。

目前主要實現(xiàn)是兩種方法:

  • 拼接法:把錄音的句子切碎成基本單元存儲起來,再根據(jù)需要拼接起來。
  • 參數(shù)法:通過錄音提取波形的參數(shù)存儲起來,早根據(jù)參數(shù)轉(zhuǎn)化為波形。

拼接法的優(yōu)點就是更自然,但是缺點是需要大量的錄音,和存儲。

參數(shù)法的優(yōu)點就是存儲小,但是缺點就是不夠自然,聽起來就是怪怪的機器發(fā)音。

另外谷歌發(fā)布的WaveNet是基于語音網(wǎng)絡(luò)使用生成算法制作而成的,相對于以前的拼接法、參數(shù)法,在聲音表現(xiàn)力上更具優(yōu)勢。

此外,語音合成的技術(shù)主要體現(xiàn)在四個方面

  • 表現(xiàn)力:不同年齡,性別特征以及語調(diào),語速的表現(xiàn),個性化。
  • 音質(zhì):聲音的清晰度,無雜音
  • 復(fù)雜度:減少音庫的體積,降低運算量及系統(tǒng)開銷。
  • 自然度:音律規(guī)則,間隔停頓。

目前的語音合成技術(shù)相對比較成熟,進(jìn)一步優(yōu)化的同時,大家的重點都放在了表現(xiàn)力上,以符合更多的場景應(yīng)用,滿足不同人對個性化的需求。

舉個例子:

前一段時間,我打車時候看到司機師傅使用高德的語音導(dǎo)航,語音合成用的是一個小朋友的聲音,我們就聊了起來,司機師傅說他才剛開始拉活,路不熟,他不喜歡郭德綱的聲音,話忒多,他用小朋友的聲音,一個是語速慢,另外一個是吐字清晰,不會因為聽不清楚走錯路。

這個就是在不同場景下用戶對于表現(xiàn)力的個性化需求,因人而異。

1.3產(chǎn)品應(yīng)用中涉及的語音相關(guān)技術(shù)

目前我們用微信語音或者是Siri時,都屬于近場的識別,而智能音箱,車載設(shè)備,機器人的語音都屬于遠(yuǎn)場識別,遠(yuǎn)場識別會受到,距離,噪音,混響…等問題,需要有其他的相關(guān)技術(shù)來配合完成,提高識別率。

麥克風(fēng)陣列:由一定數(shù)量的麥克風(fēng)組成,用來對聲場的空間特性進(jìn)行采樣并處理的系統(tǒng)。用于在會議室、戶外、商場等各種復(fù)雜環(huán)境下,解決噪音、混響、人聲干擾、回聲等各種問題。

麥克風(fēng)陣列又分為:2麥克風(fēng)陣列,4麥克風(fēng)陣列,6麥克風(fēng)陣列,6+1麥克風(fēng)陣列。

隨著麥克風(fēng)數(shù)量的增多,拾音的距離,噪聲抑制聲源定位的角度,以及價,都會上升,所如如何選擇要貼合實際應(yīng)用的場景,找到最佳的方案。

舉個例子:

獵豹小雅AI音箱,用的就是6+1麥克風(fēng)陣列,因為要針對360度的3-5米的場景中使用。而很多家電,比如電視機都是貼墻放置的,2麥克風(fēng)陣列的180度,就足夠使用了。

而兩者麥克風(fēng)陣列技術(shù)要求和價格相差數(shù)倍。所以對于產(chǎn)品落地來講,在提供解決方案的時候,選擇最優(yōu)的方案。

語音激活檢測:在用微信時候,你會點擊語音的按鈕,來讓語音開始識別。而在遠(yuǎn)場的時候,沒有辦法進(jìn)行相關(guān)的操作,所以需要判斷什么時候有語音,什么時候沒有語音。

語音喚醒:通過關(guān)鍵詞來喚醒你的語音設(shè)備,比如:嘿~Siri,這時候語音識別才開始工作。

語音喚醒難點在于,喚醒的響應(yīng)時間功耗要低,喚醒的漏報和誤報率……等。

2語音技術(shù)應(yīng)用和未來的思考

目前的語音識別技術(shù),相對成熟應(yīng)用還在近場語音

而語音產(chǎn)品的未來方向的挑戰(zhàn):

  • 遠(yuǎn)場語音:智能家居,車載語音…等
  • 語音理解:與機器交互更“自然”的溝通

未來遠(yuǎn)場語音的場景比想象的更為復(fù)雜,雖然語音識別的相關(guān)技術(shù)在智能音箱的家居場景下表現(xiàn)的還不錯,但家居環(huán)境畢竟相對安靜可控,但是其他的遠(yuǎn)場語音就沒有這么順利了。

例如:

車載識別,在開車的環(huán)境下太多噪音,發(fā)動機的聲音,打開車窗的風(fēng)聲,車胎聲,路面聲音,這些噪音都會影響到語音的識別。

而解決的方法,是要在識別之前,消除掉這些噪音,但這樣就會產(chǎn)生一個問題,那么多種聲音,機器怎么知道要消除哪些?保留哪些?

現(xiàn)在的方法是怎么做的? 扛著個麥克風(fēng),去各個車型里面錄噪音,然后把各種車,各種場景下的噪音給機器去學(xué)習(xí),讓機器分辨出哪些聲音是要消除的。但不同環(huán)境,路面,不同的汽車發(fā)出的聲音又都不完全一樣,有大量的工作和太多不可控的情況。

將來如果想在更多場景,比如酒吧,體育場,就會更復(fù)雜,除了環(huán)境音,還有更多人說話,比如“雞尾酒效應(yīng)”,所以未來的語音之路,會面臨更多挑戰(zhàn)。

語音的理解就涉及到另外一個AI技術(shù)了“自然語言處理”,目的是與機器溝通時候,它可以更好的理解你的意思,并給出相對的判斷或反饋,避免像現(xiàn)在的聊天機器人出現(xiàn)的所答非所問,上句不接下句的情況,而有關(guān)自然語言處理,是一個更大的課題,也是AI目前的主要瓶頸之一,會再下一個分享中具體進(jìn)行討論。

以上就是我有關(guān)AI語音的分享,是AI PM認(rèn)知系列的第三篇,如果任何的疑問或建議,歡迎隨時溝通探討。

相關(guān)閱讀:

第一篇:從0開始搭建產(chǎn)品經(jīng)理的AI認(rèn)知體系

第二篇:產(chǎn)品經(jīng)理的AI知識框架:計算機視覺

 

作者:蘭楓,微信公號:藍(lán)風(fēng)GO @LanFengTalk,前騰訊游戲,新浪微博PM,Elex產(chǎn)品總監(jiān),8年的游戲,社交,O2O等產(chǎn)品相關(guān)經(jīng)驗,連續(xù)創(chuàng)業(yè)者。

本文由 @蘭楓?原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Pixabay,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 你好,閣下真實大名是?公司急招產(chǎn)品經(jīng)理,可否取得聯(lián)系。深聲科技hrm-windy,公司主營人工智能語音識別與合成。工作地點廣州天河區(qū),如有意向煩請發(fā)簡歷至郵箱windy@deepsound.cn.或者添加微信weixinzhanlq.也有勞推薦人才。

    來自廣東 回復(fù)
  2. ASR?

    來自廣東 回復(fù)