AI產品經理需了解的技術知識:語音識別技術(2)

5 評論 9706 瀏覽 84 收藏 8 分鐘

本文章主要介紹了語音識別技術語的算法包括動態時間調整、隱馬爾可夫模型、BP神經網絡,目的是幫助PM了解語音技術方面的知識,有助于語音類相關產品的設計~

語音信號是一種短時平穩信號,即時變的,十分復雜,同時也攜帶了很多有用信息,包括個人信息、語義等。因此特征參數提取的準確率,直接影響語音識別結果的好壞。

信號的預處理就是為了保障特征參數提取準確性的前期工作,這部分的介紹見上一篇文章?:AI產品經理需了解的技術知識:語音識別技術(1)。

語音識別算法

語音識別系統的本質是模式識別系統,而語音識別的過程就是根據模式匹配原則,按照一定的相似度法則,使未知的模型和模型庫中的某一個參考模型獲得最大匹配度的過程。

常見的語音識別算法主要有:模版匹配法,如動態時間規整(DTW);隨機模型法,如隱馬爾可夫模型(HMM);基于人工神經網絡(ANN)的算法。

1. 動態時間規整

在孤立詞識別中,最為簡單有效的方法就是采用DTW算法,這個方法解決了相同詞但發音長短不同時的匹配問題。

首先,孤立詞是什么?

我個人的理解就像是自然語言處理中的分詞,即把一段文字劃分為若干單詞去模板庫匹配。區別在于:一個是文字,一個是語音。

文字是依據句法、語法、語義劃分,而語音則是通過端點檢測算法確定語音的起點和終點(端點檢測算法見上一篇文章)。

其次,得到孤立詞后,會出現一個問題,如A同學“你好”中的“你”字發音拖長,B同學“再見”的“再”字的發音很短。那么該如何匹配到參考褲中的“你好”和“再見”呢?

這個例子就好比下圖(手手工示意圖,大家看看就好):

很顯然,對于說話速度差異的限制,不符合實際語音的發展情況,需要一種更加符合實際情況的語音時間規整方法。DTW就是通過把時間序列進行延伸和錯單,來計算兩個時間序列之間的相似性。

2. 隱馬爾可夫模型(HMM)

隱馬爾可夫模型是一種統計模型,在語音識別、自然語言處理問題廣泛應用。語音信號可看作一個可觀察序列,微觀上它在足夠小時間段上的特性近似于穩定,宏觀上可看作一次從相對穩定的某一特性過渡到另一特性,如:A->B->C->D。

假設產生一個語音時,分別經歷4個狀態,分別是A-?>B->B-C-D-A-D。所有的狀態可以看作是x=狀態,y=時間的矩陣Q[4][6],通過概率算法,計算出在4096(4*4*4*4*4*4)種情況中的最佳路徑ABBCDAD。

3. 人工神經網絡(ANN)

人工神經網絡是計算智能中的重要部分之一,是有大量簡單的基本元件-神經元相互連接,模擬人的大腦神經處理信息的方式,進行信息并行處理和非線性變換的復雜網絡系統。

基于ANN的語音識別系統通常由神經元、訓練算法、網絡結構三大要素構成,具有高速的信息處理能力,并且有著較強的適應和自動調節能力,在訓練過程中能不斷調整自身的參數權值和拓撲結構,這也是AI產品與傳統互聯網產品的的區別。

下面以BP神經網路為例:

(1)什么是BP神經網絡?

人工神經元是對人或者其他生物的神經元細胞的若干基本特性的抽象和模擬,生物神經元主要由細胞體、樹突、軸突組成,樹突和軸突負責傳入和傳出信息,興奮性的沖動沿著樹突抵達細胞體,在細胞膜上累積形成興奮性電位。

相反,抑制性沖動到達細胞膜則形成抑制性電位,兩個電位進行累加,若代數和超過閾值,則神經元產生沖動。

模仿生物神經元產生沖動的過程,可以建立一個人工神經元數學模型,包括輸入向量、輸出值、激發函數、閾值、權值(神經元與其他神經元的連接強度)。神經元則是一個計算和儲存單元,將計算結果暫存并傳遞給下一個神經元。

(2)BP神經網絡是如何學習的?

BP神經網絡的學習過程由兩部分組成,分別是正向傳播和反向傳播。

  • 正向傳播時,輸入信息從輸入層經處理后傳向輸出層,每一層神經元只對下一層的神經元的狀態有影響。如果在輸出層得不到期望的輸出,則進入反向傳播。
  • 反向傳播時,誤差信號從輸入層向輸入層傳播并沿途調整各層間的權值。經過不斷的迭代,最后將誤差盡可能降低。

如圖所示:

人工神經網絡通常是針對靜態模式設計的,語音信號是一個時變信號,而且它的時變特性也是語音理解的一個重要特征——由于發音快慢節奏不一樣,發音時音節長短不會完全相同。

而大多數神經網絡輸入結構是固定的,采用BP算法,識別率并不是很高,通常需要將人工神經額網絡做一些必要的修正。

 

本文由 @豬不會飛 原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 我們公司也要做一個新的AI產品,可以加您請教一下嘛

    回復
  2. app產品想轉ai,可以請教您么?

    回復
  3. 我們公司最近想做個ai產品??梢哉埥棠銌幔?/p>

    回復
    1. 可以互相學習哈~

      回復