AI產品經理需了解的技術知識:自然語言理解技術NLU
本文章主要介紹了NLU技術的算法包括詞法分析、句法分析、語義分析,有助于PM了解技術實現邊界,產品快捷高效的落地~
自然語言理解技術(NLU)是人機對話產品中的重要一環,是指機器能夠執行人類所期望的某些語言功能,換句話說就是人與機器交流的橋梁。
語言理解主要包括以下方面內容:
- 能夠理解句子的正確次序規則和概念,又能理解不含規則的句子;
- 知道詞的確切含義、形式、詞類及構詞法;
- 了解詞的語義分類、詞的多義性、詞的歧義性;
- 指定和不定特性及所有特性;
- 問題領域的結構知識和實踐概念;
- 語言的語氣信息和韻律表現;
- 有關語言表達形式的文字知識;
- 論域的背景知識。
語言理解通常分為三個層次:詞法分析、句法分析、語義分析。
詞法分析
詞法分析是自然語言處理的技術基礎,也是自然語言理解過程的第一層,因此詞法分析的性能直接影響到后面句法和語義分析的成果。主要包括自動分詞、詞性標注、中文命名實體標注三方面內容。
1. 自動分詞
現有分詞的算法分為三大類:基于詞典的分詞方法、基于統計的分詞方法、基于理解的分詞方法。
當前主流的方法還是基于詞典進行分詞,主要包括正向最大匹配、逆向最大匹配、雙向最大匹配。原理是按照既定的規則順序,將目標字符串依次與詞典匹配,匹配成功就取出該詞,直到整個字符串全部匹配,如在詞典中匹配到,就取出單字。
case:字串“召開大學生運動會”,分別通過三種分詞算法進行切分:
(1)正向最大匹配
第一輪取詞
第1次:“召開大學生運動會”掃描詞典,無匹配
第2次:“召開大學生運動”掃描詞典,無匹配
第3次:“召開大學生運”掃描詞典,無匹配
第4次:“召開大學生”掃描詞典,無匹配
….
第7次:“召開”掃描詞典,匹配
第二輪取詞
第1次:“大學生運動會”掃描詞典,無匹配
第2次:“大學生運動”掃描詞典,無匹配
…..
第4次:“大學生”掃描詞典,無匹配
第5次:“大學”掃描詞典,匹配
分詞結果:召開/大學/生/運動/會
(2)逆向最大匹配
第一輪取詞:
第1次:“召開大學生運動會”掃描詞典,無匹配
第2次:“開大學生運動會”掃描詞典,無匹配
….
第8次:“會”
第二輪取詞:
第1次:“召開大學生運動”掃描詞典,無匹配
第2次:“開大學生運動”掃描詞典,無匹配
…
第6次:“運動”掃描詞典,匹配
分詞結果:召開/大/學生/運動/會
(3)雙向最大匹配
將正向最大匹配和逆向最大匹配算法得到的結果進行比較,從而確定正確的分詞方法。
選擇的依據如下:
- 大顆粒度詞越多越好;
- 非詞典詞越少越好;
- 單字詞越少越好。
2. 詞性標注
詞性標注是對分詞結果中的每個單詞標注一個正確的詞性,例如:每個詞是名詞、動詞還是形容詞等。漢語中,詞性標注筆記哦啊簡單,因為大多詞語只有一個詞性,或者出現頻次最高的詞性遠遠高于第二位的詞性。
因此在詞性標注時,一般先針對已存在的詞庫進行統計學處理,建立詞性標注模型,進而通過概率判斷每個詞的詞性。
3. 中文命名實體
命名實體就是獎文本中的元素分成預先定義的類,例如:人名、地名、時間、百分比等。它的技術方法主要分為基于規則和詞典、基于統計、二者結合的方法。
基于規則和詞典的方法,大多是由語言學專家構造規則模板然后進行匹配。這個時候,詞典和知識庫的創建會直接影響命名實體的準確率。
舉個簡單規則的例子:人名=【姓氏】+【名字】,那么分別建立“姓氏”、“名字”庫,如字串命中,則識別出包含人名實體。
基于統計的方法,主要是通過對訓練語料所包含的語言信息進行統計和分析,從許年語料中挖掘出特征。因此這種方法對語料庫的依賴比較大,而用來建設和評估命名實體識別系統的大規模通用語料庫又比較少。
句法分析
句法分析的目標是自動推導出句子的句法結構,實現這個目標首先要確定語法體系,不同的語法體系會產生不同的句法結構。常見語法體系有短語結構語法、依存關系語法。
依存關系語法
同樣分為基于規則和基于統計的兩種方法,基本自然語言的技術中,很多都是基于“詞典/規則”+“統計”的方法。
(1)基于規則的方法
- 優點在于:可以最大限度的接近自然語言的句法習慣、表達方式靈活多樣,可以最大限度的表達研究人員的思想;
- 缺點在于:規則刻畫的知識粒度難以確定,無法確保規則的一致性,獲取規則同樣是一個繁瑣的過程。
(2)基于統計的方法
目前是句法分析的主流技術,確定語法體系后,需要按照語法體系人工標注句子的語法結構,將其作為訓練的語料。因此語料庫的建設是非常關鍵的。
語義分析
語義分析就是指分析話語中所包含的含義,根本目的是理解自然語言。分為詞匯級語義分析、句子級語義分析、段落/篇章級語義分析,即分別理解詞語、句子、段落的意義。
這部分在我的工作中相對前兩部分應用的較少一些,因此沒有過多的進行學習了解。
理解NLU技術的基本原理和算法可以在PM優化產品時起到很大的幫助,使我在產品設計時,可以提前了解技術邊界,在和研發溝通時,效率也更高。
本文由 @豬不會飛 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
大神,可否加個微信。最近在鉆研NLP,CV方面的知識;向您學習一下;