AI產品經理,如何從零開始打造專業領域的停用詞庫

0 評論 8659 瀏覽 35 收藏 10 分鐘

在SEO中,為節省存儲空間和提高搜索效率,搜索引擎在索引頁面或處理搜索請求時會自動忽略某些字或詞,這些字或詞即被稱為停用詞。那么對于AI產品經理來說,要如何從零開始打造專業領域的停用詞庫?

人工智能領域有三大基礎:數據、計算力和算法,只有有了數據,才會有數據智能,有了數據才能描繪用戶精準畫像,從而進行豐富的個性化推薦、精準營銷。計算力現在各家體力相當,沒有多大差別,而好的算法卻能夠讓你的AI產品更加智能。

在智能客服、垂直行業的AI助手:法律、金融、體育、醫療健康、智能語音助手領域,如何從零打造自己的停用詞庫是一個產品經理必備技能?

什么是停用詞

停用詞(Stop Words) ,詞典譯為“電腦檢索中的虛字、非檢索用字”。在SEO中,為節省存儲空間和提高搜索效率,搜索引擎在索引頁面或處理搜索請求時會自動忽略某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。

停用詞一定程度上相當于過濾詞(Filter Words),不過過濾詞的范圍更大一些,包含黃色、政治等敏感信息的關鍵詞都會被視做過濾詞加以處理,停用詞本身則沒有這個限制。通常意義上,停用詞(Stop Words)大致可分為如下兩類:

(1)使用十分廣泛,甚至是過于頻繁的一些單詞。比如英文的“i”、“is”、“what”,中文的“我”、“就”之類詞幾乎在每個文檔上均會出現,查詢這樣的詞搜索引擎就無法保證能夠給出真正相關的搜索結果,難于縮小搜索范圍提高搜索結果的準確性,同時還會降低搜索的效率。

因此,在真正的工作中,Google和百度等搜索引擎會忽略掉特定的常用詞,在搜索的時候,如果我們使用了太多的停用詞,也同樣有可能無法得到非常精確的結果,甚至是可能大量毫不相關的搜索結果。

(2)文本中出現頻率很高,但實際意義又不大的詞。這一類主要包括了語氣助詞、副詞、介詞、連詞等,通常自身并無明確意義,只有將其放入一個完整的句子中才有一定作用的詞語。如常見的“的”、“在”、“和”、“接著”之類,比如:“AI產品經理總舵是AI產品經理的匯集地”這句話中的“是”、“的”就是兩個停用詞。

為什么要建停用詞庫

文本中如果大量使用停用詞容易對聊天對話中的有效信息造成噪音干擾,所以QA搜索引擎在運算之前都要對所索引的信息進行消除噪音的處理。了解了停用詞,在對話語料內容中適當地減少停用詞出現的頻率,可以有效地提高關鍵詞密度,使得自然語言理解過程中的意圖識別和語義匹配更加準確。

所以搭建專業領域的停用詞庫,對處理專業語料庫及用戶問題的意圖識別及語義匹配的準確性會有很大提高。

如何搭建專業停用詞庫

1. 匯總通用停用詞庫

  • 標點符號:,。、?“”等
  • 語氣詞:呵呵 嗚嗚 哈 呸等
  • 指代詞:我 你 各位等
  • 連接詞:即使 即便 卻 或等
  • 總結詞:總的來說 再者說 何樂不為等
  • 英文詞:yourself?yes?who等

現在網上有一些通用停用詞庫,例如:百度停用詞列表、四川大學機器智能實驗室停用詞庫、哈工大停用詞表等,整理去重后有2428條。但是每個領域有專業語言特色,特別是金融領域醫藥領域和法律領域,如果能夠加上專業停用詞做補充,那樣識別和匹配結果效果會更好。

2. 篩選行業專有停用詞

以保險行業為例,首先通過網絡搜集保險行業問答QA語料,如下圖所示:

將QA分別做分詞處理,然后統計詞頻按數量排序,如下圖所示:

將該數據和通用停用詞做去重后,人工篩選行業專有停用詞。將篩選完成的專業專有停用詞和通用停用詞合并,就構成了保險行業的專有停用詞庫了。

AI產品經理的極致理論

AI產品已經進入精細化設計階段,因為對話型機器人產品特性原因,輸入輸出的極度簡單,也就造成了處理過程的極度復雜。一個對話型機器人系統包含了近二十項技術模塊,每個模塊都會影響最終輸出的結果,只有把顆粒度分的足夠細小,在每一個顆粒度上做到“好一點”,才能使得最終結有明顯提升。

小米產品里有一個極致思維,估計大家都聽過木桶理論,說是一個木桶,能裝多少水,取決于拼湊這個木桶所有的木板最短的那塊。然而在AI產品已經普及(例如智能音箱),避免出現短板,已經不是最大的難題了。

難題是什么呢?

如何提高每一塊板的高度,這時候就需要用到極致思維。就是說怎么在每一塊板子上下功夫,把每一塊板子都做到極致。

舉個例子:IPod剛出來的時候和其他MP3最大的區別是什么呢?是在機器里面加了一個小硬盤,能存上千首歌。連續播放幾天集不重樣,就因為這一點做到了極致,迅速占領了音樂播放器市場。小米產品能夠迅速占領市場,是因為他優化了整個供應鏈系統,才有了物美價廉的產品。

AI產品經理要有數據信仰

AI產品要堅信,未來的技術及產品的底層智能是數據智能,數據是一切運算及邏輯的本質基礎,具備數據信仰才能做好AI產品。數據是基礎,算法是路徑,具備了足夠干凈的數據和合適的算法,才會有更準確的結果。

這里說的算法不僅僅指的工程師寫出來的算法,那只是狹義的算法,我所說的是廣義的算法,既包括產品經理的做事的前后順序及做事方法,一切選擇都會對結果造成影響,一切影響都會左右最終結果,這里不做價值判斷。

AI產品經理在工作中要有數據信仰,多做數據判斷,少做主觀判斷,這樣最終結果才不會和預期有太大偏差。

雷軍曾經說過,要想知道產品的迭代方向,不是產品經理拍腦門想出來的,也不是通過客服反映出來的,客服反映的只是愿意表達的那部分用戶的需求,而不是全部用戶的需求,就像是現在的一些論壇,看帖的用戶數是發帖用戶數的十倍以上,所有帖子中熱帖數量只占到所有帖子數量的1%。

也就是說論壇其實是1000個人在聽1個人講話,甚至更低,而這一個人根本不能代表1000個人的需求。

數據信仰就是要去看數據的本質,透過數據本質才能找到更好的算法。中國漢字有4萬個,常用的只有3500個,常用對話句式有10W條,但是抽離出來的停用詞也就不到2500個。

 

作者:老張,宜信集團保險事業部智能保險產品負責人,運營軍師聯盟創始人之一,《運營實戰手冊》作者之一。

本文由 @老張 原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!