全球專利數據要怎么玩才有趣?之 突發熱詞(四)
掌握突發熱詞的計算方法,可以幫我們從全球專利中捕捉企業最新研究熱點、了解某位專家近期研究熱點以及掌握特定區域近期研究熱點
一、說職場故事
在實際產業研究中,有這樣的研究需求:
- 捕捉企業的最新研究熱點
- 了解某位專家的近期研究熱點
- 掌握特定區域近期研究熱點
本文將探討如何利用全球專利數據挖掘技術,揭示近期的研究熱點。
二、熱詞的計算方法
在深入挖掘之前,我們首先需要了解熱詞的計算方法。熱詞指的是在特定時間內,出現頻率低但增長迅速且具有持久性的詞匯。
計算熱詞的方法主要包括:
- 貝葉斯平均法
- 牛頓冷卻定律
1、貝葉斯評價法
v: 某一個詞出現的總頻詞
m : 所有的詞出現的頻次總和/詞的數量
R:某個詞當前出現的次數/該詞出現的所有次數
C:∑ R /詞的數量,即所有詞的平均基礎得分
WR越大,說明熱度越大
如下計算方式:
2、牛頓冷卻定律
為了防止除數為0,可以將公式改為:
冷卻系數越大說明熱度越大。
三、說應用場景
根據不同的研究需求,我們可以選擇相應的專利數據集,并通過分詞技術(如jieba分詞、LAC分析或大型語言模型)進行處理。然后,根據貝葉斯平均法或牛頓冷卻定律計算候選詞的熱度,并按降序排列篩選出熱詞。
在實際中有以下應用場景:
- 捕捉企業的最新研究熱點:獲取企業專利數據集,計算最近時間內企業出現的熱詞及熱度。
- 了解某位專家的近期研究熱點:根據專利發明人和專利申請人獲取某個專家在最近時間內出現額熱詞及熱度。
- 掌握特定技術的近期研究熱點:根據IPC獲取專利數據集,計算某個技術最近時間內出現的熱詞及熱度。
- 揭示特定區域的近期研究熱點:獲取區域內專利數據集,計算區域最近時間內出現的熱詞和熱度。
四、寫在后面的話
本文介紹了利用貝葉斯平均法和牛頓冷卻定律計算熱詞的方法,在實際應用過程中注意使用的靈活性:
- 計算方式的靈活性:在實際計算熱詞可以將貝葉斯平均法、牛頓冷卻定律結合使用,綜合熱度= a * WR + b *a(W),其中a,b可以根據實際效果不斷調參。
- 使用對象的靈活性:熱詞挖掘方法不僅限于全球專利數據,也適用于其他時間序列的文本文件,如論文、期刊和項目數據。
本文由 @王海濤 原創發布于人人都是產品經理。未經作者許可,禁止轉載
題圖來自Unsplash,基于CC0協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務
評論
- 目前還沒評論,等你發揮!