AI產(chǎn)品經(jīng)理必修——揭開算法的面紗(TF-IDF)
自從個人入門AI產(chǎn)品經(jīng)理以來,在網(wǎng)絡上搜索了大量的學習資料,卻始終知其云不知其所以云,算法就一定是晦澀難懂的嗎?
我們都知道,人工智能產(chǎn)品由數(shù)據(jù)、算力、算法三部分組成。作為一名傳統(tǒng)行業(yè)的產(chǎn)品經(jīng)理,數(shù)據(jù)和算力好歹看詞匯能夠知其一,唯獨這個高高在上的算法讓人傷透了腦筋。自從個人入門AI產(chǎn)品經(jīng)理以來,在網(wǎng)絡上搜索了大量的學習資料,卻始終知其云不知其所以云,算法就一定是晦澀難懂的嗎?
我想說,NO!讓我們一起來揭開算法神秘的面紗。
什么是算法?
算法就是指解題方案的準確而完整的描述,是一系列解決問題的清晰指令。算法代表著用系統(tǒng)的方法描述解決問題的策略機制。也就是說,能夠對一定規(guī)范的輸入,在有限時間內獲得所要求的輸出。
簡單理解,算法和紅燒鯽魚的處理流程很類似,如下圖:
計算機算法,是用計算機解決問題的方法、步驟。解決不同的問題,需要不同的算法。
具體理解什么是算法, 一個非常典型的例子, 排序就是一個很經(jīng)典的算法, 雜亂無章的數(shù)字堆在一起, 我們要一從大到小給它排列出來。然后,我們會規(guī)定一個過程, 讓這串數(shù)據(jù)進去, 然后整齊從大到小的出來,這就是一個算法。
我們可以如何做呢?
有無數(shù)種方法,最簡單的讓每個數(shù)據(jù)從左到右與旁邊數(shù)據(jù)比較,每次遇到比自己大的,就右移一格,遇到不如自己的,就不動。這樣下來,然后那個小的繼續(xù)比較,這樣最小的那個就沉到最后,這樣再對剩下的數(shù)處理,往復循環(huán),就可以從小到大的出來。
當然我們可以發(fā)明無數(shù)過程實現(xiàn)這個東西,比如插入法,堆排序等。但是萬變不離其綜的是,一個可以自動實現(xiàn)的過程,每一步按照一定規(guī)則行進,得到一個我們想要的結果。我們可以看到算法是把人的邏輯過程給自動化了。
介紹一種信息檢索中最常用的算法——TF-IDF
在信息檢索中,TF-IDF(詞頻-逆文檔頻率)是一種統(tǒng)計方法,用以評估一個單詞在一個文檔集合或語料庫中的重要程度。經(jīng)常被用作信息檢索、文本挖掘以及用戶模型的權重因素。tf-idf的值會隨著單詞在文檔中出現(xiàn)的次數(shù)的增加而增大,也會隨著單詞在語料庫中出現(xiàn)的次數(shù)的增多而減小。TF-IDF是如今最流行的詞頻加權方案之一。
TF-IDF的各種改進版本,經(jīng)常被搜索引擎用作在給定用戶查詢時,對文檔的相關性進行評分和排序的主要工具。TF-IDF可以成功地用于各種主題字段的停用詞過濾,包括文本摘要和分類。
典型應用場景:如何針對某個查詢,找到最相關的網(wǎng)頁?
(1)什么是TF?
需要根據(jù)網(wǎng)頁的長度,對關鍵詞的次數(shù)進行歸一化,也就是用關鍵詞的次數(shù)除以網(wǎng)頁的總字數(shù)。我們把這個商稱為“關鍵詞的頻率”,或者“單文本詞頻”(TF:Term Frequency)。
短語“原子能的應用”可以分成三個關鍵詞:原子能,的,應用。
例如,某個網(wǎng)頁上一共有1000個詞,其中“原子能”、“的”和“應用”分別出現(xiàn)了2次、35次和5次,那么它們的詞頻就分別是0.002、0.035 和0.005。將這三個數(shù)相加,其和0.042就是相應網(wǎng)頁和查詢“原子能的應用”的“單文本詞頻”。
(2)什么是IDF?
假定一個關鍵詞w在DW個網(wǎng)頁中出現(xiàn)過,那么DW越大,w的權重越小,反之亦然。在信息檢索中,這個權重稱為“逆文本頻率指數(shù)”(IDF:Inverse Document Frequency)。
這個概率解釋得更通俗一點:
- 一個詞預測主題的能力越強,權重越大,反之,權重越小。
- 停止詞的權重為零。
比如,假定中文網(wǎng)頁數(shù)是D=10億。停止詞“的”在所有網(wǎng)頁中都出現(xiàn),即DW=10億,那么它的IDF=log(10億/10億)=log(1)=0 ; 假如“原子能”在200萬個網(wǎng)頁中出現(xiàn),即DW=200萬,那么它的IDF=log(200萬/10億)=log(500)=8.96 ;假如通用詞“應用”在5億個網(wǎng)頁中出現(xiàn),即DW=5億,那么它的IDF=log(5億/10億)=log(2)=1 . 0.01792。
(3)什么是TF-IDF?
上述相關性的計算公式就由詞頻的簡單求和變成了加權求和,即:TF1·IDF1 + TF2·IDF2 + …… + TFn·IDFn
從以上計算公式便可以看出,某一特定文件內的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率,可以產(chǎn)生出高權重的TF-IDF。因此,TF-IDF傾向于過濾掉常見的詞語,保留重要的詞語。
在上面的例子中,該網(wǎng)頁和“原子能的應用”的相關性為0.0161,其中“原子能”貢獻了0.0126,而“應用”只貢獻了0.0035.這個比例和我們的直覺就比較一致了。
通過大量網(wǎng)頁的計算,我們就可以把相關性最高的網(wǎng)頁作為檢索結果呈現(xiàn)給用戶,這就是最直接的評分和排序的應用了。
怎么樣,是不是很簡單?是不是很神奇?
后續(xù)
如果你們都聽懂了,接下來我們可以再來講講
- 隱含馬爾可夫模型
- 最大熵模型
- 動態(tài)規(guī)劃
- 維特比算法
- 期望最大值算法
- 等等
本文由 @CARRIE 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉載
題圖來自Unsplash,基于CC0協(xié)議
寫得好好 謝謝分享
聽不聽得懂都點個贊吧