黄色高清无码免费看,国内综合精品午夜久久资源,狠狠做深爱婷婷久久综合一区

搜索

APP

起點課堂會員權益

職業(yè)體系課特權

線下行業(yè)大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

AI產(chǎn)品經(jīng)理必修——揭開算法的面紗（TF-IDF）

CARRIE

2020-05-21

2 評論 3069 瀏覽 35 收藏

8 分鐘

自從個人入門AI產(chǎn)品經(jīng)理以來，在網(wǎng)絡上搜索了大量的學習資料，卻始終知其云不知其所以云，算法就一定是晦澀難懂的嗎？

我們都知道，人工智能產(chǎn)品由數(shù)據(jù)、算力、算法三部分組成。作為一名傳統(tǒng)行業(yè)的產(chǎn)品經(jīng)理，數(shù)據(jù)和算力好歹看詞匯能夠知其一，唯獨這個高高在上的算法讓人傷透了腦筋。自從個人入門AI產(chǎn)品經(jīng)理以來，在網(wǎng)絡上搜索了大量的學習資料，卻始終知其云不知其所以云，算法就一定是晦澀難懂的嗎？

我想說，NO！讓我們一起來揭開算法神秘的面紗。

什么是算法？

算法就是指解題方案的準確而完整的描述，是一系列解決問題的清晰指令。算法代表著用系統(tǒng)的方法描述解決問題的策略機制。也就是說，能夠對一定規(guī)范的輸入，在有限時間內獲得所要求的輸出。

簡單理解，算法和紅燒鯽魚的處理流程很類似，如下圖：

計算機算法，是用計算機解決問題的方法、步驟。解決不同的問題，需要不同的算法。

具體理解什么是算法，一個非常典型的例子，排序就是一個很經(jīng)典的算法，雜亂無章的數(shù)字堆在一起，我們要一從大到小給它排列出來。然后，我們會規(guī)定一個過程，讓這串數(shù)據(jù)進去，然后整齊從大到小的出來，這就是一個算法。

我們可以如何做呢？

有無數(shù)種方法，最簡單的讓每個數(shù)據(jù)從左到右與旁邊數(shù)據(jù)比較，每次遇到比自己大的，就右移一格，遇到不如自己的，就不動。這樣下來，然后那個小的繼續(xù)比較，這樣最小的那個就沉到最后，這樣再對剩下的數(shù)處理，往復循環(huán)，就可以從小到大的出來。

當然我們可以發(fā)明無數(shù)過程實現(xiàn)這個東西，比如插入法，堆排序等。但是萬變不離其綜的是，一個可以自動實現(xiàn)的過程，每一步按照一定規(guī)則行進，得到一個我們想要的結果。我們可以看到算法是把人的邏輯過程給自動化了。

介紹一種信息檢索中最常用的算法——TF-IDF

在信息檢索中，TF-IDF（詞頻-逆文檔頻率）是一種統(tǒng)計方法，用以評估一個單詞在一個文檔集合或語料庫中的重要程度。經(jīng)常被用作信息檢索、文本挖掘以及用戶模型的權重因素。tf-idf的值會隨著單詞在文檔中出現(xiàn)的次數(shù)的增加而增大，也會隨著單詞在語料庫中出現(xiàn)的次數(shù)的增多而減小。TF-IDF是如今最流行的詞頻加權方案之一。

TF-IDF的各種改進版本，經(jīng)常被搜索引擎用作在給定用戶查詢時，對文檔的相關性進行評分和排序的主要工具。TF-IDF可以成功地用于各種主題字段的停用詞過濾，包括文本摘要和分類。

典型應用場景：如何針對某個查詢，找到最相關的網(wǎng)頁？

（1）什么是TF？

需要根據(jù)網(wǎng)頁的長度，對關鍵詞的次數(shù)進行歸一化，也就是用關鍵詞的次數(shù)除以網(wǎng)頁的總字數(shù)。我們把這個商稱為“關鍵詞的頻率”，或者“單文本詞頻”（TF：Term Frequency）。

短語“原子能的應用”可以分成三個關鍵詞：原子能，的，應用。

例如，某個網(wǎng)頁上一共有1000個詞，其中“原子能”、“的”和“應用”分別出現(xiàn)了2次、35次和5次，那么它們的詞頻就分別是0.002、0.035 和0.005。將這三個數(shù)相加，其和0.042就是相應網(wǎng)頁和查詢“原子能的應用”的“單文本詞頻”。

（2）什么是IDF？

假定一個關鍵詞w在D_W個網(wǎng)頁中出現(xiàn)過，那么D_W越大，w的權重越小，反之亦然。在信息檢索中，這個權重稱為“逆文本頻率指數(shù)”（IDF：Inverse Document Frequency）。

這個概率解釋得更通俗一點：

一個詞預測主題的能力越強，權重越大，反之，權重越小。
停止詞的權重為零。

比如，假定中文網(wǎng)頁數(shù)是D=10億。停止詞“的”在所有網(wǎng)頁中都出現(xiàn)，即D_W=10億，那么它的IDF=log（10億/10億）=log（1）=0 ；假如“原子能”在200萬個網(wǎng)頁中出現(xiàn)，即D_W=200萬，那么它的IDF=log（200萬/10億）=log（500）=8.96 ；假如通用詞“應用”在5億個網(wǎng)頁中出現(xiàn)，即D_W=5億，那么它的IDF=log（5億/10億）=log（2）=1 . 0.01792。

（3）什么是TF-IDF？

上述相關性的計算公式就由詞頻的簡單求和變成了加權求和，即：TF1·IDF1 + TF2·IDF2 + …… + TF_n·IDF_n

從以上計算公式便可以看出，某一特定文件內的高詞語頻率，以及該詞語在整個文件集合中的低文件頻率，可以產(chǎn)生出高權重的TF-IDF。因此，TF-IDF傾向于過濾掉常見的詞語，保留重要的詞語。

在上面的例子中，該網(wǎng)頁和“原子能的應用”的相關性為0.0161，其中“原子能”貢獻了0.0126，而“應用”只貢獻了0.0035.這個比例和我們的直覺就比較一致了。

通過大量網(wǎng)頁的計算，我們就可以把相關性最高的網(wǎng)頁作為檢索結果呈現(xiàn)給用戶，這就是最直接的評分和排序的應用了。

怎么樣，是不是很簡單？是不是很神奇？