亚洲精品中文字幕无码蜜桃,在线观看无码不卡av中文

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

文本挖掘小探索：避孕藥內容主題分析

shangyuan

2017-08-29

1 評論 5353 瀏覽 14 收藏

9 分鐘

文章分享了作者的一個文本挖掘的實例，希望對你能夠有所幫助。

輿情監測一直是眾多品牌關注的地方，尤其品牌想知道在品牌推廣，品牌策略，品牌廣告中出現的問題，從而能進行策略上的改進，但是現在很多人都是讀帖子，筆者在4年前做輿情分析時候就是讀帖子，至今沒有太多改善，關注輿情監測中的主題挖掘部分，主題挖掘可以使數據分析師，減輕工作量，去掉讀帖子等一系列等的復雜工作，大致了解主題規律。

本文是筆者早前發在某網站上的，由于筆者最近太忙，將本文修改下呈現給大家：

本文分析邏輯：

數據處理

1.數據源：

從各大網站論壇，微博等爬蟲關于某避孕藥的內容

關鍵字段名稱包含：

content Author: 發帖作者（第D列）
Content Forward: 轉發的內容（第F列）
Content_Main: 發帖內容（第G列）
Title：發帖內容（第H列）

其他字段和本文不想關，不闡述

2.加載數據包（r語言）和需要在中文分詞中插入的中文詞語：

（1）Rwordseg：（4年前用的分詞包，不知道現在更新與否），分詞包就是讓R語言識別中文，按照單詞來視為一個值

（2）插入單詞：因為Rwordseq中文詞性包含不了其他奇怪詞匯，例如：媽富隆、優思明、短期避孕藥、治療多囊等。插入單詞作為模型的變量值

3.讀入文本分析處理

去掉數字、特殊字符、標準符號

數據探索：大概了解下數據現狀

1.根據變量值（單詞）統計各個單詞出現的次數

2.根據單詞量畫詞云圖

3.重新轉化用于聚類的數據格式

根據以上數據探索的詞頻，詞作為colname，詞頻表示數值，每一行是帖子內容作為id標示

例如：

即每個帖子出現了某詞的詞頻的次數，帖子1中出現避孕藥2次，優思明4次，囊中1次

R語言tm包來作處理

即：分詞之后生成一個列表變量，用列表變量構建語料庫。

由于tm包中的停用詞（）都是英文（可以輸入stopwords()查看），所以大家可以去網上查找中文的停用詞，用removeWords函數去除語料庫中的停用詞：

生成語料庫之后，生成詞項-文檔矩陣（Term Document Matrix，TDM），顧名思義，TDM是一個矩陣，矩陣的列對應語料庫中所有的文檔，矩陣的行對應所有文檔中抽取的詞項，該矩陣中，一個[i,j]位置的元素代表詞項i在文檔j中出現的次數。

4.注意：

默認的加權方式是TF，即詞頻，這里采用Tf-Idf，該方法用于評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度：

在一份給定的文件里，詞頻 (term frequency, TF) 指的是某一個給定的詞語在該文件中出現的次數。這個數字通常會被歸一化，以防止它偏向長的文件。
逆向文件頻率 (inverse document frequency, IDF) 是一個詞語普遍重要性的度量。某一特定詞語的IDF，可以由總文件數目除以包含該詞語之文件的數目，再將得到的商取對數得到。
某一特定文件內的高詞語頻率，以及該詞語在整個文件集合中的低文件頻率，可以產生出高權重的TF-IDF。因此，TF-IDF傾向于保留文檔中較為特別的詞語，過濾常用詞。

同時，需要用removeSparseTerms()函數進行降維