文本挖掘:避孕藥主題情感分析

1 評論 6558 瀏覽 16 收藏 7 分鐘

關(guān)于輿情分析的實(shí)例分析,希望給你帶來一些幫助。

前言

距離上次文本挖掘小文章時(shí)間已經(jīng)過了3個(gè)月了,北京已經(jīng)入冬,有人說北京的冬天很冷,但是吃上火鍋很暖;也有人說北京的冬天霧霾嚴(yán)重,太干。這兩句表達(dá)的是對北京冬天的情感,即有正面也有負(fù)面。

如果在輿情分析而言,我們在做營銷分析,分析產(chǎn)品、活動(dòng)優(yōu)劣,或者希望維護(hù)品牌PR,我們就需要針對消費(fèi)者網(wǎng)絡(luò)發(fā)聲去分析情感,來幫助我們維護(hù)品牌,改善活動(dòng)產(chǎn)品,來達(dá)到監(jiān)測輿情分析效果。換句話說也就是我們今天分享的主題—sentiment

輿情分析思路

筆者5年前做輿情分析時(shí)候一般來說就是人工輿情,并沒有加入高級點(diǎn)的分析工具減少人工投入。隨著R,python等的流行,同時(shí),隨著各種開源包tm,LDA,Rwordseg開發(fā),以及高等概率數(shù)學(xué)的應(yīng)用,例如分詞算法根據(jù)隱性馬爾科夫鏈算法編寫而成(有興趣的同學(xué)自己研究),讓我們之前的工作量大大減少。因此人工輿情轉(zhuǎn)換成人工糾正輿情大勢所趨,即我們使用工具減少讀帖子的時(shí)間,并且讓機(jī)器學(xué)習(xí),人工后期糾錯(cuò)。

一般而言,輿情分析報(bào)告分為以下幾個(gè)步驟:

前兩個(gè)可以作為統(tǒng)計(jì)分析-統(tǒng)計(jì)時(shí)間趨勢音量,音量份額,后兩個(gè)可以作為建模分析-主題分析,情感判別。

這里有個(gè)小插曲:上次分享的是主題分析,筆者最近又重新梳理了下LDA,發(fā)現(xiàn)tm包中文分詞形成詞頻矩陣很不理想,這會(huì)導(dǎo)致LDA無法應(yīng)用,因此,后續(xù)筆者會(huì)自己寫個(gè)腳本將詞頻矩陣實(shí)現(xiàn),這樣會(huì)方便LDA,會(huì)方便聚類分析,以及預(yù)測分析。

言回正傳,情感分析就是表達(dá)發(fā)言人對一個(gè)主題的看法,有好有壞,或者中立。情感分析應(yīng)用分類兩類,第一是給定正負(fù)面詞,算分值,高于或者低于baseline則表示正面、負(fù)面情緒。第二,根據(jù)深度學(xué)習(xí),利用神經(jīng)網(wǎng)絡(luò)來區(qū)分正負(fù)情感。本文先實(shí)現(xiàn)第一類情感分析。

第一類情感分析:正負(fù)面詞典(簡版)

讀入文本,數(shù)據(jù)清理

本次還是以上次文本為輸入項(xiàng),將content_Full 內(nèi)容做文本處理

清理原則:

  • 去除特殊字符,空值等,例如☆移動(dòng)平臺☆iOS☆
  • 去除轉(zhuǎn)發(fā)的內(nèi)容,留原作者觀點(diǎn)。例如 保留紅框內(nèi)的文本,去除后面轉(zhuǎn)發(fā)文本

  • 刪除文本過長的內(nèi)容,內(nèi)容偏向日記和廣告,減少文本噪聲

  • 去除stopwords

比如中文常規(guī)字符,‘的’‘地’‘得’‘我’等

添加詞匯

由于本文是醫(yī)用詞匯,需要添加的詞匯偏重醫(yī)用或者品牌,不讓分詞拆成單個(gè)字符

例如:媽富隆,調(diào)經(jīng)

分詞&詞云圖

文本處理后,根據(jù)詞頻出現(xiàn)頻次,且過濾掉分詞為單個(gè)詞的中文,繪制詞云圖,鼠標(biāo)所過的詞可以顯示文本出現(xiàn)次數(shù),例如避孕藥:767次

載入正負(fù)詞典

正面詞記1;負(fù)面詞為-1,便于之后算分值劃定情感

計(jì)算情感得分

將文本中的分詞按照中英文詞典的正負(fù)面詞打分,計(jì)算分值,若中性詞(不出現(xiàn)字典)則記為0。

分值計(jì)算原理

  • 公式 (自己編的,有疑問請留言一起討論)

情感分值=∑i=1(正面+中性)*(-1)t

i 表示第i句話;t表示出現(xiàn)負(fù)面詞的次數(shù)

  • 公式表示一句話中若出現(xiàn)偶數(shù)負(fù)面詞,表示肯定,例如:我其實(shí)覺得他沒有那么不通情達(dá)理。 兩次否定:不,沒有,t=2

結(jié)果

正面發(fā)聲分類結(jié)果:

負(fù)面發(fā)聲結(jié)果

后續(xù)改進(jìn):

  1. 將詞頻矩陣腳本改寫,重現(xiàn)LDA 或者 聚類
  2. 對文本先人工預(yù)判,將此打分進(jìn)行 confusion matrix,評估分類器
  3. 目測而言負(fù)面分類基本正確,正面分類中包含很多中性發(fā)聲,需要進(jìn)一步剔除研究
  4. 深度學(xué)習(xí)重現(xiàn)下情感分析

相關(guān)閱讀

文本挖掘小探索:避孕藥內(nèi)容主題分析

 

作者:馮大福,微信公眾號:說說數(shù)據(jù)分析那些事兒

本文由 @shangyuan 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!