關于文本輿情數據的6個分析方法

3 評論 93699 瀏覽 183 收藏 17 分鐘

用戶輿情信息包括文本、音頻、圖片等各種各樣的形式,在實際工作中,我們應用較多的還是文本類的用戶輿情。綜合考慮數量、豐富性、易獲得性、信息匹配度等方面因素,文本之于音視頻、圖片而言的信息價值、性價比都是相對比較高的。

一、文本用戶輿情的價值

當我們從電商、論壇、應用市場、新聞媒介等渠道平臺取到大量和調研目標相匹配的用戶輿情文本后,具體應該如何應用?其中可能包含哪些對用研有價值的內容?可以通過什么方法提煉分析?能實現什么預期效果?根據以往項目經驗,文本輿情分析的價值和具體應用如下圖所示:

這些信息既描述說明了“是什么”的問題,也可以表明屬性、關系、喜好,說明是“怎么樣”的,還能在一定程度上分析表象背后的原因,分析“為什么”,可以挖掘出包含其中的焦點、趨勢、關聯,幫助我們了解產品的市場反饋和用戶需求,為方向聚焦、策略引導、價值判斷提供依據。

二、文本輿情數據的分析方法

分析文本輿情數據,主要用到的是文本分析的方法。因為文本數據是非結構化的,拿到文本輿情之后的一個關鍵問題是要把數據轉化為能被計算機理解和處理的結構化數據,然后才可能進一步對用戶輿情數據進行完整系統的處理分析,從無關冗余的數據中提煉出有意義的部分。

過程中需要用到的工具有:

  1. 數據爬蟲工具:可以根據我們的需要免費從網站上爬取數據(在設有反爬蟲機制的渠道,獲取輿情數據的難度會增加)。
  2. 文本分析工具:通過分詞處理、詞頻分析、語義網絡分析等,挖掘潛藏其中的關鍵信息,把握深層的關系和結構。根據筆者的實際使用經驗,文本分析工具ROST的功能完善,在文本數據量不太大的情況下基本能滿足中文輿情分析的需要。如果對于文本分析結果有更高的要求,可使用Python、R等編程語言進行處理。
  3. 文本數據可視化工具:使用工具將文本分析結果以可視化的形式(如詞云圖、語義網絡圖)呈現出來,便于從中直觀的發現價值點。

1、數據爬蟲

明確輿情分析的目的和需求后,篩選數據來源渠道獲取用戶輿情數據。

網絡上例如論壇發帖、微博評論、淘寶京東的買家評價等文本輿情信息都是可以用爬蟲工具直接爬取的。以八爪魚為例,可以很方便的從網站上把我們需要的內容按二維結構表的形式(比如excel)免費下載保存。如下圖所示,八爪魚就從電商網站商品詳情頁上爬取到了信息。同理,爬取用戶輿情數據也可以采用相同的方法實現。

(圖片來源:八爪魚官網免費教程視頻截圖,筆者標注)

2、文本清洗和預處理

用戶在網絡上的書寫表達非常隨意多樣,漢字中夾雜數字、字母、符號;語句段落的表達間斷不完整,還會出現大量重復的短語短句,比如有的人會評論“棒棒棒棒”“太太太太差了“。文本清洗首要是把這些噪音數據清洗掉。ROST的“文本處理”功能可以用來進行文本清洗。

我們還應根據需要對數據進行重新編碼。例如在網易云課堂的某次輿情分析中,用戶大量提及了中國大學MOOC,但表達方式有多種(如中M、中國大學慕課、慕課)。為了便于分析,統一編碼是非常必要的。

3、分詞

分詞就是把一段中文文本切割成一個個單獨的詞。中文分詞的難點在于書寫中文時字詞之間并沒有明顯的間隔或劃分,不像英文那樣可以根據自然書寫的間隔實現基本的分詞(如“we are family”可以直接拆分出“we” “are” “family”)。

漢字書寫表達時沒有明顯的分隔符,再加上漢語博(那)大(么)精(復)深(雜),大大增加了中文分詞的難度。這里舉一個經典的例子:短語“南京市長江大橋”中由于有些詞語存在歧義,計算機的分詞結果可能是“南京市/長江/大橋”,也可能是“南京/市長/江大橋”。我們顯然知道第一種情況是正確的,但如果算法還不夠完善計算機就可能出錯,畢竟兩種結果基于漢語構詞和語法規則都是說得通的??梢娋唧w在實際進行分詞的時候,結果可能存在一些不合理的情況。基于算法和中文詞庫建成分詞系統后,還需要通過不斷的訓練來提高分詞的效果,如果不能考慮到各種復雜的漢語語法情況,算法中存在的缺陷很容易影響分詞的準確性。

4、詞頻和關鍵詞

詞頻就是某個詞在文本中出現的頻次。簡單來說,如果一個詞在文本中出現的頻次越多,這個詞在文本中就越重要,就越有可能是該文本的關鍵詞。這個邏輯本身沒有問題,但其中有一些特殊情況需要留意。

最關鍵的一點就是在關于自然語言的語料庫里,一個單詞出現的頻率與它在頻率表里的排名成反比。根據經典“齊夫定律”的定義,假設我對文本進行分詞處理并統計了詞頻,發現詞頻排名TOP3的三個詞分別為“的”、“是”、“它”,那么“的”出現頻率應該約為“是”的2倍,約為“它”的3倍。結果就可能會是詞頻排名靠前的高頻詞占去了整個語料的大半,其余多數詞的的出現頻率卻很少。

所以不能完全直接的基于詞頻來判斷輿情文本中哪些是重要的關鍵詞,詞頻最高的其實是中文中的常用字,而非對當前文本最有代表性的關鍵詞。如下圖的詞頻曲線所示,只有出現在曲線中間區域的詞才是真正在當前文本中出現頻率高,并且在其他文本中很少出現的,這些詞語就是當前文本的關鍵詞,對當前文本具有重要性和代表性。前端的高頻詞和靠后的長尾低頻詞都可排除在考慮范圍之外。

(圖片來源:Google,筆者標注)

基于這個原理,在詞頻統計之前需要過濾掉文本中的停用詞(stop word)。出現在詞頻曲線頭部的那些高頻詞,就多數是停用詞。停用詞還包括實際意義不大但使用頻率高的功能性詞匯,比如“啊”、“的”、“在”、“而且”這樣的語氣詞、介詞、連詞等等。過濾停用詞還是為了減少信息冗余,提高分析的效率和準確性。過濾停用詞需要的停用詞表,詞庫都可以在網上下載。實際應用的過程中我們還可以在停用詞表中添加或刪減特定的詞匯,使之更加完善或具有針對性,符合當前研究的實際需要。

包括分詞、過濾停用詞、統計高頻詞在內的這些操作,都可以通過ROST的分詞工具完成。我們可以在ROST中導入經過完善或自定義的詞庫詞表,替換掉ROST自帶的默認詞庫。

這些被提取出的關鍵詞濃縮了用戶輿情中的精華信息,能反映出用戶的關注點、情緒和認知,產品的潛在競爭力等信息。例如,在網易100分的智能筆用戶需求調研項目中,我們針對2C市場的智能筆消費者進行了輿情分析。首先我們通過ROST的分詞工具獲取了分詞文檔,關鍵詞及其詞頻列表。然后我們將分詞后的文檔導入在線詞云編輯器Tagxedo,就能直接生成詞云圖。

根據分詞結果和詞云圖,我們基本能做出如下判定:

  • 用戶的整體使用體驗:方便
  • 產品的核心功能點:同步,識別,效率
  • 產品的主要使用場景:筆記,繪畫
  • 用戶的消費體驗:價格,概念創意,外觀
  • 可推測潛在用戶的身份:商務人士?老師?學生?藝術設計從業者?

但如果想要進一步知道具體內容之間的關系,就還得要繼續挖掘分析這些關鍵詞之間的結構關系。

5、語義網絡分析

語義網絡分析是指篩選統計出高頻詞以后,以高頻詞兩兩之間的共現關系為基礎,將詞與詞之間的關系數值化處理,再以圖形化的方式揭示詞與詞之間的結構關系?;谶@樣一個語義網絡結構圖,可以直觀的對高頻詞的層級關系、親疏程度進行分析。

其基本原理是統計出文本中詞匯、短語兩兩之間共同出現的次數,再經聚類分析,梳理出這些詞之間關系的緊密程度。一個詞對出現的次數越多,就表示這兩個詞之間的關系越密切。每個詞都有可能和多個詞構成詞對,也會有些詞兩兩之間不會存在任何共線關系。關鍵詞共現矩陣就是統計出共現單詞對出現的頻率,將結果構建而成的二維共現詞矩陣表。

再經聚類分析處理,將關鍵詞共現矩陣轉化為語義關系網絡,揭示出各節點之間的層級關系、遠近關系。需要特別強調的是,語義網絡分析只是根據節點的分布情況來揭示他們之間關系的緊密程度,并不能表示節點之間存在因果關聯。基于共現矩陣的關鍵詞語義網絡分析,同樣也可以通過ROST中的語義分析工具來完成,生成語義網絡結構圖供我們進行分析。

例如,我們曾針對網易云課堂的用戶支付問題進行了輿情分析。所有輿情數據是以若干支付相關的詞匯為關鍵詞,進行抓取的。通過ROST的分析生成了如下圖所示的語義網絡結構圖。

在這個語義網絡圖中,次級節點基本以核心節點為中心向周圍輻射分布,但其中也存在局部的簇群關系,揭示出主要問題之間的潛在關聯:

  • 優惠券:優惠券使用問題和重新支付場景關系密切,可挖掘分析導致了重新支付場景下的優惠券使用問題的具體原因。
  • 移動端:移動端支付問題突出的表現在IOS端
  • 支付渠道:微信和支付寶的支付情況存在差異。微信和訂單的創建搜索關系密切,支付寶和購買流程關系密切。

6、情感分析

對用戶輿情進行情感分析,主要是分析具有情感成分的詞匯的情感極性(即情感的正性、中性、負性)和情感強烈程度,然后計算出每個語句的總值,判定其情感類別。還可以綜合全文本中所有語句,判定總輿情數據樣本的整體態度和情感傾向。

ROST同樣也可以完成對文本情感的分析。但目前不少文獻、研究認為中文情感分析的準確性不夠高,因為中文除了有直接表達各種極性情感的形容詞(高興、生氣),還有用于修飾情感程度的副詞(很好,非常、太),有時候其中還會夾雜表示否定的詞(非常不好用,很不方便)。分詞處理文本時,要對形容詞、副詞、否定詞都有正確的分詞;分詞后,要基于情感詞庫、否定詞庫、程度副詞庫對這些情感詞匯進行正確的賦值;最后進行情感值加權計算,才能最終分析出總的情感類別。

另外需要注意的是,我們的輿情數據可能來自電商、應用市場、社區論壇等,這些來源渠道本身就對整體數據的情感傾向有篩選,具有某些屬性的情感表達直接就被該渠道過濾掉了。

三、總結

總的來看,用戶輿情具備有優勢特點:

  • 來源渠道豐富:不限于社交網絡、新聞資訊媒體、電商平臺、應用市場等。
  • 覆蓋面廣,信息量大:覆蓋到不同人口學特征的人群,覆蓋到目標用戶、競品用戶等不同人群。
  • 真實客觀:整體而言是用戶最直接的表達,能在一定程度上保證數據的真實客觀。
  • 獲取成本低:基本上都能快速、免費的獲取,省時高效。

在用研工作中,用戶輿情分析能讓我們在特定的研究背景下,以更小的代價了解到產品的市場反饋,用戶的態度認知和需求痛點,有效的達到研究目的。

 

作者:曾玫媚,網易產品發展部用鹽一枚。目前對接網易中小學教育產品網易100分的用戶研究工作,正在努力為澆(zhé)灌(mó)祖國的花朵添磚加瓦。

來源:微信公眾號【用鹽有點咸】

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 文皮皮,文本分析高頻詞很好用,http://www.wenpipi.com/

    來自廣東 回復
  2. 有料

    來自北京 回復
  3. 回復