實操干貨:基于文本內(nèi)容的用戶輿情分析

3 評論 16082 瀏覽 95 收藏 17 分鐘

在用研工作中,用戶輿情分析能讓我們在特定的研究背景下,以更小的代價了解到產(chǎn)品的市場反饋,用戶的態(tài)度認知和需求痛點,有效的達到研究目的。

用戶輿情信息包括文本、音頻、圖片等各種各樣的形式,實際工作中我們應(yīng)用較多的還是文本類的用戶輿情。綜合考慮數(shù)量、豐富性、易獲得性、信息匹配度等方面因素,文本之于音視頻、圖片而言的信息價值、性價比都是相對比較高的。

一、文本用戶輿情的價值

當(dāng)我們從電商、論壇、應(yīng)用市場、新聞媒介等渠道平臺取到大量和調(diào)研目標相匹配的用戶輿情文本后,具體應(yīng)該如何應(yīng)用?其中可能包含哪些對用研有價值的內(nèi)容?可以通過什么方法提煉分析?能實現(xiàn)什么預(yù)期效果?根據(jù)以往項目經(jīng)驗,文本輿情分析的價值和具體應(yīng)用如下圖所示:

這些信息既描述說明了“是什么”的問題,也可以表明屬性、關(guān)系、喜好,說明是“怎么樣”的,還能在一定程度上分析表象背后的原因,分析“為什么”,可以挖掘出包含其中的焦點、趨勢、關(guān)聯(lián),幫助我們了解產(chǎn)品的市場反饋和用戶需求,為方向聚焦、策略引導(dǎo)、價值判斷提供依據(jù)。

二、文本輿情數(shù)據(jù)的分析方法

分析文本輿情數(shù)據(jù),主要用到的是文本分析的方法。因為文本數(shù)據(jù)是非結(jié)構(gòu)化的,拿到文本輿情之后的一個關(guān)鍵問題是要把數(shù)據(jù)轉(zhuǎn)化為能被計算機理解和處理的結(jié)構(gòu)化數(shù)據(jù),然后才可能進一步對用戶輿情數(shù)據(jù)進行完整系統(tǒng)的處理分析,從無關(guān)冗余的數(shù)據(jù)中提煉出有意義的部分。

過程中需要用到的工具有:

  1. 數(shù)據(jù)爬蟲工具:可以根據(jù)我們的需要免費從網(wǎng)站上爬取數(shù)據(jù)(在設(shè)有反爬蟲機制的渠道,獲取輿情數(shù)據(jù)的難度會增加)。
  2. 文本分析工具:通過分詞處理、詞頻分析、語義網(wǎng)絡(luò)分析等,挖掘潛藏其中的關(guān)鍵信息,把握深層的關(guān)系和結(jié)構(gòu)。根據(jù)筆者的實際使用經(jīng)驗,文本分析工具ROST的功能完善,在文本數(shù)據(jù)量不太大的情況下基本能滿足中文輿情分析的需要。如果對于文本分析結(jié)果有更高的要求,可使用Python、R等編程語言進行處理。
  3. 文本數(shù)據(jù)可視化工具:使用工具將文本分析結(jié)果以可視化的形式(如詞云圖、語義網(wǎng)絡(luò)圖)呈現(xiàn)出來,便于從中直觀的發(fā)現(xiàn)價值點。

1數(shù)據(jù)爬蟲

明確輿情分析的目的和需求后,篩選數(shù)據(jù)來源渠道獲取用戶輿情數(shù)據(jù)。

網(wǎng)絡(luò)上例如論壇發(fā)帖、微博評論、淘寶京東的買家評價等文本輿情信息都是可以用爬蟲工具直接爬取的。以八爪魚為例,可以很方便的從網(wǎng)站上把我們需要的內(nèi)容按二維結(jié)構(gòu)表的形式(比如excel)免費下載保存。如下圖所示,八爪魚就從電商網(wǎng)站商品詳情頁上爬取到了信息。同理,爬取用戶輿情數(shù)據(jù)也可以采用相同的方法實現(xiàn)。

(圖片來源:八爪魚官網(wǎng)免費教程視頻截圖,筆者標注)

2文本清洗和預(yù)處理

用戶在網(wǎng)絡(luò)上的書寫表達非常隨意多樣,漢字中夾雜數(shù)字、字母、符號;語句段落的表達間斷不完整,還會出現(xiàn)大量重復(fù)的短語短句,比如有的人會評論“棒棒棒棒”“太太太太差了“。文本清洗首要是把這些噪音數(shù)據(jù)清洗掉。ROST的“文本處理”功能可以用來進行文本清洗。

我們還應(yīng)根據(jù)需要對數(shù)據(jù)進行重新編碼。例如在網(wǎng)易云課堂的某次輿情分析中,用戶大量提及了中國大學(xué)MOOC,但表達方式有多種(如中M、中國大學(xué)慕課、慕課)。為了便于分析,統(tǒng)一編碼是非常必要的。

3分詞

分詞就是把一段中文文本切割成一個個單獨的詞。中文分詞的難點在于書寫中文時字詞之間并沒有明顯的間隔或劃分,不像英文那樣可以根據(jù)自然書寫的間隔實現(xiàn)基本的分詞(如“we are family”可以直接拆分出“we” “are” “family”)。

漢字書寫表達時沒有明顯的分隔符,再加上漢語博(那)大(么)精(復(fù))深(雜),大大增加了中文分詞的難度。這里舉一個經(jīng)典的例子:短語“南京市長江大橋”中由于有些詞語存在歧義,計算機的分詞結(jié)果可能是“南京市/長江/大橋”,也可能是“南京/市長/江大橋”。我們顯然知道第一種情況是正確的,但如果算法還不夠完善計算機就可能出錯,畢竟兩種結(jié)果基于漢語構(gòu)詞和語法規(guī)則都是說得通的??梢娋唧w在實際進行分詞的時候,結(jié)果可能存在一些不合理的情況。基于算法和中文詞庫建成分詞系統(tǒng)后,還需要通過不斷的訓(xùn)練來提高分詞的效果,如果不能考慮到各種復(fù)雜的漢語語法情況,算法中存在的缺陷很容易影響分詞的準確性。

4詞頻和關(guān)鍵詞

詞頻就是某個詞在文本中出現(xiàn)的頻次。簡單來說,如果一個詞在文本中出現(xiàn)的頻次越多,這個詞在文本中就越重要,就越有可能是該文本的關(guān)鍵詞。這個邏輯本身沒有問題,但其中有一些特殊情況需要留意。

最關(guān)鍵的一點就是在關(guān)于自然語言的語料庫里,一個單詞出現(xiàn)的頻率與它在頻率表里的排名成反比。根據(jù)經(jīng)典“齊夫定律”的定義,假設(shè)我對文本進行分詞處理并統(tǒng)計了詞頻,發(fā)現(xiàn)詞頻排名TOP3的三個詞分別為“的”、“是”、“它”,那么“的”出現(xiàn)頻率應(yīng)該約為“是”的2倍,約為“它”的3倍。結(jié)果就可能會是詞頻排名靠前的高頻詞占去了整個語料的大半,其余多數(shù)詞的的出現(xiàn)頻率卻很少。

所以不能完全直接的基于詞頻來判斷輿情文本中哪些是重要的關(guān)鍵詞,詞頻最高的其實是中文中的常用字,而非對當(dāng)前文本最有代表性的關(guān)鍵詞。如下圖的詞頻曲線所示,只有出現(xiàn)在曲線中間區(qū)域的詞才是真正在當(dāng)前文本中出現(xiàn)頻率高,并且在其他文本中很少出現(xiàn)的,這些詞語就是當(dāng)前文本的關(guān)鍵詞,對當(dāng)前文本具有重要性和代表性。前端的高頻詞和靠后的長尾低頻詞都可排除在考慮范圍之外。

(圖片來源:Google,筆者標注)

基于這個原理,在詞頻統(tǒng)計之前需要過濾掉文本中的停用詞(stop word)。出現(xiàn)在詞頻曲線頭部的那些高頻詞,就多數(shù)是停用詞。停用詞還包括實際意義不大但使用頻率高的功能性詞匯,比如“啊”、“的”、“在”、“而且”這樣的語氣詞、介詞、連詞等等。過濾停用詞還是為了減少信息冗余,提高分析的效率和準確性。過濾停用詞需要的停用詞表,詞庫都可以在網(wǎng)上下載。實際應(yīng)用的過程中我們還可以在停用詞表中添加或刪減特定的詞匯,使之更加完善或具有針對性,符合當(dāng)前研究的實際需要。

包括分詞、過濾停用詞、統(tǒng)計高頻詞在內(nèi)的這些操作,都可以通過ROST的分詞工具完成。我們可以在ROST中導(dǎo)入經(jīng)過完善或自定義的詞庫詞表,替換掉ROST自帶的默認詞庫。

這些被提取出的關(guān)鍵詞濃縮了用戶輿情中的精華信息,能反映出用戶的關(guān)注點、情緒和認知,產(chǎn)品的潛在競爭力等信息。例如,在網(wǎng)易100分的智能筆用戶需求調(diào)研項目中,我們針對2C市場的智能筆消費者進行了輿情分析。首先我們通過ROST的分詞工具獲取了分詞文檔,關(guān)鍵詞及其詞頻列表。然后我們將分詞后的文檔導(dǎo)入在線詞云編輯器Tagxedo,就能直接生成詞云圖。

根據(jù)分詞結(jié)果和詞云圖,我們基本能做出如下判定

  • 用戶的整體使用體驗:方便
  • 產(chǎn)品的核心功能點:同步,識別,效率
  • 產(chǎn)品的主要使用場景:筆記,繪畫
  • 用戶的消費體驗:價格,概念創(chuàng)意,外觀
  • 可推測潛在用戶的身份:商務(wù)人士?老師?學(xué)生?藝術(shù)設(shè)計從業(yè)者?
  • 但如果想要進一步知道具體內(nèi)容之間的關(guān)系,就還得要繼續(xù)挖掘分析這些關(guān)鍵詞之間的結(jié)構(gòu)關(guān)系。

5語義網(wǎng)絡(luò)分析

語義網(wǎng)絡(luò)分析是指篩選統(tǒng)計出高頻詞以后,以高頻詞兩兩之間的共現(xiàn)關(guān)系為基礎(chǔ),將詞與詞之間的關(guān)系數(shù)值化處理,再以圖形化的方式揭示詞與詞之間的結(jié)構(gòu)關(guān)系。基于這樣一個語義網(wǎng)絡(luò)結(jié)構(gòu)圖,可以直觀的對高頻詞的層級關(guān)系、親疏程度進行分析。

其基本原理是統(tǒng)計出文本中詞匯、短語兩兩之間共同出現(xiàn)的次數(shù),再經(jīng)聚類分析,梳理出這些詞之間關(guān)系的緊密程度。一個詞對出現(xiàn)的次數(shù)越多,就表示這兩個詞之間的關(guān)系越密切。每個詞都有可能和多個詞構(gòu)成詞對,也會有些詞兩兩之間不會存在任何共線關(guān)系。關(guān)鍵詞共現(xiàn)矩陣就是統(tǒng)計出共現(xiàn)單詞對出現(xiàn)的頻率,將結(jié)果構(gòu)建而成的二維共現(xiàn)詞矩陣表。

再經(jīng)聚類分析處理,將關(guān)鍵詞共現(xiàn)矩陣轉(zhuǎn)化為語義關(guān)系網(wǎng)絡(luò),揭示出各節(jié)點之間的層級關(guān)系、遠近關(guān)系。需要特別強調(diào)的是,語義網(wǎng)絡(luò)分析只是根據(jù)節(jié)點的分布情況來揭示他們之間關(guān)系的緊密程度,并不能表示節(jié)點之間存在因果關(guān)聯(lián)?;诠铂F(xiàn)矩陣的關(guān)鍵詞語義網(wǎng)絡(luò)分析,同樣也可以通過ROST中的語義分析工具來完成,生成語義網(wǎng)絡(luò)結(jié)構(gòu)圖供我們進行分析。

例如,我們曾針對網(wǎng)易云課堂的用戶支付問題進行了輿情分析。所有輿情數(shù)據(jù)是以若干支付相關(guān)的詞匯為關(guān)鍵詞,進行抓取的。通過ROST的分析生成了如下圖所示的語義網(wǎng)絡(luò)結(jié)構(gòu)圖。

在這個語義網(wǎng)絡(luò)圖中,次級節(jié)點基本以核心節(jié)點為中心向周圍輻射分布,但其中也存在局部的簇群關(guān)系,揭示出主要問題之間的潛在關(guān)聯(lián):

  • 優(yōu)惠券:優(yōu)惠券使用問題和重新支付場景關(guān)系密切,可挖掘分析導(dǎo)致了重新支付場景下的優(yōu)惠券使用問題的具體原因。
  • 移動端:移動端支付問題突出的表現(xiàn)在IOS端
  • 支付渠道:微信和支付寶的支付情況存在差異。微信和訂單的創(chuàng)建搜索關(guān)系密切,支付寶和購買流程關(guān)系密切。

6情感分析

對用戶輿情進行情感分析,主要是分析具有情感成分的詞匯的情感極性(即情感的正性、中性、負性)和情感強烈程度,然后計算出每個語句的總值,判定其情感類別。還可以綜合全文本中所有語句,判定總輿情數(shù)據(jù)樣本的整體態(tài)度和情感傾向。

ROST同樣也可以完成對文本情感的分析。但目前不少文獻、研究認為中文情感分析的準確性不夠高,因為中文除了有直接表達各種極性情感的形容詞(高興、生氣),還有用于修飾情感程度的副詞(很好,非常、太),有時候其中還會夾雜表示否定的詞(非常不好用,很不方便)。

分詞處理文本時,要對形容詞、副詞、否定詞都有正確的分詞;分詞后,要基于情感詞庫、否定詞庫、程度副詞庫對這些情感詞匯進行正確的賦值;最后進行情感值加權(quán)計算,才能最終分析出總的情感類別。

另外需要注意的是,我們的輿情數(shù)據(jù)可能來自電商、應(yīng)用市場、社區(qū)論壇等,這些來源渠道本身就對整體數(shù)據(jù)的情感傾向有篩選,具有某些屬性的情感表達直接就被該渠道過濾掉了。

三、總結(jié)

總的來看用戶輿情具備有優(yōu)勢特點:

  • 來源渠道豐富:不限于社交網(wǎng)絡(luò)、新聞資訊媒體、電商平臺、應(yīng)用市場等。
  • 覆蓋面廣,信息量大:覆蓋到不同人口學(xué)特征的人群,覆蓋到目標用戶、競品用戶等不同人群。
  • 真實客觀:整體而言是用戶最直接的表達,能在一定程度上保證數(shù)據(jù)的真實客觀。
  • 獲取成本低:基本上都能快速、免費的獲取,省時高效。

在用研工作中,用戶輿情分析能讓我們在特定的研究背景下,以更小的代價了解到產(chǎn)品的市場反饋,用戶的態(tài)度認知和需求痛點,有效的達到研究目的。

 

作者:曾玫媚,網(wǎng)易產(chǎn)品發(fā)展部用鹽一枚

本文作者@曾玫媚,由@用鹽有點咸(微信公眾號:用鹽有點咸) 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 干貨滿滿

    回復(fù)
  2. 我就看看不說話

    回復(fù)
    1. 呵呵

      回復(fù)