微博核心傳播者挖掘與傳播規模預測研究

4 評論 14304 瀏覽 27 收藏 27 分鐘

摘要:基于30條熱門微博的全部傳播數據及參與傳播的賬號關系,本報告利用數據挖掘方法量化地評估出各主題微博轉發網絡的結構特征、傳播特征、內容特征,并以此建立全面、系統的綜合評價體系,再結合PageRank算法思想,提出了一種有效的核心傳播者挖掘算法,從而精準地評估各條微博中各節點的影響力差異,識別核心傳播者。最后依據核心傳播者的行為集合建立傳播模型,預測了單條微博的傳播規模。

由中國新聞史學會計算傳播學研究委員會與微熱點大數據研究院聯合舉辦的第二屆傳播數據挖掘競賽已圓滿落幕,15支戰隊盡顯風采。以下為“核心用戶挖掘與傳播規模預測”選題優秀作品《社交媒體時代核心用戶識別與傳播規模預測分析》,由來自中國傳媒大學“豬頭DD的BoysandGirls天天有錢”精彩呈現。

一、引言

作為一種基于用戶關系信息分享、傳播以及獲取的社交平臺,當前微博已成為中國最重要的公共空間,而微博的核心傳播者起著輿論引導甚至改變輿情發展方向的重要作用。微博核心傳播者的挖掘對信息的傳播與演化的深度分析、輿情監控和引導都具有重要意義。另一方面,也為提供個性化服務以及差異廣告的投遞提供便利。如何挖掘微博核心傳播者,成為我們關注的議題。

二、問題的提出與分析

挖掘核心傳播者是本報告的核心議題。在此背景下,提出以下四個子問題:

  1. 核心傳播者如何定義,存在什么樣的特征?
  2. 未知個體身份信息的情況下,基于30條熱門微博的全部傳播數據及參與傳播的賬號關系,如何對核心傳播者的關鍵特征進行有效量化?
  3. 如何基于量化的關鍵特征建立全面系統的評價體系并精準地評估各條微博中各節點的影響力差異,并識別核心傳播者?
  4. 在有限的信息中如何較準確地刻畫出核心傳播者的行為畫像,進而建立有效的模型預測單條微博的傳播規模?

三、研究過程與方法

3.1 微博核心傳播者概念辨析

本報告中的“微博核心傳播者挖掘”和“意見領袖挖掘”不同。在《人民的選擇》中,拉扎斯菲爾德(Lazarsfeld)首次提出“意見領袖”。意見領袖作為媒介信息的影響的中繼和過濾環節,對大眾傳播效果產生重要影響,是大眾傳播中不可缺少的一部分。

關于微博意見領袖挖掘的研究眾多,但當前大多數挖掘意見領袖是基于微博整個的傳播環境而言。

本研究從給定的數據集里找“核心傳播者”,非嚴格意義上的“意見領袖”,不考慮用戶評論、點贊、活躍度等因素。筆者基于研究范圍,將本文的微博核心傳播者定義為:在微博信息傳遞中,對輿論的發展能起到關鍵性的導向作用,具有影響他人態度和行為的能力,能加快傳播速度并擴大影響的用戶。

3.2 核心傳播者影響力特征

基于對用戶節點的深度分析,綜合用戶節點的各類屬性,本研究基于30條熱門微博的全部傳播數據及參與傳播的賬號關系,選取用戶的結構特征、傳播特征和內容特征作為用戶影響力特征,并以此建立綜合評價體系:

3.2.1 結構特征

結構特征體現了用戶本身因素和所在網絡拓撲的結構因素,通??梢杂煞劢z數,關注數,中心度等屬性表示。附錄A圖1顯示了一個社交網絡拓撲圖。但由于數據集所限,同時為了提高準確度,本研究將用戶的結構特征指標歸結為以下兩點:

(1)用戶關注數。關注數代表用戶能力范圍內的信息接受度,核心傳播者的關注數應該在一個合理區間內。

(2)用戶粉絲數。因粉絲數在數據集中未給出,本研究使用倒排索引法從用戶關注集合中反向找出用戶粉絲集合。附錄A圖2顯示了該方法得到的用戶粉絲數符合冪律分布,且獲取的用戶為實際參與到傳播行為的“激活用戶”,是粉絲中對傳播貢獻最為顯著的部分,故可將該結果用于構建用戶結構特征指標。

3.2.2 傳播特征

用戶的傳播特征即用戶在信息傳播過程中的傳播行為特征,通常表現為在一段時間內發布的微博數和微博被點贊、被轉發和被評論的數量等。同樣因數據集所限,只將特征固定在轉發數。同時,我們通常認為,當用戶發布的微博被非粉絲轉發條數越多,說明其影響力不局限于固定受眾,影響力可能越大。因此,本研究將傳播特征區分為粉絲轉發數和非粉絲轉發數。

3.2.3 內容特征

在意見領袖挖掘問題中,用戶的影響力不能簡單地從結構特征和行為特征衡量,還需要從語義內容角度去評價特定用戶對于某一話題的觀點[1],內容特征參考以下兩點:

(1)文本相似度。微博社交網絡大量的“灌水”、“刷數據”的行為使得許多轉發行為在內容上與原內容無關,表達價值有限,因而引入文本相似度以衡量轉發文本與原微博在內容上的相關程度,具有與原微博較高相似度的轉發文本才能真正傳播觀點和內容,方能實現核心傳播者所應具備的“擴大影響”以及“引導輿論走向”的職能要求。

(2)內容情感傾向。在微博社交網絡中,原創微博會引發大量的轉發,轉發內容綜合體現了眾人的褒貶情感。識別信息傳播過程中傳播者的主流情感態度, 有利于篩選出引導輿論發展方向、對其他受眾施加顯著影響的真正核心傳播者。

3.3 核心傳播者的指標權重

以結構特征、傳播特征、內容特征為分析指標,運用模糊層次分析法確定指標權重。模糊層次分析法(FAHP)判斷指標元素權重相較傳統的層次分析法具有計算過程復雜度低與計算結果分辨率高等優點,有利于提高排序與決策的科學性。

3.4 核心傳播者挖掘算法

3.4.1 評價體系各指標量化方法

結構特征和傳播特征數據能夠較為容易地從數據集中獲得。在內容特征方面,對于情感指數,首先需要對用戶的轉發文本的情感極性進行分類。本文采用LSTM神經網絡訓練了10萬條帶有正負情感標記的微博轉發、評論文本數據集,經過五輪訓練,準確率高達94%,損失函數則低至0.37(見附錄A圖3),具有較好的預測效果。

隨后,由于模型的預測結果實際是文本內容為正向及負向的雙向可能性,嘗試以情感極性的期望描述情感的強烈程度。(文本情感極性分析流程見附錄A圖4)眾多研究表明網絡的負面情緒往往相比正向情緒具有更大的傳播效果,因而得到公式:

文本相關度則利用TF-IDF算法獲取。由于微博轉發文本主要針對熱點事件、話題開展討論,共輸入1000余篇完成分詞的新聞文本構造出詞典并構建TF-IDF模型,最后以此進行原微博文本與轉發文本的相似度匹配。

3.4.2 預處理問題

在內容屬性挖掘過程中,本研究首先對轉發文本的非漢字詞組、標點、用戶昵稱等進行了過濾。由于每種特征數據具有不同的量綱,因此采用min-max標準化對數據進行線性轉換,將結果映射到(0,1)之間。轉換函數為:

綜上得到綜合評價指數計算公式:

3.4.3 改進的PageRank算法

三維度的綜合評價體系可以有效評估一個節點本身的直接影響力,然而用戶的影響力與傳播效果除了本身的直接影響,還應包括傳遞本節點觀點的后續節點傳播所帶來的間接影響。由此,本研究嘗試引入網頁排名算法PageRank 思想:

其中,Vn,Vn-1代表一系列節點組成pagerank值向量,M為N×N概率轉移矩陣。相較于傳統微博影響力研究針對粉絲-關注網絡進行PageRank計算,本研究創新性地將PageRank思想引入微博轉發網絡。PageRank算法的思想與微博轉發網絡相吻合。因此本研究將構建由轉發者指向被轉發者的有向關系圖。

但PageRank的弊端在于過分看重外部鏈接的間接價值而忽視了節點本身的直接價值,前文所述三維度指標體系恰好可以較為全面評價一個節點本身的直接影響力和價值。參考陳淑娟[2]、馮勇[3]等的研究思路,本研究將節點i的綜合評價指數I作為權重參數乘至到PageRank轉移概率矩陣中第i列(即為所有節點鏈接到節點i的概率加權),從而影響PageRank的迭代結果。

本處數學處理的意義可解釋為:當一個轉發用戶的自身影響力與傳播價值較高,任何對他進行二次轉發的節點將有更大的概率將流量引向該用戶。

綜上,改進后的用戶影響力(User Influence, UI)的矩陣表達式如下:

其中AIndex為本微博各轉發節點綜合評價指數所組成的N×N對角矩陣,Vn為n次迭代后得到的N個節點的UI值組成的向量。

3.5 預測單條微博傳播規模

3.5.1 核心傳播者的信息傳播動力學建模

信息在社交媒體中的傳播模式呈現出去中心化的特點,核心傳播者在信息傳播過程中帶動了大量的二次傳播[4]。本研究對核心傳播者帶動的信息傳播模式進行可視化(附錄A圖5)發現,絕大多數的核心傳播者的轉發能夠迅速引起大量的二次轉發,之后轉發數迅速下降,進入到慢速傳播狀態,直至轉發數極低或者為零。

由此,本研究對核心傳播者的信息傳播模型借由Wang等人[5]的思想:在信息傳播初期,單位時間內核心傳播者帶動的轉發數為冪律衰減函數,隨后核心傳播者的影響力和信息新鮮度下降,轉發數又呈現出指數衰減。因此將核心傳播者的信息傳播過程表示如下:

其中,F0,α,τ為預估參數。F0為用戶初始影響力,在本研究中,其決定因素為結構特征;α為核心傳播者的影響力衰減速度,τ為核心傳播者影響力的持續時間,二者的大小是信息傳播過程中多種因素交織的結果,在本研究中簡化為由結構特征、內容特征和微博轉發時間決定。3.5.2 預測單條微博傳播規模

本研究將數據集中的30條熱門微博分為訓練集和測試集,其中訓練集內微博數量為22,用來得到各個核心傳播者的參數;測試集內微博數量為8,用來預測核心傳播者的單條微博傳播規模。

對訓練集中的所有核心傳播者分別用公式(6)進行非線性最小二乘擬合,得到各個核心傳播者的信息傳播模型參數,并利用相關系數R2進行擬合效果的評價。由于測試集中的核心傳播者不一定出現在訓練集中,所以當預測一個新的核心傳播者的傳播規模時,需要計算其與已知核心傳播者的差異。

本研究選用粉絲數、關注數、情感值、文本相關值和轉發時間距原微博發布時間的時間間隔五個特征來度量用戶屬性。對數據用式(2)進行標準化處理,得到用戶之間的距離計算公式為:

其中,x1k、x2k分別為用戶1和用戶2在第k維度的特征值。選取與當前核心傳播者距離最小的核心傳播者的參數作為前者的參數,從而預測當前核心傳播者單條微博的傳播規模。綜上,本研究的研究思路與流程如附錄A圖6所示。

四、研究結果與發現

4.1 數據集

本研究使用微博提供的基于30條熱門微博的全部傳播數據及參與傳播的賬號關系,附錄B表1為數據的基本概要,附錄A圖7為30條微博的主題分類。

4.2 綜合評價體系的構建

本研究邀請了傳播學和大數據方向的專家進行對評價體系進行研判,被調查者結合輿情傳播理論和自身經驗對影響指標因素,進行最小、中間、最大比值的三值評分,進而通過三角模糊法進行模糊層次分析,表1和附錄A圖8為得到的各指標權重。

4.3 核心傳播者挖掘結果

綜合評價體系中,結果特征、傳播特征均通過python的pandas等數據分析庫在源數據中進行定向抓取。情感分析采用keras進行LSTM模型的訓練并利用模型挖掘。以第26條微博“少年的你”數據結果為例,按PageRank排名取前十位核心傳播者見附錄B表2。

4.4 核心傳播者挖掘結果驗證與對比分析

為驗證核心傳播者挖掘算法的有效性,本研究嘗試通過微博文本內容手動檢索實際微博及挖掘出的核心用戶的有效信息,利用檢索結果以及微熱點分析結果,開展如下對比分析。

4.4.1 核心用戶信息溯源

以第26條微博為例,本研究根據用戶的轉發數據以及文本內容于微博平臺進行信息溯源,并完成以下驗證:

(1)關鍵轉發者大多擁有一定規模粉絲量。最小粉絲規模2000+,最大粉絲規模45.6萬+;

(2)關鍵轉發者為該相關話題知名賬號,大多擁有新浪官方認證、活躍用戶、粉絲大咖等標識。例如用戶@我親愛的擁有和虛無(即附錄B表3核心轉發者排名第二,用戶ID為b672fadcb306797bbba44cae1ecf576 5);

(3)分析所得賬號的發博頻率和轉發互動率均有較好表現。例如用戶@赤頰(即附錄B表3核心轉發者排名第九,用戶ID為4cd45eb84d5a48e142011b8 1af4f044f)。

綜上,在用戶粉絲規模、賬號特征和屬性、賬號活躍度和粉絲互動率等方面進行綜合評測,認為以上關鍵轉發者符合本研究的核心傳播者意義。

4.4.2 與微熱點進行對比分析

本研究依托微博分析工具微熱點(微輿情)對原始微博進行“微博傳播分析”,結果見附錄A圖9,與本研究結果對比可得:前十名的核心傳播者中,前五名結果一致,六至十名用戶一致但排名稍有變動,原因為研究方法與微熱點統計方法存在差異。

即微熱點中各引爆點的參考依據僅為二次轉發數量這一指標,而本研究所使用的方法,除此之外加入對用戶關注及粉絲數、是否為粉絲轉發、文本相關度及內容情感的參考,使得其更符合本研究對核心傳播者的定義。本研究作法也使得數據的參考價值局不限于單條微博,在微博的大輿論環境中,考慮核心傳播者本身所具備的能量。

綜上,綜合判定該研究方法所得結果符合要求并具有一定通用性。

4.5 單條微博規模預測結果

在得到所有已知核心傳播者之后,便可以對訓練集中的核心傳播者模型參數進行擬合并存儲,然后對測試集中的核心傳播者的傳播規模進行預測。

具體流程如附錄A圖10所示。其中,為更合理地預測實時消息,在當前核心傳播者轉發微博后,等待10分鐘,獲取其該微博的被轉發數,用如下公式計算其相對初始影響力:

其中F0為數據庫中核心傳播者的初始影響力,N10為數據庫中核心傳播者在10分鐘內的被轉發數。之后便可用公式(6)計算當前核心傳播者的傳播規模。附錄A圖11為對測試集中的一條微博的8位關鍵傳播者進行的傳播規模預測,觀察可知本方法較好地預測了各個核心傳播者的傳播規律與規模,在最終傳播規模的預測上,8位關鍵傳播者實際引發了1152次轉發,而根據模型預測的最終值為1340,準確率達到83.68%。

五、研究結論和討論

實驗及分析比對結果表明,本研究能夠準確挖掘到核心傳播者,所提模型和方法,也能夠較好地刻畫意見領袖在消息傳播過程中所起到的作用,能夠較好地對單條微博的傳播趨勢和規模進行預測,這對于微博中公眾輿論的引導以及廣告定點投放等具有重要意義。

在構建模型和挖掘核心傳播者的過程中,我們也可以發現,核心傳播者具有區別于其他普通傳播者的特征,例如:一定數量的粉絲規模和關注數,發布的博文質量更高,能夠帶動更大的轉發量等。

由于篇幅限制,部分研究方法細節和實驗結果說明難以得到充分展示。

本研究也存在不足之處:第一,模糊層次分析法包含專家的主觀判斷,無法徹底避免評價的主觀性;第二,研究缺乏更全面的用戶行為數據且數據量較小,所以難以更精準地挖掘出核心傳播者,傳播規模預測效果有待進一步提高。這些將是本研究的未來改進方向。

參考文獻

[1]Song K,Wang D,Feng S,et al.Detecting opinion leader dynamically in Chinese news comments[A].Web-Age Information Management[M].Berlin Heidelberg: Springer,2012. 197-209[2] 陳淑娟,徐雅斌.面向主題社團的意見領袖挖掘方法[J/OL].計算機工程與應用:1-11[2020-05-31].http: //kns.cnki.net/kcms/detail/11.2127.TP.20200109.1653.006.html.

[3]馮勇,馬宇光,劉建.微博營銷中融合行為分析的重要用戶發現方法[J].小型微型計算機系統,2019,40(0 8):1646-1651.

[4] 高金華,劉悅,程學旗.去中心化的微博傳播動力學建模[J].中國科學:信息科學,2018, 048(011):P.1575-1588.

[5] WANG Chenxu, GUAN Xiaohong, QIN Tao, ZHOU Yadong. Modeling on Opinion Leader’s Influence in Microblog Message Propagation and Its Application[J]. Journal of Software, 2015, 26(6): 1473-1485

附錄A

圖1 社交網絡拓撲圖

圖2粉絲數分布情況

圖3 LSTM神經網絡進行情感分類的準確率與損失函數

圖4 文本情感極性分析流程

圖5一條典型的核心傳播者帶動的微博的傳播模式

圖6 本研究的研究思路與流程

圖7 30條微博主題分類

圖8 各指標權重可視化

圖9 微熱點分析意見領袖圖

(截至截圖時間2020年05月26日數據)

圖10 傳播規模預測流程

圖11 單條微博核心傳播者傳播規模預測結果

圖12 30條微博部分核心傳播者傳播規模預測結果

附錄B

 

本文由 @數據鍋 原創發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 這學期學了數據挖掘課程,講到作者提到的一些方法,運用得真好??

    來自北京 回復
  2. 寫的挺好的,這類方法應該也能運用到識別煽動輿論的人群中惡意助推者和被煽動者之間的特征,有助于政府或官方在處理公共事件時精準打擊切斷傳播途徑。

    來自江蘇 回復
  3. 太牛了!這是碩士論文?

    來自廣東 回復
  4. 太專業了,看不懂啊??

    回復