干貨|微信230萬社群生命周期研究
最近讀了一篇arXiv上的文章,是清華大學和騰訊公司的一批人運用微信群組數據做的研究。剛好,我目前對社群這塊興趣異常濃厚,所以就認真讀了一下這篇文章,于是做筆記如下。先說說我看到的這篇文章的亮點吧:
- 據作者說,這是第一篇用騰訊微信數據來做分析的學界文章,這個理由絕對牛,太霸氣了。要做研究就得這樣,找別人沒有分析過的牛數據。微信,大家都知道了,目前是全球第二大即時通訊軟件,月活用戶已經6億了,分析這個數據絕對牛。我們學界一直鼓勵騰訊的哥哥姐姐們開放這塊數據呀,能出不少有意思的研究;
- 這大概也是第一個(至少為數不多)研究由即時通訊組成群組的文章。在中國,社群這個概念方興未艾,但是查遍各類英文文獻,似乎沒有對應英文詞。對社群劃分的一種特征就是由即時通訊(手機移動互聯網)構成的群,它會比社交網絡、傳統的論壇、網絡社區具有更高的黏性;
- 用群的結構特征預測群組發展動態。這個好像已經是目前機器學習研究社交媒體、群組一種很常規、標準的范式了,但個人接觸這樣的研究不多,所以覺得很有意思。
0、文章基本信息
作者:Jiezhong Qiu?, Yixuan Li?, Jie Tang?, Zheng Lu?, Hao Ye?, Bo Chen?, Qiang Yang?, and John E. Hopcroft?
單位:?Department of Computer Science and Technology, Tsinghua University ?Department of Computer Science, Cornell University?Tencent Corporation, Beijing, China.??Department of Computer Science, Hong Kong University of Science and Technology
標題:The Lifecycle and Cascade of Social Messaging Groups
下載地址:http://arxiv.org/abs/1512.07831
好,下面我想詳細敘述一下這篇文章的幾個有意思的地方
1、數據集
首先,關于數據(沒辦法,現在數據在研究中的作用太重要了)
作者用了微信的群組記錄,從15年7月26日到8月28的34天數據,包括230萬個群。數據內容包括:
群組活動(誰在什么時間在什么群組活躍)、用戶的集合、邀請記錄(誰于什么時刻邀請了誰加入群),以及朋友關系數據(誰和誰在什么時刻成為好友)
2、群組的兩類生命周期
微信群按照功能和時間長短可以分為兩種:基于事件建立的臨時群,和基于組織和長期社會關系建立的長期群,這在群的生命活躍時間長度分布上體現得很明顯,如下圖所示:
我們看到,臨時群組的生命周期大概不會超過5天,而長期的群組會在一個月以上。
3、群結構特征的演化
接下來,作者主要研究了群的結構。所謂的結構,就是指群內成員之間由好友關系構成的社會關系網絡。如下圖所示:
如圖(a),這是一個群內的社交網絡。作者主要用了兩個指標來度量群的結構,一個是開放三角形的比例,所謂的開放三角形就是形如圖(a)中ADC這三個節點形成的局域結構;另一個是封閉三角形的比例,如圖中的ABC;還有就是連邊的密度,就是連變數除以C_n^2,即這些點全聯通時候的連邊數。
然后,作者看這三個指標的演化。也很簡單,它首先在起始點計算了這些指標,然后在一月后再計算這些指標,得到b、c、d這三張圖。然后分別就長期和短期(藍色和綠色)的結構指標進行了比較。假如結構沒有變化,那么曲線會落到斜45度對角線上?,F在看來長期群相對于短期來說變化是更大的。說明長期群更受這些結構因素影響。
4、邀請層次樹
由于微信的邀請好友機制是任意群組中的人員都能邀請。這樣,從第一個建群的人開始,他就可以邀請其他人,然后這些入群后的人又可以邀請……,這就構成了一個級聯性的樹狀結構。比較長期群和短期群,它們的樹狀深度是不一樣的,如下圖:
長期群結構更深,短期群更扁平。
在這個樹中,節點是人,連邊是邀請關系。我們可以用一種叫做“結構病毒性”(Structural virality)也叫Wiener指數的指標來刻畫這個樹的形狀。Wiener指數定義為平均任意兩個節點的距離。它越大說明樹越深長。在此,我想到了樹的異俗標度律指標也能計算這個玩意,參見
http://wiki.swarma.net/index.php/%E6%A0%91%E7%9A%84%E5%BC%82%E9%80%9F%E6%A0%87%E5%BA%A6%E5%BE%8B
5、生命周期預測
接下來,作者嘗試用群組的靜態特征,包括結構特征(局域網絡結構)、成員的人口特征(如性別、年齡等)來對群組的壽命進行預測。基本套路是把一部分群數據作為訓練集,運用SVM(支持向量機)來進行預測,但預測不是重點,重點看精度。結果發現,結構特征起的作用最大。預測準確度能在60%以上。而且我們甚至只用1天的數據就能預測很好了。如下表
6、成員入群特征及其預測
最后,作者分析了什么樣的人更容易被邀請入群,以及什么樣的人容易邀請成功。并且也用結構特征加以預測。如下圖所示:
這個圈里面的節點都是群組內的,藍色的節點表示在某時刻發出邀請的人,紅色的節點表示被邀請的人。白色的節點表示邊緣節點(沒有入群,但是已經是群內某成員的朋友)。虛線表示的朋友關系,藍色箭頭表示的是邀請關系。
接下來,作者看看什么樣的人更容易被邀請加入群。他們通過兩個指標來計算,一個是這個節點的所有朋友中已經加入了該群的人數;第二個指標是這個人的結構多樣性,定義為這個人為中心的一級近鄰構成的朋友關系網絡中聯通集團的數量。如下圖所示:
如左圖所示以V為中心的局部網絡,藍色節點是已經入群的,所以k=4。另外,如果將V和所有連遍去掉,那么會剩下3個聯通子圖,所以它的結構多樣性為3.
然后,我們來看一個節點被邀請的概率隨k和結構多樣性指標如何變化。由(b)會發現,被邀請概率首先隨著k增長而增長,但是如果k過大了,那么就會出現震蕩的情況,所以k的預測性變差。另一方面,由(c)會發現,被邀請入群的概率會隨著結構多樣性變大而衰減。無論這個中心節點有多少個朋友。也就是一個人交朋友的情況越單一,它加入一個新群的概率就會越大。
最后,作者對一個人是否會邀請,以及是否可能接受到邀請來進行預測。發現準確度能達到95以上。而且群組的歷史特征對于預測誰會邀請別人特別有效,而如果要預測哪一個人被邀請,那么局部的結構特征就很重要。而用戶的人口特征相對來說不重要。
作者:jack
原文地址:http://www.swarma.org/swarma/detail.php?id=18739#rd
這么牛逼的帖子 最近在研究“視頻號 私域 社群”對品牌的影響, 可以加微信 15201405290