用戶流失預(yù)警分析
針對用戶增長分析,本文主要從用戶防流失的角度,闡述如何基于QQ社交網(wǎng)絡(luò)數(shù)據(jù)構(gòu)建用戶流失預(yù)警模型,找出高潛流失用戶,用于定向開展運(yùn)營激活,從而有效控制用戶流失風(fēng)險,提升大盤用戶的留存率和活躍度。
本文所涉及到的分析框架和方法論等具有較強(qiáng)的通用性,可供有需要的同學(xué)了解參考。
一、分析背景
“根據(jù)美國貝恩公司的調(diào)查,在商業(yè)社會中5%的客戶留存率增長意味著公司利潤30%的增長,而把產(chǎn)品賣給老客戶的概率是賣給新客戶的3倍。所以在‘增長黑客’圈內(nèi)有一句名言:留住已有的用戶勝過拓展新的客戶,也就是俗稱的‘一鳥在手,勝過雙鳥在林’?!?/p>
——引用自《增長黑客》
用戶留存和用戶流失是一組相對的概念。諸如獲得一個新客戶的成本是保持一個老客戶的5倍等經(jīng)過眾多商業(yè)實踐總結(jié)出來的數(shù)據(jù)都證明了一個事實——提升用戶留存率,減少用戶流失,對于任何一家企業(yè)來說都是非常重要。
而隨著互聯(lián)網(wǎng)特別是移動互聯(lián)網(wǎng)的高速發(fā)展,傳統(tǒng)模式下的很多發(fā)展瓶頸得到了重大突破,成本結(jié)構(gòu)也發(fā)生了顯著變化。但對于企業(yè)來說,用戶留存依然是反映企業(yè)及產(chǎn)品核心競爭力的關(guān)鍵要素。
在用戶生命周期管理(CLM)的分析框架下,不同的用戶生命周期階段我們需要考慮不同的問題,制定不同的用戶管理策略,不斷改善用戶體驗的同時,實現(xiàn)用戶生命周期價值(CLV)的最大化。
不同用戶所處的階段可能是不一樣的,且每一個階段的時間跨度和展現(xiàn)形式可能也有所不同。針對用戶衰退階段,構(gòu)建高危流失用戶的預(yù)警機(jī)制,制定面向高危用戶挽留策略,是延長用戶生命周期、提升用戶留存的重要舉措,這也是本文將要重點(diǎn)闡述的研究內(nèi)容。
圖1:用戶生命周期
關(guān)于對用戶數(shù)據(jù)如何開展分析挖掘,目前業(yè)界已有不少成熟的方法論,而我們的分析流程也是在這些方法論的指導(dǎo)下有序開展的。當(dāng)前業(yè)界主要的兩大方法論分別是SEMMA方法論和CRISP-DM方法論。其中SAS公司提出的SEMMA方法論,即抽樣(Sample)、探索(Explore)、修改(Modify)、建模(Model)、評估(Assess),強(qiáng)調(diào)的是這5個核心環(huán)節(jié)的有機(jī)循環(huán)。
而SPSS公司提出的CRISP-DM是英文縮寫,全稱為跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(Cross-Industry Standard Process for Data Mining),突出業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建模、評價和發(fā)布這幾個環(huán)節(jié),強(qiáng)調(diào)將數(shù)據(jù)挖掘目標(biāo)和商務(wù)目標(biāo)進(jìn)行充分結(jié)合。
在具體實踐中,CRISP-DM強(qiáng)調(diào)上層的商務(wù)目標(biāo)的實現(xiàn),SEMMA則更側(cè)重在具體數(shù)據(jù)挖掘技術(shù)的實現(xiàn)上。只有將兩種方法緊密聯(lián)系在一起,才能達(dá)到更好地達(dá)成數(shù)據(jù)分析挖掘的效果。
圖2:數(shù)據(jù)分析挖掘方法論
二、流失預(yù)警模型構(gòu)建
基于上述方法論,下面結(jié)合具體的業(yè)務(wù)場景,詳細(xì)介紹用戶流失預(yù)警的分析思路及模型建設(shè)過程。
2.1 業(yè)務(wù)理解
針對某業(yè)務(wù)用戶活躍度下降、沉默用戶比例較高的業(yè)務(wù)現(xiàn)狀,著手建立高潛流失用戶預(yù)警及挽留機(jī)制,以期提升用戶留存,拉動活躍,“防患于未然”。而落腳點(diǎn)則是建立一套流失預(yù)警的分類模型,預(yù)測用戶的流失概率。
基于上述需求,首先我們要明確“用戶流失”的定義,使得分析的目標(biāo)更符合業(yè)務(wù)理解及分析要求。
2.1.1 用戶流失行為定義
這里羅列了流失分析可能需要考慮的三個維度:動因、程度和去向。不同業(yè)務(wù)場景下流失分析可能需要綜合考慮多個維度,以制定最為合理的分析目標(biāo)。
1)流失動因
- 客戶主動流失(VOLUNTARY CHURN)——客戶主動銷戶或者改變當(dāng)前的服務(wù)模式;
- 客戶被動流失(INVOLUNTARY CHURN)——客戶因為違規(guī)或欺詐等行為被停止服務(wù)及強(qiáng)行關(guān)閉賬戶等行為。
2)流失程度
- 完全流失——客戶發(fā)生關(guān)閉所有與企業(yè)服務(wù)相關(guān)賬戶和交易等不可恢復(fù)或者很難恢復(fù)的行為;
- 部分流失(PARTIAL CHURN)——客戶并未關(guān)閉賬戶但是交易水平突減到一定水平之下,例如在產(chǎn)品使用場景下用戶使用頻率突降了50%等等。
3)流失去向
- 外部——客戶關(guān)閉或減少了在當(dāng)前機(jī)構(gòu)的業(yè)務(wù)而轉(zhuǎn)向了其它競爭對手;
- 內(nèi)部——客戶關(guān)閉或減少了在當(dāng)前機(jī)構(gòu)的部分業(yè)務(wù)而轉(zhuǎn)向了當(dāng)前機(jī)構(gòu)的其它業(yè)務(wù)。
可見,對于流失的理解可以是多方位的,需要結(jié)合具體的場景和需求。這里我們只簡化考慮用戶在某項業(yè)務(wù)主動部分流失的情況。
2.1.2 Roll-rate分析
針對流失的目標(biāo)定義,我們鎖定一批用戶,觀察其在后續(xù)業(yè)務(wù)使用方面的持續(xù)沉默天數(shù),滾動考察用戶回流比例。我們發(fā)現(xiàn),當(dāng)QQ某業(yè)務(wù)用戶沉默天數(shù)超過兩周后,回流率環(huán)比已經(jīng)低于10%且后續(xù)趨勢平穩(wěn),因此我們將本次該業(yè)務(wù)流失分析的目標(biāo)定義為:用戶該業(yè)務(wù)使用出現(xiàn)連續(xù)沉默14天及以上?;谠摱x著手構(gòu)建建模分析樣本。
圖3:Roll-rate分析
2.2 數(shù)據(jù)理解
針對用戶流失預(yù)警這一分析目標(biāo),我們重點(diǎn)考察用戶活躍類指標(biāo),構(gòu)建流失預(yù)警分析建模指標(biāo)體系:
圖4:建模指標(biāo)體系
2.3 數(shù)據(jù)準(zhǔn)備
2.3.1 樣本構(gòu)造
流失預(yù)警分析樣本數(shù)據(jù)選取:
1)鎖定某日業(yè)務(wù)使用活躍用戶,統(tǒng)計其在后續(xù)14天的活躍情況;
2)由連續(xù)14天沉默賬號和14天有活躍賬號構(gòu)成樣本,并打上相應(yīng)標(biāo)簽;
3)統(tǒng)計樣本賬號在觀察點(diǎn)前8周的行為特征,按周匯總輸出,同時加入包括基礎(chǔ)畫像的特征屬性。
圖5:建模樣本構(gòu)造
2.3.2 數(shù)據(jù)質(zhì)量檢驗
這項工作的重要性不言而喻,正所謂“垃圾進(jìn),垃圾出”,基礎(chǔ)數(shù)據(jù)如果無法保證良好的數(shù)據(jù)質(zhì)量,分析研究工作便會舉步維艱甚至是徒勞,分析得出的結(jié)論也是無效或者是錯誤的。因此,我們需要建立一套完整有效的數(shù)據(jù)質(zhì)量檢驗流程,這里暫且不就這部分內(nèi)容展開介紹了。
2.4 建模分析
根據(jù)SEMMA的數(shù)據(jù)挖掘方法論,建模分析過程主要包括抽樣(Sample)、探索(Explore)、修改(Modify)、建模(Model)和評估(Assess)這五個關(guān)鍵環(huán)節(jié)。而下面就這五個環(huán)節(jié)的技術(shù)實現(xiàn)過程中涉及到的一些關(guān)鍵點(diǎn)進(jìn)行簡要闡述:
2.4.1 粒度的選擇
根據(jù)分析目標(biāo),選擇合適的分析粒度。不同的粒度意味著需要對數(shù)據(jù)需要做不同方式的處理以及應(yīng)用。比如說我們是基于賬號還是自然人,這個問題需要在模型建設(shè)初期就明確下來。目前流失預(yù)警分析以QQ用戶賬號為分析單元。
2.4.2 抽樣與過抽樣
抽樣就是從原始數(shù)據(jù)中,抽取一定量的記錄構(gòu)成新的數(shù)據(jù)。對于原始數(shù)據(jù)規(guī)模非常大的場景來說,抽樣往往是必要的,可以大大提升模型訓(xùn)練的速度。當(dāng)然,隨著分布式計算等大規(guī)模數(shù)據(jù)處理及分析能力的引入,使用完整的、大量的數(shù)據(jù)樣本進(jìn)行模型訓(xùn)練的可能性也越來越高。
而過抽樣則可以理解為多抽取稀有的標(biāo)簽,而少取常見的標(biāo)簽,這種抽樣方法在建模過程中相當(dāng)常見。比如本次流失分析的場景下,流失用戶作為目標(biāo)樣本,相比整體大盤來說肯定是屬于稀有的標(biāo)簽。為保證模型的有效性,我們需要按照一定配比,建立由流失和非流失用戶構(gòu)成的建模樣本,并分別打上‘1’和‘0’的狀態(tài)標(biāo)簽。兩類樣本的比例關(guān)系并沒有固定標(biāo)準(zhǔn)。一般情況下,目標(biāo)標(biāo)簽樣本占建模數(shù)據(jù)集的比例在20%-30%,會產(chǎn)生較好的模型效果。
另外,也可以通過樣本加權(quán)的方式進(jìn)行過抽樣,實現(xiàn)增加建模數(shù)據(jù)集密度的同時而不減少其規(guī)模。具體操作上一般將最大的權(quán)重設(shè)為1,而其他所有權(quán)重都取小于1的值,以此減少模型過擬合的風(fēng)險。
2.4.3 數(shù)據(jù)探索與修改
數(shù)據(jù)探索即對數(shù)據(jù)開展初步分析,包括考察預(yù)測變量的統(tǒng)計特性及分布、缺失及異常值發(fā)現(xiàn)及處理、變量關(guān)聯(lián)性及相關(guān)性分析等單變量或多變量交叉分析。
1)變量離散化
在對建模數(shù)據(jù)進(jìn)行單變量分析及預(yù)處理的過程,對變量進(jìn)行分組,目的在于觀察變量與目標(biāo)事件的對應(yīng)趨勢,判斷是否與實際業(yè)務(wù)理解相符,從而決定變量是否適用。同時通過變量分組,減少變量屬性個數(shù),有助于避免異常值對模型的影響,提升模型的預(yù)測和泛化能力。
具體做法是對變量按照一定規(guī)則進(jìn)行劃分,比如對于連續(xù)型的數(shù)值變量,按照分位點(diǎn)對變量取值進(jìn)行等高劃分為大約10個區(qū)間,具體如下:
圖6:單變量分布
2)WOE(Weights of Evidence)值計算
在變量分組的基礎(chǔ)上,我們這里使用證據(jù)權(quán)重WOE對變量取值的編碼轉(zhuǎn)換,作為最后模型的輸入。WOE的計算公式如下:
WOEattribute= log(p_non-eventattribute/p_eventattribute)
其中:
p_non-eventattribute= #non-eventattribute/#non-event(模型變量各特征分段下非事件響應(yīng)用戶數(shù)占總體非事件響應(yīng)用戶數(shù)的比例)
p_eventattribute= #eventattribute/#event(模型變量各特征分段下事件響應(yīng)用戶數(shù)占總體事件響應(yīng)用戶數(shù)的比例)
從這個公式中可以看到,WOE表示的實際上是“當(dāng)前分組中非響應(yīng)用戶占所有非響應(yīng)用戶的比例”和“當(dāng)前分組中響應(yīng)的用戶占所有響應(yīng)的用戶的比例”的差異。WOE越大,這種差異越大,這個分組里的樣本響應(yīng)的可能性就越小,即用戶流失風(fēng)險越小。
將字符型和數(shù)據(jù)型變量分組后的WOE值,可以作為回歸模型訓(xùn)練的輸入。
3)變量選擇
關(guān)于模型待選變量的選擇標(biāo)準(zhǔn)主要從四個方面加以考慮:變量的預(yù)測能力、變量的穩(wěn)定性、變量與業(yè)務(wù)的趨勢一致性、變量間的相關(guān)性、變量的預(yù)測能力。
變量的預(yù)測能力:
在變量預(yù)測力方面,選擇計算信息值IV(Information Value)來量度。IV值一方面可以用于選擇預(yù)測變量,另一方面也可以作為分組是否合適的判斷依據(jù)。
IV的定義和熵(平均信息量)的定義很相似:
IV =∑((p_non-eventattribute- p_eventattribute) * woeattribute)
一般情況下,IV的衡量標(biāo)準(zhǔn)如下:
表1:IV衡量標(biāo)準(zhǔn)
變量的穩(wěn)定性:
變量的穩(wěn)定性主要是跨時點(diǎn)考察特征分段樣本分布是否存在明顯異動。對波動性較強(qiáng)的變量則需要考慮是否需要結(jié)合時間序列做衍生處理,又或者被剔除。穩(wěn)定性指標(biāo)通過PSI(Population Stability Index)來度量。具體計算公式如下:
Index=∑((比較時點(diǎn)分段樣本百分比-基準(zhǔn)時點(diǎn)分段樣本百分比)*ln(比較時點(diǎn)分段樣本百分比/基準(zhǔn)時點(diǎn)分段樣本百分比)
一般情況下,PSI的衡量標(biāo)準(zhǔn)如下:
表2:PSI衡量標(biāo)準(zhǔn)
變量與業(yè)務(wù)的趨勢一致性:
這個標(biāo)準(zhǔn)可以結(jié)合業(yè)務(wù)知識、特征分布及WOE進(jìn)行綜合判斷。
變量間相關(guān)性:
計算變量間的相關(guān)系數(shù),當(dāng)評分模型變量間的相關(guān)性過高,會產(chǎn)生共線性(collinearity)的問題,導(dǎo)致使模型的預(yù)測能力下降,甚至出現(xiàn)與預(yù)測結(jié)果相反無法解釋的現(xiàn)象。為避免變量間的高度相關(guān)削弱模型預(yù)測能力,對相關(guān)系數(shù)較高的變量集合可通過IV擇優(yōu)選取。
2.4.4 建模
前面我們通過大量的特征分析工作圈定了有效模型入選變量,接下來通過模型算法的選擇調(diào)用最終輸出模型結(jié)果,給每個用戶單元計算流失概率。作為一個分類問題,目前我們有比較多的模型算法可以嘗試,比如說邏輯回歸和決策樹。通過模型比較,我們最終選擇邏輯回歸進(jìn)行建模。由于邏輯回歸是業(yè)務(wù)已經(jīng)比較成熟的分類算法,大多數(shù)分析同學(xué)應(yīng)該都比較了解,這里就不再贅述其原理。
2.5 模型評價
對于一個模型是否達(dá)標(biāo),我們一般會從以下幾個方面去考量:
1)是否達(dá)到符合應(yīng)用要求的準(zhǔn)確性水平
這里我們可以通過Lift Charts(又叫 gains chart)、ROC Charts、KS等評價指標(biāo)來對模型性能進(jìn)行評估比較。
2)是否具有較高的穩(wěn)定性
同樣的,我們可以借鑒變量分析里面的穩(wěn)定性系數(shù)PSI來衡量及監(jiān)控模型的穩(wěn)定性。
3)是否簡單
這個標(biāo)準(zhǔn)主要是從模型部署的角度考慮,模型如果足夠簡單,將更有利于模型的IT部署應(yīng)用。
4)是否有意義
即在模型變量及其預(yù)測結(jié)果方面具有較強(qiáng)的可解釋性。這對于某些場景來說要非??粗氐闹笜?biāo),比如說在銀行信貸的信用評分模型的應(yīng)用上。它是技術(shù)與業(yè)務(wù)有效連接的重要橋梁,有利于業(yè)務(wù)方更好理解模型并有效指導(dǎo)業(yè)務(wù)開展。當(dāng)然,隨著機(jī)器學(xué)習(xí)領(lǐng)域一些高級算法的研究使用,可解釋性要求在某些場景下已經(jīng)不屬于必要條件。
2.6 模型應(yīng)用
關(guān)于模型應(yīng)用,我們主要聚焦在以下兩個方面:
1)用預(yù)測模型得到影響流失的重要因素
通過單變量分析找出對業(yè)務(wù)有突出影響的一系列“Magic Number”。為什么叫“Magic Number”?顧名思義,這個數(shù)字能給業(yè)務(wù)增長帶來魔力般的神奇促進(jìn)效果。通過對關(guān)鍵影響指標(biāo)的量化分析,可以幫助業(yè)務(wù)有效制定運(yùn)營目標(biāo)。
圖7:Magic Number
如上圖所示,在流失預(yù)警的分析中,我們發(fā)現(xiàn)若干對用戶流失顯著相關(guān)的特征指標(biāo),比如好友數(shù)。好友數(shù)量達(dá)到50個及以上的用戶流失率只有好友數(shù)50個以下用戶的30%左右,可見好友數(shù)指標(biāo)對于用戶留存存在正向作用,再次驗證我們大力開展好友推薦、優(yōu)化QQ用戶好友關(guān)系結(jié)構(gòu)的必要性。
2)用預(yù)測模型預(yù)測客戶流失的可能性
利用模型輸出的概率結(jié)果,對流失概率最高的一部分用戶,可以開展針對性的運(yùn)營管理,比如設(shè)計有效的喚醒機(jī)制、好友推薦、個性化推薦以及合作產(chǎn)品引導(dǎo)等,挖掘用戶的應(yīng)用需求點(diǎn)和興趣點(diǎn)。同時建立分析-應(yīng)用-反饋的閉環(huán)流程,持續(xù)對用戶留存流失進(jìn)行監(jiān)控管理,及時發(fā)現(xiàn)問題,以指導(dǎo)模型優(yōu)化及策略更新。
三、優(yōu)化研究方向
可以嘗試從以下兩個方面開展優(yōu)化分析:
3.1 用戶群體細(xì)分
針對不同類型的用戶分別搭建流失預(yù)警模型。
3.2 用戶行為分析
分析用戶產(chǎn)品使用行為及內(nèi)容偏好,挖掘用戶使用習(xí)慣及興趣點(diǎn),實現(xiàn)個性化推薦,拉動用戶活躍。
四、結(jié)語
在用戶流失預(yù)警這個分析案例中,我們結(jié)合業(yè)務(wù)現(xiàn)狀,在用戶生命周期管理的大框架下,采用業(yè)界較為成熟的數(shù)據(jù)分析挖掘方法論,開展數(shù)據(jù)分析工作。這里面重點(diǎn)介紹了特征分析的方法,這是我們在做用戶數(shù)據(jù)分析過程非常重要且必不可少的部分。
而在特征分析過程中,我們可以更加深入地了解業(yè)務(wù)特性,輸出更多的數(shù)據(jù)價值。這也是本文所希望傳達(dá)重要信息。由于知識和篇幅所限,有很多細(xì)節(jié)沒能闡述得特別深入,有些方法也許不是最優(yōu)的做法,歡迎對BI有興趣的同學(xué)加強(qiáng)交流,共同進(jìn)步,更好地將數(shù)據(jù)價值應(yīng)用到實際業(yè)務(wù)中。
作者:alvinpan,騰訊CSIG數(shù)據(jù)科學(xué)家
來源公眾號:騰訊大講堂(ID:TX_DJT ),聚焦前沿,打造互聯(lián)網(wǎng)人的高光時刻
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @騰訊大講堂 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
寫的真細(xì)節(jié)啊,非常感謝