如何使用RFM模型和K-means聚類,實現更有效的客戶分層?

2 評論 7836 瀏覽 48 收藏 37 分鐘

僅僅只是從客戶消費金額來分析客戶是否流失,有時可能會成為曲解客戶的行為。那如何實現對用戶的精細化運營,達到最有效的客戶召回方式呢?本文詳細解析了使用RFM模型和K-means聚類實現更有效的客戶分層,感興趣的童鞋快來看看吧。

01 業務背景

不同的客戶具有不同的客戶價值,采取有效的方法對客戶進行分類,發現客戶的內在價值變化規律以及分布規律,針對不同的客戶制定差別化服務政策,能夠幫助企業投入最小的成本獲取最大的價值。

在沒有對用戶進行分類的情況下,很難實現對用戶的精細化運營。考慮到不同的套餐價格不同,而且在促銷過程中也會有不同的折扣,如果單純從客戶消費金額來分析客戶是否流失有時會曲解客戶行為。

因此在對客戶的分析過程中,需要根據客戶最近一次的購買行為以及客戶的購買頻率的變化來推測客戶的流失可能性,再通過客戶的消費金額來判斷客戶的價值情況,最終指導運營決策,把重點放在貢獻度高且流失機會也高的客戶上,重點拜訪或聯系,以達到最有效的客戶召回方式。

而RFM模型較為動態的顯示了一個客戶的全部輪廓,這對個性化的溝通和服務提供了依據。同時,如果與該客戶打交道的時間足夠長,也能夠較為精確地判斷該客戶的長期價值(甚至是終身價值),通過對RFM三項指標的監控,可以為更多的營銷決策提供支持,幫助改善經營狀況。

02 RFM模型

RFM模型是衡量客戶價值和客戶創利能力的重要工具和手段。根據美國數據庫營銷研究所Arthur Hughes的研究,最近一次消費時間間隔(Recency),消費頻率(Frequency),消費金額(Monetary),這三個要素構成了數據分析最好的指標,通過這3個指標對用戶進行分類,根據不同類別的用戶進行精準營銷。

最近一次消費時間間隔(Recency)近度,最近一次有效訂購訂單距離當前時間點的時間。

  • 理論上最近一次購買的顧客越近越是優質客戶,最近才購買商品或服務的顧客,是最有可能再次購買商品或服務的客戶,對即時提供的商品或者是服務也最有可能有反應;
  • 最近一次消費的過程是持續變動的,客戶的最近一次消費時間間隔會隨著時間的變化以及客戶的購買行為變化而變化;
  • 最近一次消費時間間隔可以幫助監控業務的健康程度。比如,月報告中顯示上一次購買很近的客戶(最近一次消費為1個月)人數環比增加,則表示該業務是個穩健成長的業務。相反,如上一次購買很近的客戶(最近一次消費為1個月)人數環比降低,則表示該業務走向衰落的先兆;

消費頻率(Frequency)頻度,客戶在限定時間內訂購訂單的次數。

  • 消費頻次高的客戶,往往也是滿意度最高的客戶;
  • 根據消費頻次,可以把客戶分成不同層級,觀察用戶在不同層級的分布情況,通過運營手段提高消費頻次,增加高層級客戶占比;

消費金額(Monetary)值度,客戶在限定時間內訂購訂單的總支付金額。

  • 消費金額是衡量客戶價值的支柱指標,”帕雷托法則”——公司80%的收入來自20%的顧客,對有價值的客戶進行營銷能得到更可觀的經驗效果;

以客戶訂購訂單的Recency、Frequency、Monetary來替代客戶使用的Recency、Frequency、Monetary,主要有以下幾點原因:

  • 電信行業的客戶每天都在使用電信業務的情況下,其最近時間間隔為零,不同的客戶區分度很小,客戶訂購的時間間隔較大,以訂購近度替代使用近度,避免了客戶使用的近度難于區分的問題。
  • 如果客戶在一定時期內使用電信業務的次數數量非常大,則客戶的頻度也將是一個很大的數量,客戶訂購的次數相對較少,可以減少統計客戶使用次數的工作量。
  • 客戶訂購支付金額跟客戶實際使用消費金額最終是相等的,因此,從訂購交費角度構建的RFM模型是可取的。

因此需要從客戶交費角度來考慮對客戶進行RFM模型建模,以RFM模型為基礎,通過客戶的RFM行為特征衡量分析客戶忠誠度與客戶內在價值。

從公司所有的客戶記錄中選擇近2年內還有消費訂購記錄的客戶進行分析。把這3個指標(R、F、M)按價值從低到高排序,并把這3個指標作為XYZ坐標軸,大于(等于)總RFM平均值的為價值高坐標、小于總RFM平均值的為價值低坐標??梢詣澐譃?個類別,RFM客戶價值空間分類規則如下圖:

圖1 RFM模型客戶價值空間分類規則圖

03 AHP計算RFM權重

雖然可以按照RFM模型把客戶進行分類,但是這種分類只是確定了客戶的聚類,卻沒有把各類客戶之間進行一個量化的價值比較,無法對各種類別的客戶群體進行權重的排名,因而對各類客戶的RFM各個指標權重進行定義非常必要,需要結合各類指標的權重給各類客戶進行綜合價值的評分。

The analytic hierarchy process 簡稱AHP,也稱為層次分析法,是在20世紀70年代中期由美國運籌學家托馬斯·塞蒂(T.L.saaty)正式提出。它是一種定性和定量相結合的、系統化、層次化的分析方法,它的基本思路與人對一個復雜的決策問題的思維、判斷過程大體上是一樣的。

3.1、構造對比矩陣

設共有 n 個元素(RFM模型中n等于3)參與比較,則稱為成對比較矩陣,其中在比較第 i 個元素與第 j 個元素相對上一層用戶價值的重要性時,使用數量化的相對權重 來描述。

  • 成對比較矩陣中 的取值可按下述標度進行賦值。 在 1-9 及其倒數中間取值。其中取值含義如下:
  • = 1,元素 i 與元素 j 對上一層次因素的重要性相同;
  • = 3,元素 i 比元素 j 略重要;
  • = 5,元素 i 比元素 j 重要;
  • = 7, 元素 i 比元素 j 重要得多;
  • = 9,元素 i 比元素 j 的極其重要;
  • = 2n,n=1,2,3,4,元素 i 與 j 的重要性介于之間;
  • ,n=1,2,…,9, 當且僅當 = n ,其中,當 i = j 時, = 1。

針對RFM模型,建立的成對比較矩陣,其中矩陣中的 參數根據實際業務場景進行賦值。比如創建R、F、M的成對比較法,得到的比較矩陣如:,其中 表示F(消費頻率)比R(最近一次訂購時間間隔)的重要性之比為3,即當前業務下決策認為F(消費頻率)比R(最近一次訂購時間間隔)略重要。

3.2、一致性檢驗

從理論上來說,完全一致的成對比矩陣的權向量是精確度是最高的。其中矩陣A如果是完全一致的成對比較矩陣,那么,其中1<=i,j,k<=n。但實際上根據業務情況構造成對比較矩陣時要求滿足完全一致的成對比矩陣是不可能的,因此退而要求成對比較矩陣有一定的一致性,即可以允許成對比較矩陣存在一定程度的不一致性。

由分析可知,對完全一致的成對比較矩陣,其絕對值最大的特征值等于該矩陣的維數。對成對比較矩陣的一致性要求,應該滿足矩陣A絕對值最大的特征值和該矩陣的維數相差不大,矩陣的隨機一致性比率不得大于0.1。其中校驗成對比較矩陣A一致性的步驟如下:

計算衡量一個成對比較矩陣 A (n>1 階方陣)不一致程度的指標,其中 為矩陣A的絕對值最大特征值。

從有關資料查出檢驗成對比較矩陣 A 一致性的標準RI,其中RI稱為平均隨機一致性指標,它只與矩陣階數 n 有關。

RI的計算方式為:對于固定的n,隨機構造成對比較陣A,其中是從1,2,…,9,1/2,1/3,…,1/9中隨機抽取的, 這樣的A是不一致的, 取充分大的子樣得到A的最大特征值的平均值。


計算成對比矩陣A的隨機一致性比率時,判定成對比較陣 A 具有滿意的一致性,其不一致程度是可以接受的。否則就調整成對比較矩陣 A,直到達到滿意的一致性為止。

3.3、RFM矩陣權重

成對比矩陣A的一致性檢驗滿足要求后( CR <1 ),可以通過矩陣A的最大特征值對應的特征向量來算出R(近度)、F(頻度)、M(值度)各個指標變量對應的權重

矩陣A對應最大特征值的特征向量數學計算公式:。

矩陣A對應最大特征值數學計算公式:

  • 可以用Matlab語句求矩陣A的最大特征值對應的特征向量:
  • A的特征值以及特征向量,可以通過[ X , Y ]=eig(A),其中Y為成對比較陣的特征值,X的列為相應的特征向量;
  • 最大的特征值,可以通過eigenvalue=diag(Y) 以及 lamda=eigenvalue(1)進行計算,其中lamda表示最大的特征值;
  • 可以通過y_lamda = x(:, 1) 進行計算最大特征值對應的特征向量。

實際在使用過程中,需要把矩陣最大特征值對應的特征向量轉換成權向量,使得它的各分量都大于零,各分量之和等于 1,這樣才能滿足對RFM模型中各個指標變量的權重設置,各指標變量的相對重要性由權向量的各分量所確定,權向量的各分量對應的值就是出R(近度)、F(頻度)、M(值度)的計算權重。

權向量等于自身向量各分量除以自身向量的和,,其中。 比如特征向量U= [ 2, 3, 5 ], 。

04 K-均值聚類法對客戶分類

與RFM指標對客戶分類不同,分類是示例式學習,要求分類前明確各個類別,并斷言每個元素映射到一個類別,這種對客戶的分類方式并不能滿足“每個分類內部的元素之間相異度盡可能低,而不同分類的元素相異度盡可能高”的客戶分類要求,反而會出現相同分類中的內部元素之間的相異度高,不同分類中的內部元素之間相異度反而低的情況發生。

聚類是觀察式學習,在聚類前可以不知道類別甚至不給定類別數量,是無監督學習的一種。k均值(k-means)算法是一種迭代求解的聚類分析算法,所謂聚類問題,就是給定一個元素集合D,其中每個元素具有n個可觀察屬性,使用某種算法將D劃分成k個子集,要求每個子集內部的元素之間相異度盡可能低,而不同子集的元素相異度盡可能高,其中每個子集叫做一個簇。

4.1、相異度計算

用通俗的話說,相異度就是兩個東西差別有多大。

在數學上對相異度的定義指的是:設,其中X,Y是兩個元素項,各自具有n個可度量特征屬性,那么X和Y的相異度定義為:,其中R為實數域,也就是說相異度是兩個元素對實數域的一個映射,所映射的實數定量表示兩個元素的相異度。

在計算不同元素的相異度上我們采用歐幾里得距離來作為相異度,其意義就是兩個元素在歐氏空間中的集合距離,因為其直觀易懂且可解釋性強,被廣泛用于標識兩個標量元素的相異度。

歐幾里得距離的定義如下:

在真實應用中,經常會出現元素項的取值問題,取值范圍大的屬性對距離的影響高于取值范圍小的屬性,比如在RFM模型的屬性中,M的取值往往要遠大于F的取值,這樣不利于真實反映真實的相異度,為了解決這個問題,一般要對屬性值進行規格化。

規格化的意思就是將各個屬性值按比例映射到相同的取值區間(通常將各個屬性均映射到[0,1]區間),這樣是為了平衡各個屬性對距離的影響。

映射公式為:

表示所有元素項中i個屬性的最大值和最小值,x是集合中的一個屬性指標。

4.2、k-means聚類算法

把近兩年內還有訂購記錄的客戶設定為一個元素集合D,其中每個元素有3個具有可觀察的屬性:R(近度)、F(頻度)、M(值度)。

元素集合D按照K-means聚類算法把他分為8個聚類子集:

  1. 把集合D中每一個元素(客戶)的RFM屬性進行規格化,是基于按照映射公式把各個屬性均映射到[0,1]區間的結果;
  2. 對集合的各個屬性進行加權處理,加權屬性權重AHP法確定的權向量中對應的權重,加權后的集合;
  3. 從集合中隨機選取K個元素(k = 125),作為作為k個簇的各自的中心;
  4. 分別計算剩下的元素到k個簇中心的相異度(按照歐幾里得距離度量),將這些元素分別劃歸到相異度最低的簇;
  5. 根據聚類結果,重新計算k個簇各自的中心,計算方法是取簇中所有元素各自維度的算術平均數;
  6. 將集合中全部元素按照新的中心重新聚類;
  7. 重復第4步,直到聚類結果跟最近一次的聚類結果一致,不再變化;
  8. 輸出最終的聚類結果;

4.3、劃分客戶類別

不同的層級聚合揭示不同層級的客戶在行為上的特性以及變化傾向,劃分客戶類別方法如:

計算K均值聚類中每類客戶的RFM平均值:

  • ,其中1<= i <=n,n指的是每類中的客戶(設備)數,指的是對應類別中每臺設備的R之和,R的計量單位為天;
  • ,其中1<= i <=n,n指的是每類中的客戶(設備)數,指的是對應類別中每臺設備的F之和,F的計量單位為次;
  • ,其中1<= i <=n,n指的是每類中的客戶(設備)數,指的是對應類別中每臺設備的M之和,M的計量單位為USD;

將每類客戶的RFM平均值和總RFM平均值作比較:

  • 將K均值聚類的125類客戶的RFM平均值同總RFM均值進行比較。
  • K均值聚類類別客戶的均值大于(等于)總均值,則給該指標對應坐標為“價值高”坐標;
  • K均值聚類類別客戶的均值小于總均值,則給該指標對應坐標為“價值低”坐標;

劃分RFM客戶價值分類:

  • 根據RFM空間坐標模型,匹配對應R、F、M三個指標的坐標,把K均值聚類的125個類別客戶劃分為8個類別:重要價值客戶、重要發展客戶、重要保持客戶、重要挽留客戶、一般價值客戶、一般發展客戶、一般保持客戶、一般挽留客戶。

05 客戶價值排序

5.1、RFM指標分類客戶價值

輸出每一類客戶的評分集合 ,其中1<= i <=125,R,F,M分別代表R(近度)、F(頻度)、M(值度)的等級評分。對評分集合的RFM屬性進行規格化,規格化,其中按照映射公式把各個屬性均映射到[0,1]區間的結果。

RFM指標評分分類劃分的5*5*5 = 125類客戶進行價值排序:

  • 假如計算出RFM矩陣權重的權向量,那每一類客戶的綜合總得分等于:規格化的各指標值的加權平均值,每類客戶的總得分為
  • 通過總得分的大小可以對5*5*5 = 125類客戶進行優先級排序,指導運營支撐決策。

RFM指標分類劃分成的8類客戶(重要價值客戶、重要發展客戶、重要保持客戶、重要挽留客戶、一般價值客戶、一般發展客戶、一般保持客戶、一般挽留客戶)進行價值排序:

計算分類(RFM空間坐標劃分的8類客戶)客戶中歸屬類客戶(指標評分分類的5*5*5 = 125類客戶)規格化指標屬性的平均值;

8類客戶規格化后各個指標的平均值,其中1<= i <=8,分別代表每類客戶R(近度)、F(頻度)、M(值度)的規格化指標平均值。

 

比如:,其中1<= i <=n,n指的是對應空間類別中歸屬類別(指標評分分類的5*5*5 = 125類客戶)數,指的是對應空間類別中歸屬類別(指標評分分類的5*5*5 = 125類客戶)的規格化屬性R之和;

假如計算出RFM矩陣權重的權向量,那每一類客戶的綜合總得分等于:的各指標值的加權平均值,每類客戶的總得分為

通過總得分的大小可以對RFM坐標空間劃分的8類客戶進行優先級排序,指導運營支撐決策。

5.2、k-均值聚類客戶價值

把集合D中每一個元素(客戶)的RFM屬性進行規格化,是基于按照映射公式把各個屬性均映射到[0,1]區間的結果;

K-均值聚類法劃分的5*5*5 = 125類客戶進行價值排序:

  • 計算聚類中每類客戶被規格化后各個指標的平均值,其中1<= i <=125,分別代表每一個客戶R(近度)、F(頻度)、M(值度)的規格化指標平均值。比如:,其中1<= i <=n,n指的是每類中的客戶(設備)數,指的是每類中客戶的屬性R規格化之和;
  • 假如計算出RFM矩陣權重的權向量,那每一類客戶的綜合總得分等于:的各指標值的加權平均值,每類客戶的總得分為
  • 通過總得分的大小可以對k均值聚類的125類客戶進行優先級排序,指導運營支撐決策。

K-均值聚類法對按照RFM坐標空間劃分的8類客戶(重要價值客戶、重要發展客戶、重要保持客戶、重要挽留客戶、一般價值客戶、一般發展客戶、一般保持客戶、一般挽留客戶)進行價值排序:

  • 計算每類客戶被規格化后各個指標的平均值,其中1<= i <=8,分別代表每一個客戶R(近度)、F(頻度)、M(值度)的規格化指標平均值。
  • 假如計算出RFM矩陣權重的權向量,那每一類客戶的綜合總得分等于:的各指標值的加權平均值,每類客戶的總得分為 。
  • 通過總得分的大小可以對RFM坐標空間劃分的8類客戶進行優先級排序,指導運營支撐決策。

06 可視化分析

進行客戶價值分類的過程中,需要能支持從不同維度來通過RFM模型對客戶進行分類,針對同類別的客戶采取不同的運營策略,數據驅動決策,幫助企業解決客戶運營問題。其中最近消費以及消費頻次是最有力的預測指標,可以預測客戶下一次購買時間點以及行為。

取近兩年還有訂購記錄的客戶設定為一個集合統計客戶樣本數據,RFM模型對客戶分層的可視化看板如圖2所示:

圖2 RFM模型對客戶分析看板

  • 按維度篩選;
  • RFM客戶價值分類:是整個RFM模型的核心,直觀顯示了8個客戶群的人數以及占比。
  • k均值聚類+RFM模型+AHP分層,對統計的樣本客戶進行分類;
  • 8個客戶群:重要價值客戶、重要發展客戶、重要保持客戶、重要挽留客戶、一般價值客戶、一般發展客戶、一般保持客戶、一般挽留客戶;
  • RFM分類-交易金額:在RFM指標中,往往我們更關心8個客戶群中各個客戶群的價值貢獻,交易金額可以更直觀的看出哪個客戶群的價值較大。
  • 顯示不同客戶群的總M-消費金額以及消費金額占比;
  • FM消費能力 – R消費流失:通過MF分布來直觀看到客戶的消費能力分布,進而通過R的大小來判斷客戶的忠誠度,定位價值高忠誠度高的客戶群體。
  • 橫坐標為M-值度(消費金額),縱坐標為F-頻度(消費頻率),點大小為R-近度(最近一次消費時間間隔);
  • RF消費異動 – M消費額度:通過RF分布來直觀看到客戶的消費異動情況,進而通過M的大小來判斷哪些客戶更有必要挽回。
  • 橫坐標為F-頻度(消費頻率),縱坐標為R-近度(最近一次消費時間間隔),點大小為M-值度(消費金額);
  • RM消費潛能 – F消費頻率:通過MR分布來直觀看到客戶的消費潛能情況,進而通過F的大小來挖掘更有價值的客戶。
  • 橫坐標為M-值度(消費金額),縱坐標為R-近度(最近一次消費時間間隔),點大小為F-頻度(消費頻率);
  • K均值客戶聚類:通過列表展示K-均值聚類法劃分的125類客戶的RFM聚類信息,更直觀的通過價值得分對所有聚類的客戶群進行價值大小排序;
  • 列表展示信息:客戶類別序列號、客戶級別、近度(天)、頻度(次)、值度(USD)、客戶數量、客戶數量占比、交易金額、交易金額占比、價值得分;
  • 客戶交易明細:顯示各客戶類型下的客戶交易明細。

本文由 @慎獨 原創發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 這么復雜是怕我看懂是吧,這個至少需要數學專業碩士水平才能看懂吧

    來自浙江 回復
  2. 先收藏一下

    來自上海 回復