數據分析:結構比率歸因、量化異常分析
編輯導語:數據分析對于用戶調研來說十分重要,本篇文章作者分享了有關結構比率歸因、量化異常分析的內容,并且列舉兩個具體案例進行分析,一起來學習一下吧。
我們來看下面一個場景,表一是2020和2021年不同用戶群體的用戶數,以及對應群體的付費率。
表二是2020年和2021年總體的付費率下降了2.8%。想問一下,我們通過表一如何分析原因?
付費率= 付費人數/總人數
表一:
表二:
一、付費率下降原因定位
1. 結構占比變化
由上表一我們可以算出來各個用戶群體,在2020年和2021年結構的占比,以及占比的變化:
表三:
2. 比率——付費率變化
由上表一我們又可以算出來各個用戶群體,在2020年和2021年付費率的變化:
表四:
3. 整體付費率變化的貢獻值
通過表三和表四,我們可以得到各個群體比率變動和結構變動對于整體付費率變化的影響大小,見表五:
表五:
總的付費率變動=0.07%+(-2.79%)+(-0.11%)+(-0.15%)+0.39%+(-0.19%)=-2.8%。
與上面表二的結果是一樣的。
4. 結果解讀
通過表五得出來的結果,我們可以看到總體付費率的變化是由于活躍用戶付費率的下降,導致了整體付費率的下降。
那么,我們是如何得到表五的數據呢?
二、分析——結構比率問題
接下來是一段長文推導,如有不適,忍著看完,進行思考。
假設各群體的占比和付費率如下:
表六:
每一部分(群體)變動的計算:
比率(付費率)變動影響:公式1。
結構占比變動的影響:公式2。
1. 如何理解
我們是希望把總的比率(付費率)變動分解為不同維度(用戶群體)比率變動和結構占比變動,這樣我們就能夠方便的看出:
- 到底是這個群體比率上升下降的原因,還是說這個群體的占比上升下降導致整個比率的上升下降;
- 看整個比率變動的主要原因和次要原因,對其進行量化。
說完目標,接下來看看具體公式的理解。
2. 比率變動的影響
主要是量化活躍用戶比率(付費率)的變化對于整體比率(付費率)變化的影響,我們使用AB1′-AB1,這是活躍用戶比率變化的絕對量。
但是我們考慮的是對總體比率變化的影響,所以需要乘以活躍用戶占比,但是活躍用戶占比是在變化的,這里我們就直接乘以(W1′-W1)/2,使用均值來穩定占比的變化。
這樣我們就計算出來了活躍用戶比率變化對于整體比率變化的影響了。
3. 結構占比變動的影響
公式1僅計算出了活躍用戶比率變化對于整體比率變化的影響,我們還需要考慮活躍用戶結構的變化對于整體比率變化的影響,所以就有了公式2。
公式2的理解跟公式1一樣,考慮活躍用戶結構變化的絕對量,然后乘以穩定的比率。
單個群體(活躍用戶)變動計算:公式3。
這樣我們就能得到單個群體變動對于總體變動量:
同理所有的變動就是各個群體變動相加:公式4。
總體變動:
假設總體用戶為a,則總體付費比率AB可表示為:公式5。
即:公式6。
因此:公式7。
所以,總的比率(付費率)理論上就是等于各個群體的比率變動影響和結構變動影響相加。
接下來就是一個分渠道購買率定位問題的案例,以及對于辛普森簡單理解。
三、案例1——分渠道購買率-定位三板斧
表七:
1. 算出每個群體比率和結構差值
表八:
2. 計算每一個渠道的貢獻
表九:
3. 單獨計算總付費率
表十:
總結:
我們從表九可以看到:主要是由于安卓端占比的上升,以及IOS占比上升導致總體的付率從43.5%上升到58.6%
四、案例2——辛普森悖論的理解
什么是辛普森悖論:
當人們嘗試探究兩種變量(比如新生錄取率與性別)是否具有相關性的時候,會分別對之進行分組研究。然而,在分組比較中都占優勢的一方,在總評中有時反而是失勢的一方。
例如表十一,總體的付費率是在上升,但是安卓和IOS的付費率都是在下降。
表十一:
從表十一我們很快得到表十二的數據。
表十二:
結論:從表十二,我們可以看出主要是由于安卓的占比上升導致整個付費率的上升。
寫在最后:感謝怡然同學的合作和支持。
本文由 @數有道 原創發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于CC0協議。
如果是均值類指標,這個公式適用么
您好,如果按照您這樣計算有一點沒有解釋通,想請教下:
從原理上講,應該是率低的占比提升會拉低整體(負向影響),占比下降會拉高整體(正向影響),而按照您這個公式,只要占比提升就會是正向影響,占比下降就是負向影響,似乎無法解釋了
我的理解是——影響因素分解成了:結構影響+比率(付費率)影響,不能看單一的一方面,需要把這兩方面的影響加起來,就是這個分組對整體的影響方向以及程度。
假設按照你說的,率低的占比提升了,那說明它在結構影響方面是正的,如果比率影響是負的,兩者相加,那它對整體的影響可能仍然是負的,同理若比率影響也是正的,那毋庸置疑對整體付費率也是正向影響。
當然這也是我自己看下來的理解,如果有別的想法也歡迎討論~
挺好的,可以用來實踐
你好,一開始說的那個案例,表三缺失了,而且那個新用戶注冊數為4,新用戶付費率是14%,這個數據好像對不上???
一個是新用戶注冊數,一個是新用戶付費率是兩個概念來的