數據的比較分析(二):不同產品版本之間的差異
在“A/B測試”和“競品分析”中,我們如何判斷兩個版本的產品設計的差別?
上節《數據的比較分析(一):我們達到或者超過目標了嗎?》我們講述的是產品改版基于目標指標,我們距離還有多遠,從而制定改進的產品迭代的策略。
而這節講到不同版本之間的差異,主要用在“A/B測試”和“競品分析”中,我們需要判斷兩個版本的產品設計的差別,如轉化率、任務時長、排名;僅僅通過描述性的統計并宣稱一個設計的好壞是遠遠不夠的,這時候我們就會發現統計學的必要性。
一、我們從“組內比較”和“組間比較”說起
這里我們常常會涉及到的是“組內比較”和“組間比較”。
組內比較
一般來說是讓通一組人參加兩個不同版本的設計,這兩個版本可能是競品,可能是一個公司不同產品經理或者UI設計師設計出來的作品;這樣的試驗好處在于可以排除個體差異對測試結果的混淆。
在這類測試中你需要對用戶先接觸哪個產品做平衡處理,從而將學習效應的影響降到最低。
如果讓用戶先體驗A產品,無論結果是支持或者否定A產品,都可能存在由于順序造成的用戶偏差風險,這時候組內設計發揮的作用是,將檢測結果的差異歸因產品間有差異(而非個體的差異),且同樣的樣本可以檢測到更小的差異。
組間設計
組間設計比較的是不同的用戶使用不同的產品,不同的用戶和不同的設計都會帶來變化;所有我們必須檢驗均值間的差異是否比不同的用戶所帶來的差異更大。
這里要特別說明一下A/B測試,現在我們常用的AB測試一般來說都是測量的是轉化率這個指標,但是轉化率這個指標我覺得是一個綜合指標,一個轉化目標是受很多因素來影響的,例如例如轉化目標受產品的可用性、LITT模型等等。
而且在測試期間,為了保證不同版本的測試差異最小,需要的是同一時間、同一場景、同一用戶樣本,所有這這期間在最短的時間內達到需要的樣本容量的話,所受的影響因素會最小。
所以很多AB測試的產品都需要使用的產品在日活達到1000UV以上,這樣就能在最短的時間內,達到想要的樣本容量。
二、在比較分析時受影響的因素
(1)實驗的類型:首先要確定這是組內試驗還是組間試驗?
(2)樣本的大小:其次相對而言是大樣本還是小樣本?
(3)數量的類型:最后看數據的類型,是連續性數據還是離散型二分式數據?
三、連續型數據的對比
1. 組內比較——配對t檢驗
關于t值得計算方法:
我們得到檢驗統計量(t)值之后,為了確實是否差異顯著,需要在t表(t-table)中查p 值(p-value),也可以使用Excel公式=TDIST()來計算或者核算值。該計算方法無論大小樣本都適用。
關于差異的置信區間的計算方法:
配對t檢驗中的p值只用來告訴我們差異是否顯著,但是我們做比較的時候我們還想知道差異究竟有多大既常說的“效應量”;隨著樣本容量增大(至少100以上),檢測結果很容易出現統計顯著差異,而實際的效應量卻不顯著。
差異的置信區間有助于區分細微的(即便是統計顯著性的)差異和值得引起使用者注冊的差異。
計算差異分數的置信區間如下:
2. 組間比較——雙樣本t檢驗
組間比較的時候,不同用戶使用不同的產品;不同用戶和不同設計都會帶來變化。必須建議均值間的差異是否比不同用戶所帶來的差異更大。
關于t值得計算方法:
這屬于雙樣本t檢驗,得出的t值需要使用Excel公式=TDIST(t,自由度,樣本組數量),通過這個公式來得到p-value值,最后確定兩個樣本直接是否存在統計的顯著性。
關于差異的置信區間的計算方法:
在計算特定水平置信度和自由度下的臨界值時的計算方法是:
其中s表示的是分別兩個樣本的標準差,n表示的是兩個樣本的樣本量;如果手頭沒有計算工具,且方差又是同質性的時候,你可以通過樣本1的數量+樣本2的數量-2;如果方差的差異較大(比如兩個標準差比例大于2)時,可以采用保守快捷的方法,用較小的樣本量減去2。
四、離散型二分式數據的對比
一個二分式離散型變量只有兩個值,諸如是/否、已完成/為完成、已轉換/未轉化
1. 組內比較
連續性的組內檢驗是(配對t檢驗),消除用戶之間的差異,所以相比同等樣本量的組間設計,組內設計有更高的概率檢測到差異。
為了判斷兩組不同的完成率、轉化率或者任何二分變量之間是否存在顯著差異,對所有大小的樣本我們使用的是McNemar精準檢驗,通過計算p值來檢驗異序對樣本比例是否大于0.5(也稱為符號檢驗)。
McNemar精準檢驗:
總體來說我們有7對異序對,分布式單元格c和單元格b。
我們將上面表中的數據代入公式中得到:
單側檢驗的p值是這兩個比例的和,0.0078+0.0547=0.0625,因此雙側檢驗的概率是2倍(0.125)。
若是計算中間概率的話,中間概率等于觀測值精準概率的一般,加上小于觀測值得所有值得概率和。在上面的例子中,小于觀察值的所有值得概率就是零對異序對的概率,為0.0078。
還有McNemar卡方檢驗,和McNemar卡方檢驗的耶茨校正;但是不推薦使用,因為對于McNemar卡方檢驗來說,常常會低估了不同樣本容量的真實概率,同時該方法在對樣本容量分析效果不明確。而對于McNemar卡方檢驗的耶茨校正,該方法夸大了所有樣本容量的真實值,所有在這里就不一一闡述了。
配對差異的置信區間:
為了估算配對二元結果間可能的差異程度,我們以上公式是采用適當Wald校正置信區間,采用2*2表格進行試驗設置,該校正的方法是給每個格子中加上特定置信度下正態分布臨界值平方的1/8。在95%置信度下,等于給試驗總數N加入了兩個偽觀值。
2. 組間比較
N-1卡方檢驗:
卡方檢驗計算公式:
在計算出卡方檢驗的值之后可以用Excel公式CHIDIST(卡方檢驗的值,1),計算出p-value值;1代表的是雙側檢驗,0代表的是單側檢驗。
N-1卡方檢驗適用于小樣本檢驗,且期望單元格的次數要大于1使用,N-1是樣本的校正值。
N-1雙比例檢驗:
N-1雙比率檢驗樣本適用的法則是:每個樣本中至少有10個成功,10個失??;且期望單元格的次數要大于1時使用。我們使用一個正態(Z)表查找雙側的p值,或者用Excel公式=(1-NORMSDIST(Z)*2),計算出雙側的p-value值。
N-1卡方檢驗和N-1雙比率檢驗的對比:
- 計算在數值上是一致的。
- 相比卡方檢驗用順利完成或失敗的用戶量,雙比率檢驗用完成率或轉化率(用比例形式測量)的方式思考會更簡單。
- 我們采取更加熟悉和容易獲取的正態分布作為參考分布計算p值,且無需擔心自由度。
- 置信區間公式使用兩個比例的差異,在轉換中更加容易計算和理解
Fisher精準檢驗:
Fisher精準檢驗使用精準的概率來代替卡方分布和t分布中的估值,精準的計算方法更傾與保守,計算出的p值會比原來的更高一些,因此在兩組的差異更大的時候才能達到統計顯著。Fisher精準檢驗是在2*2表中邊緣和(m、n、r和s單元格中的值)固定不變的情況下,表內4個實際頻數變動時的所有可能組合的概率來計算p值。
適用條件:當有任意一個期望單元格次數小于1時。
配對差異的置信區間:
以下是校正后Wald置信區間,只不過在這里是用于檢驗兩個比例的差異,而不再是一個單獨的比例。
在計算校正計算比例的時候,把分子加上z臨界值得平方的四分之一,把分母加上z臨界值得平方的二分之一。置信度為95%時,雙邊檢驗臨界值為1.96。這樣做就好比每個樣本個增加兩個假冒的觀測對象——一個成功一個失敗
五、總結
上節和這節中我們講到了很多公式,但是作為一個數據產品經理或者數據分析師,看到數據分析的本質是為了發現問題和解決問題,其他任何方法,都是通往解決問題的一個途徑,如何選擇最合適的方法解決問題才是關鍵。
不滯于物,草木竹石均可為劍。
本文由 @平遙抒雪 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
是否可以舉些具體的例子