【A/B測試算法大揭秘】第五篇:少了它,版本決策將毫無意義

1 評論 15264 瀏覽 51 收藏 6 分鐘

從一切的根基中心極限定理,到如何根據數據分析解讀最終選出真正意義上的最優版本,相信大家能夠對A/B測試的原理有一個大概的了解。

關于如何避免假設檢驗中第I類錯誤,我們引入了P-value和置信區間的概念。而想要降低假設檢驗中第II類錯誤的出現概率β(Beta),就需要了解今天文章中講解的另一個檢驗工具——統計功效。

什么是統計功效

1

在假設檢驗中,第II類錯誤的定義是:當原假設為假時沒有拒絕原假設。也就是說,當兩個版本確實有比較顯著的差異時,我們并沒有判斷這兩個版本有區別。

統計學中,將第II類錯誤的概率命名為 β(Beta),統計功效Power就是我們沒有犯第II類錯誤的概率(1-β)。換句話說,我們設計了兩個版本,需要對比兩個版本帶來的效應差異,如果假定的效應差異的確存在,在給定的置信水平α下,我們有多大的概率能得到統計顯著性的結果,或者說我們有多大概率能發現這個差異。

為了提高原假設為假時我們做出正確判斷(拒絕原假設)的概率,使結果更加可靠,統計功效的值越大越好。一般來說,當統計功效取到80%~95%時,結果就是比較可信的了。

統計功效的意義

由統計功效的計算公式可知,統計功效的值與樣本量、方差、效應大小以及顯著性標準α相互關聯。換句話說,只要得知上述公式中的幾個數據值,就可以根據公式推導,計算出想要探求的數值。

例如:通過給定的統計功效值,就可以推算出A/B測試中每個版本樣本用戶數的最小值。之后,將計算出的最小樣本數與版本的實際用戶數量進行對比。若版本用戶數超過最小樣本數,則說明統計功效足夠,可以得出試驗的最后結論。

究竟哪個版本才是值得發布的

上一章中,我們講述了如何判斷試驗版本的結果是否是統計顯著的。然而,只有當試驗版本的結果兼備統計顯著和效果顯著兩個特征時,才說明這個試驗的結束時機已經成熟,該版本是真正值得發布的。因此,我們需要引入一個“最小重要變化”的概念來幫助我們判斷和決策。

用白話翻譯一下,就好比:你前期先投入了50塊錢置辦設備,每個包子定價5元。所以,只有在賣掉了10個包子(收入50元)之后,你策劃并實施的這個事件才正式進入了盈利階段。道理很簡單,其實就是回本了嘛!那么在整個事件里,“收入50元”就是這個事件中的“最小重要變化”,也就是一個最小的可接受效果標準。

同理推論到企業的A/B測試,就更需要考慮相關的成本問題(有時甚至遠不止于此)。因此,只有檢測到的效果差異在“最小重要變化”的標準之上,我們才認為這個版本是有實際價值的。這個標準通常由指標的具體意義和我們的優化需求來確定,例如1%或者5%。

下面我們來看一個具體案例:

2
這是5個不同版本的試驗數據,在最小重要變化為5%的情況下,我們可以應用這個標準來對試驗數據做進一步的判斷:

3

首先,觀察每個版本的置信區間,發現Case4和Case5的置信區間不閉合,所以方案不可用,而Case1-3的置信區間上下限均為正,說明這三個版本相比原始版本來說都有提升。再引入最小重要變化5%,可以看到只有Case1的區間下限高于標準值。因此,我們判斷,在最小重要變化為5%的情況下,只有Case1是實際效果最佳的版本。

關于置信區間的系列講解到今天就算告一段落了,從一切的根基中心極限定理,到如何根據數據分析解讀最終選出真正意義上的最優版本,相信大家能夠對A/B測試的原理有一個大概的了解。

 

作者:吆喝科技,微信公眾號(appadhoc)。

本文由 @吆喝科技 原創發布于人人都是產品經理。未經許可,禁止轉載。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 測試用例

    來自河北 回復