欧美日本免费一区二区三区,亚洲最新无码成av人,亚洲午夜无码久久久久

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

【A/B測試算法大揭秘】第五篇：少了它，版本決策將毫無意義

吆喝科技

2016-08-16

1 評論 15410 瀏覽 51 收藏

6 分鐘

從一切的根基中心極限定理，到如何根據數據分析解讀最終選出真正意義上的最優版本，相信大家能夠對A/B測試的原理有一個大概的了解。

關于如何避免假設檢驗中第I類錯誤，我們引入了P-value和置信區間的概念。而想要降低假設檢驗中第II類錯誤的出現概率β（Beta），就需要了解今天文章中講解的另一個檢驗工具——統計功效。

什么是統計功效

在假設檢驗中，第II類錯誤的定義是：當原假設為假時沒有拒絕原假設。也就是說，當兩個版本確實有比較顯著的差異時，我們并沒有判斷這兩個版本有區別。

統計學中，將第II類錯誤的概率命名為 β(Beta)，統計功效Power就是我們沒有犯第II類錯誤的概率（1-β）。換句話說，我們設計了兩個版本，需要對比兩個版本帶來的效應差異，如果假定的效應差異的確存在，在給定的置信水平α下，我們有多大的概率能得到統計顯著性的結果，或者說我們有多大概率能發現這個差異。

為了提高原假設為假時我們做出正確判斷（拒絕原假設）的概率，使結果更加可靠，統計功效的值越大越好。一般來說，當統計功效取到80%~95%時，結果就是比較可信的了。

統計功效的意義

由統計功效的計算公式可知，統計功效的值與樣本量、方差、效應大小以及顯著性標準α相互關聯。換句話說，只要得知上述公式中的幾個數據值，就可以根據公式推導，計算出想要探求的數值。

例如：通過給定的統計功效值，就可以推算出A/B測試中每個版本樣本用戶數的最小值。之后，將計算出的最小樣本數與版本的實際用戶數量進行對比。若版本用戶數超過最小樣本數，則說明統計功效足夠，可以得出試驗的最后結論。

究竟哪個版本才是值得發布的

上一章中，我們講述了如何判斷試驗版本的結果是否是統計顯著的。然而，只有當試驗版本的結果兼備統計顯著和效果顯著兩個特征時，才說明這個試驗的結束時機已經成熟，該版本是真正值得發布的。因此，我們需要引入一個“最小重要變化”的概念來幫助我們判斷和決策。

用白話翻譯一下，就好比：你前期先投入了50塊錢置辦設備，每個包子定價5元。所以，只有在賣掉了10個包子（收入50元）之后，你策劃并實施的這個事件才正式進入了盈利階段。道理很簡單，其實就是回本了嘛！那么在整個事件里，“收入50元”就是這個事件中的“最小重要變化”，也就是一個最小的可接受效果標準。

同理推論到企業的A/B測試，就更需要考慮相關的成本問題（有時甚至遠不止于此）。因此，只有檢測到的效果差異在“最小重要變化”的標準之上，我們才認為這個版本是有實際價值的。這個標準通常由指標的具體意義和我們的優化需求來確定，例如1%或者5%。

下面我們來看一個具體案例：

這是5個不同版本的試驗數據，在最小重要變化為5%的情況下，我們可以應用這個標準來對試驗數據做進一步的判斷：

首先，觀察每個版本的置信區間，發現Case4和Case5的置信區間不閉合，所以方案不可用，而Case1-3的置信區間上下限均為正，說明這三個版本相比原始版本來說都有提升。再引入最小重要變化5%，可以看到只有Case1的區間下限高于標準值。因此，我們判斷，在最小重要變化為5%的情況下，只有Case1是實際效果最佳的版本。

關于置信區間的系列講解到今天就算告一段落了，從一切的根基中心極限定理，到如何根據數據分析解讀最終選出真正意義上的最優版本，相信大家能夠對A/B測試的原理有一個大概的了解。

作者：吆喝科技，微信公眾號（appadhoc）。

本文由 @吆喝科技原創發布于人人都是產品經理。未經許可，禁止轉載。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App