A/B測試算法大揭秘第四篇:置信區(qū)間究竟是怎么來的?

2 評(píng)論 32528 瀏覽 48 收藏 5 分鐘

當(dāng)你的試驗(yàn)已經(jīng)跑了一段時(shí)間之后,需要通過分析數(shù)據(jù)來看不同版本的行為數(shù)據(jù)表現(xiàn),從而決策出最優(yōu)版本。那么如何才能在已有數(shù)據(jù)基礎(chǔ)上,進(jìn)行科學(xué)可信的統(tǒng)計(jì)推斷呢?我們將采用置信區(qū)間這個(gè)工具。它是與P-value相關(guān)的一個(gè)概念,但比P-value給出的信息更多。所以這一章,我們就將詳細(xì)介紹置信區(qū)間的概念、計(jì)算方法以及它在A/B測試中的意義。

置信區(qū)間的概念

置信區(qū)間(Confidence Interval)是用來對(duì)一個(gè)概率樣本的總體參數(shù)進(jìn)行區(qū)間估計(jì)的樣本均值范圍,它展現(xiàn)了這個(gè)均值范圍包含總體參數(shù)的概率,這個(gè)概率稱為置信水平。

置信水平代表了估計(jì)的可靠度,一般而言,我們采用 95% 的置信水平進(jìn)行區(qū)間估計(jì)。

置信區(qū)間的計(jì)算方法

根據(jù)統(tǒng)計(jì)學(xué)的中心極限定理,樣本均值的抽樣分布呈正態(tài)分布。

由之前介紹的t檢驗(yàn)大樣本檢驗(yàn)公式計(jì)算得出Z值,再根據(jù)兩個(gè)總體的均值、標(biāo)準(zhǔn)差和樣本大小,利用以下公式即可求出兩個(gè)總體均值差的95%置信區(qū)間。

123

置信區(qū)間在A/B測試中的意義

置信區(qū)間的不同表現(xiàn),可用作判斷試驗(yàn)結(jié)果顯著與否的標(biāo)準(zhǔn):在試驗(yàn)運(yùn)行一段時(shí)間之后(一般來說是1-2周),如果置信區(qū)間的上下限同為正,說明試驗(yàn)結(jié)果是統(tǒng)計(jì)顯著的,并且試驗(yàn)版本優(yōu)于對(duì)照版本;如果同為負(fù),試驗(yàn)結(jié)果也是統(tǒng)計(jì)顯著的,且對(duì)照版本優(yōu)于試驗(yàn)版本;如果置信區(qū)間為一正一負(fù),則說明版本間差異不大。

舉個(gè)例子,當(dāng)兩個(gè)不同版本都以7%的小流量運(yùn)行時(shí),A版本的用戶總數(shù)(樣本大?。?3771,均值為23.01,標(biāo)準(zhǔn)差為53.21;B版本的用戶總數(shù)(樣本大?。?4190,均值為22.11,標(biāo)準(zhǔn)差為50.21。

我們可以計(jì)算出這兩個(gè)均值比較得到的變化百分值為-3.9%,但這只是根據(jù)兩個(gè)點(diǎn)估計(jì)計(jì)算出的新的點(diǎn)估計(jì),是有誤差的,所以我們就必須找到一個(gè)概率范圍,來準(zhǔn)確描述結(jié)果。

計(jì)算出Z值為2.28,再根據(jù)置信區(qū)間的計(jì)算公式,我們可以得出結(jié)果為-1.678,-0.112,即這個(gè)區(qū)間有95%的可能性包含兩個(gè)總體均值之差。為了更直觀,我們把這個(gè)總體均值差的置信區(qū)間轉(zhuǎn)換為相比A版本均值變化的百分比置信區(qū)間,即-7.3%,-0.5%。這時(shí)候我們就可以評(píng)價(jià)試驗(yàn)的結(jié)果為:B版本不如A版本,并且有95%的可能性是差了0.5%到7.3%之間。

值得注意的是,置信區(qū)間同為正或負(fù),只能說明試驗(yàn)是統(tǒng)計(jì)顯著的(也就是試驗(yàn)版本和對(duì)照版本有差異),但是這個(gè)差異有可能是非常小的,在實(shí)際應(yīng)用中微不足道的。因此,只有兼?zhèn)浣y(tǒng)計(jì)顯著和效果顯著兩個(gè)特征的結(jié)果,才能說明該版本是可用,值得發(fā)布的。

至于如何判定結(jié)果是否是效果顯著,則需要結(jié)合我們?cè)谙乱徽轮薪榻B的統(tǒng)計(jì)功效來綜合考量了。

 

作者:吆喝科技,微信公眾號(hào)(appadhoc)。

本文由 @吆喝科技 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 如果置信區(qū)間的上下限同為正,說明試驗(yàn)結(jié)果是統(tǒng)計(jì)顯著的,并且試驗(yàn)版本優(yōu)于對(duì)照版本;如果同為負(fù),試驗(yàn)結(jié)果也是統(tǒng)計(jì)顯著的,且對(duì)照版本優(yōu)于試驗(yàn)版本;如果置信區(qū)間為一正一負(fù),則說明版本間差異不大

    為啥?

    來自廣東 回復(fù)
  2. 測試用例

    來自河北 回復(fù)