你的A/B測(cè)試結(jié)果有多靠譜?

5 評(píng)論 9393 瀏覽 32 收藏 9 分鐘

原文再續(xù),書(shū)接上回,Z檢驗(yàn)醒木拍案,AB組高下立判,但究竟是霄壤之別,還是聊勝一籌,且聽(tīng)本回分解~

之前在《你的A/B測(cè)試結(jié)果真的靠譜嗎?》一文中,我們分享了如何用假設(shè)檢驗(yàn)的方法,來(lái)確定兩組之間的差異是否顯著,但兩組之間的真實(shí)差異有多大,是否和數(shù)字表面上的差距一樣呢?

為此,我們需要了解另一個(gè)知識(shí)點(diǎn)—置信區(qū)間。

知識(shí)點(diǎn):置信區(qū)間

在回顧知識(shí)點(diǎn)的時(shí)候,大家還是不要慌張,讓我們循序漸進(jìn),用講人話的方式來(lái)重新認(rèn)識(shí)課本上這些晦澀難懂的公式定理。

首先還是先看一下百度百科的定義:

置信區(qū)間是指由樣本統(tǒng)計(jì)量所構(gòu)造的總體參數(shù)的估計(jì)區(qū)間。

在統(tǒng)計(jì)學(xué)中,一個(gè)概率樣本的置信區(qū)間(Confidence interval)是對(duì)這個(gè)樣本的某個(gè)總體參數(shù)的區(qū)間估計(jì)。置信區(qū)間展現(xiàn)的是這個(gè)參數(shù)的真實(shí)值有一定概率落在測(cè)量結(jié)果的周?chē)某潭?,其給出的是被測(cè)量參數(shù)的測(cè)量值的可信程度,即前面所要求的“一個(gè)概率”。

上一文中,我們了解了AB測(cè)試的原理,其實(shí)就是用隨機(jī)樣本的表現(xiàn),來(lái)預(yù)估總體的表現(xiàn),而樣本的結(jié)果可能會(huì)存在偏差,并不一定真實(shí)反映總體的情況。那么,樣本對(duì)總體的估計(jì)會(huì)存在一個(gè)合理的區(qū)間范圍,這個(gè)區(qū)間范圍其實(shí)就是置信區(qū)間。

那怎么計(jì)算出這個(gè)置信區(qū)間呢?

以上一次的這個(gè)正態(tài)分布圖為例:中間最高的部分對(duì)應(yīng)的是分布的均值,我們?cè)谧龉烙?jì)時(shí),當(dāng)然要以均值為基準(zhǔn),然后估一個(gè)上下浮動(dòng)的范圍。

如果為了保守起見(jiàn),我們可以把上下浮動(dòng)的范圍放大一些,這樣總體均值落在這一區(qū)間的概率也就更大一些。

我們也可以把浮動(dòng)范圍縮小一點(diǎn),那么總體均值落在這個(gè)區(qū)間的概率也就相對(duì)小一點(diǎn)。

目前,我們一般使用的是95%置信度,也就是說(shuō)要保證總體均值有95%的概率落在這一區(qū)間內(nèi),這個(gè)區(qū)間范圍也就是95%置信區(qū)間。

通俗一點(diǎn)來(lái)講,比如:你之前的績(jī)效系數(shù)基本都在1左右,偶爾也有幾次拿到了1.5,還有幾次表現(xiàn)不好,只拿到了0.5??斓侥杲K了,還有幾個(gè)月的績(jī)效系數(shù)沒(méi)有出,你的同事讓你估計(jì)一下,你的全年的匯總績(jī)效是多少,那么你會(huì)怎么估算呢?

首先,你到目前為止,績(jī)效系數(shù)均值是1,在估算全年總績(jī)效時(shí),你可以大致判斷,應(yīng)該也是在1附近,所以你大可以直接告訴Ta,你的全年績(jī)效差不多應(yīng)該是1。

這個(gè)時(shí)候,你的同事說(shuō):如果你估錯(cuò)了,就要請(qǐng)整個(gè)組的人吃飯。

于是,你慌了,連忙改口說(shuō)你預(yù)估全年績(jī)效應(yīng)該在0.5到1.5之間。

當(dāng)然,這樣會(huì)顯得非常無(wú)趣,因?yàn)槟愎懒艘粋€(gè)最值框定的范圍,或者說(shuō)是100%置信區(qū)間。

如果是熟悉置信區(qū)間的朋友,這個(gè)時(shí)候可以迅速掐指一算,計(jì)算出一個(gè)95%置信區(qū)間,然后報(bào)出你估計(jì)的范圍是0.7到1.3之間。

那么,你猜中的概率就是95%,也就是說(shuō)你只有5%的概率會(huì)請(qǐng)大家吃飯,不失趣味的同時(shí)透露著心機(jī)妙算。

下面就為大家展示置信區(qū)間的計(jì)算公式:

其中,

  • μ:樣本均值
  • Zα/2:95%置信度下的固定值為1.96
  • S2:樣本方差
  • n:樣本量

了解完置信區(qū)間后,我們知道了如何用樣本去估計(jì)總體,但是做AB測(cè)試的核心是比較,因此我們更需要的是去估計(jì)兩個(gè)總體之間的差值。

對(duì)于總體均值差的區(qū)間估計(jì)方法和上面類(lèi)似,我們先上公式:

其中:

  • μ1:樣本組1的均值
  • μ2:樣本組2的均值
  • Zα/2:95%置信度下的固定值為1.96
  • S12:樣本組1的方差
  • S22:樣本組2的方差
  • n:樣本組1的樣本量
  • m:樣本組2的樣本量

這個(gè)公式和之前提到的Z檢驗(yàn)公式是不是非常相似,接下來(lái)我們來(lái)看一看Z檢驗(yàn)和置信區(qū)間的關(guān)系。

應(yīng)用題

最后,我們回到AB測(cè)試的結(jié)果上,接著上一篇文章中的例子,如果我們要驗(yàn)證兩種不同活動(dòng)方案的效果差異,首先隨機(jī)抽取用戶分成AB兩組,其中A組人數(shù)為n1,B組人數(shù)為n2。

然后,對(duì)兩組用戶施加不同的活動(dòng)干預(yù),最后得到兩組用戶的轉(zhuǎn)化率分別是p1和p2,那么對(duì)應(yīng)的方差就應(yīng)該是:

S12=p1*(1-p1)=p1q1

S22=p2*(1-p2)=p2q2

最終,置信區(qū)間的公式就變成了:

我們以實(shí)際的數(shù)據(jù)來(lái)看一看,假設(shè)我們有兩個(gè)實(shí)驗(yàn)組,分別施以不同的活動(dòng)策略,兩組的相關(guān)指標(biāo)數(shù)據(jù)如下:

通過(guò)上述的公式,我們可以計(jì)算得到,組2相比于組1轉(zhuǎn)化率差值的95%置信區(qū)間為:(-1%~11%)

同時(shí),Z值為1.66<1.96,Z檢驗(yàn)的結(jié)果不顯著,可見(jiàn),雖然組2的轉(zhuǎn)化率看上去比組1高,但差異并不顯著,兩組方案之間的效果差異可能存在很大的波動(dòng),組1的方案效果可能會(huì)高于組2。

我們現(xiàn)在為組2補(bǔ)了40個(gè)用戶,發(fā)現(xiàn)組2的轉(zhuǎn)化率仍為10%,按照組2的樣本量為140個(gè),轉(zhuǎn)化率10%來(lái)重新計(jì)算95%置信區(qū)間:(0%~10%)

Z值約等于1.96,Z檢驗(yàn)的結(jié)果顯著,說(shuō)明兩種活動(dòng)方案的轉(zhuǎn)化率有明顯差異,組2方案的轉(zhuǎn)化率有95%的概率比組1高。

現(xiàn)在,我們知道了為什么當(dāng)Z值>1.96時(shí),證明差異在95%的置信度上顯著了,Z檢驗(yàn)其實(shí)就是比較Z值和這里的Zα/2。

當(dāng)Z值足夠大時(shí),兩個(gè)總體均值差的下限就會(huì)遠(yuǎn)大于0,說(shuō)明兩個(gè)總體具有明顯的差異。

至此,各位看官不妨試一試,看看你的AB測(cè)試結(jié)果真的靠譜嗎?

 

作者:Mr.墨嘰,公眾號(hào):墨嘰說(shuō)數(shù)據(jù)產(chǎn)品

本文由 @Mr.墨嘰 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 為啥用的是z檢驗(yàn)呀~~這種不應(yīng)該是t檢驗(yàn)嗎

    來(lái)自廣東 回復(fù)
    1. t檢驗(yàn)主要用于樣本量較小的情況,AB測(cè)試一般是較大樣本的實(shí)驗(yàn),抽樣分布近似正態(tài)分布,所以適用于z檢驗(yàn)。

      來(lái)自北京 回復(fù)
    2. 嗯嗯,要注明下用戶量嚴(yán)謹(jǐn)些

      來(lái)自廣東 回復(fù)
    3. 上一篇文章里有哈 《你的A/B測(cè)試結(jié)果真的靠譜嗎?》

      來(lái)自北京 回復(fù)
    4. 小樣本也不是t檢驗(yàn)啊,小樣本的話不能用中心極限定理,總體分布就不是正態(tài)分布了

      回復(fù)