科普 | 細(xì)節(jié)決定A/B測(cè)試的成?。河械拙€的樣本量
本文作者將結(jié)合自身經(jīng)驗(yàn)以及相關(guān)案例,與你分享在A/B測(cè)試中的關(guān)鍵因素——樣本量大小。enjoy~
在Testin A/B 測(cè)試的運(yùn)作中,我們?cè)?jīng)遇到過這種情況(這是一道案例分析題):
某位不愿透露姓名的客戶A先生為他的產(chǎn)品迭代準(zhǔn)備了為期半個(gè)月的A/B測(cè)試。他希望新的版本能比原版多帶來5個(gè)百分點(diǎn)的轉(zhuǎn)化率。經(jīng)過半個(gè)月的等待,有1000名用戶進(jìn)入測(cè)試,并使得新版轉(zhuǎn)化率成功達(dá)到了目標(biāo)。但是令他疑惑的是,對(duì)于這個(gè)實(shí)驗(yàn)結(jié)果的p-value和power檢驗(yàn)均不達(dá)標(biāo)。也就是說,這個(gè)結(jié)果并不可信。
兩大檢測(cè)指標(biāo)
A先生深感困惑。他不知道該怎么辦:是因?yàn)樾Ч此七_(dá)到了于是停止實(shí)驗(yàn)?還是因?yàn)闄z驗(yàn)不達(dá)標(biāo)而做其他的補(bǔ)救措施?
針對(duì)A先生的問題,我們進(jìn)行了一系列分析,最后確定了癥結(jié)所在:樣本量不足。A先生的實(shí)驗(yàn)實(shí)際上需要至少1500人,但是目前只有1000人進(jìn)入實(shí)驗(yàn),也就是說樣本量的缺口達(dá)到了500。若想解決這個(gè)問題,只要繼續(xù)讓流量進(jìn)入實(shí)驗(yàn),達(dá)到最低需要的樣本量,即可。
看了這個(gè)案例,你可能會(huì)產(chǎn)生這些疑惑:
- 會(huì)出現(xiàn)這些情況居然是因?yàn)?strong>樣本量給的不足?這與實(shí)驗(yàn)有什么聯(lián)系?
- 如果是的話,做一個(gè)測(cè)試,要給出多少樣本量才是足夠的?
- 而且,為什么不能讓所用用戶參與到測(cè)試中來,那樣一定能保證有足夠的數(shù)據(jù)可以收集不是嗎?
——出現(xiàn)這種困惑的客戶并不少見,我也是在進(jìn)一步接觸A/B測(cè)試以后才明白這其中的關(guān)鍵所在:樣本量大小。
有底線的樣本量
在上一篇《細(xì)節(jié)決定A/B測(cè)試的成敗:不可忽視的抽樣》中,我們搞明白了A/B測(cè)試和抽樣之間的關(guān)系,引用一下上一篇中對(duì)于抽樣的敘述:
“在A/B測(cè)試中,我們無法知道所有用戶的行為(如點(diǎn)擊率)的真正均值……必須通過抽樣,抽取一部分具有代表性的用戶來測(cè)試不同版本的效果(例如均值),從而基于抽樣數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析……”
那么,這“一部分具有代表性的用戶”具體數(shù)量應(yīng)該是多少呢?是不是隨便劃拉一下數(shù)據(jù)條,拉個(gè)多少多少人來測(cè)試就行了呢?
并不。因?yàn)椋绻?strong>樣本的容量太小,會(huì)導(dǎo)致參數(shù)估計(jì)值的大小和符號(hào)違反經(jīng)濟(jì)理論和實(shí)際經(jīng)驗(yàn),使結(jié)果不可信。
舉個(gè)栗子,陸仁甲的頭兒要確定全國十幾億人喜歡吃啥主食,然后陸仁甲劃拉了幾百號(hào)人來一問,哦這些人大部分喜歡吃米飯,然后陸仁甲就說全國人民偏好吃大米——???一想就知道不對(duì)是吧。
所以說確定你的實(shí)驗(yàn)對(duì)于樣本量大小的需求是很重要的。然鵝,我在網(wǎng)上那些A/B測(cè)試入門教程里少有看到對(duì)于樣本量估算的介紹,大量的A/B測(cè)試科普文章仍舊停留在介紹A/B測(cè)試怎么怎么厲害怎么怎么牛逼,要怎么怎么做怎么怎么注意(是的沒錯(cuò)之前我們也是這樣的~233)。
但就是不告訴你到底應(yīng)該劃拉多少人來做。
別慌。這就告訴你怎么搞這個(gè)樣本量。
給樣本量“秀下限”
為了搞清楚這個(gè)樣本量的估算是怎么弄起來的,我跑去找我們Testin技術(shù)部的大佬尋求了一下技術(shù)支援:
大佬:“哦就這事兒,其實(shí)吧!要確定樣本量這事兒老簡(jiǎn)單了!”
喏,給你我們搞A/B測(cè)試的時(shí)候用的方法:
我們用UV來計(jì)算實(shí)驗(yàn)需要樣本量和剩余時(shí)間。由于t分布需要一個(gè)自由度的參數(shù),而自由度的計(jì)算需要樣本量n。這里樣本量需要計(jì)算,所以不能用t分布,而用z分布。如果將自由度設(shè)置成無窮大,那么累計(jì)概率與z分布一樣,此處用正態(tài)分布進(jìn)行實(shí)驗(yàn)。
在原假設(shè)為真的條件下,假設(shè)原始版本和版本一的流量之比為1:k,則樣本量之比為n:m=1:k
設(shè)x是指最小提升率,比如你原來的轉(zhuǎn)化率是50%,你定一個(gè)最小提升是10%,那么你最后的得到的轉(zhuǎn)化率就是55%;另外這個(gè)原始版本轉(zhuǎn)化率也要設(shè)置好
然后整體實(shí)驗(yàn)樣本量為n+m=(1+k)*n,這時(shí)候我們?cè)賻脒@條公式
(說著大佬拿出了一條長(zhǎng)長(zhǎng)的寫滿根號(hào)xyzγδαβ的公式……)
——不不打住打住啊我不是來上高等數(shù)學(xué)的啊別一言不合就建模啊饒了我吧
技術(shù)部的大佬太牛逼了高數(shù)學(xué)渣表示實(shí)在不懂啊……
不過這并沒有關(guān)系。你想啊,假設(shè)有一個(gè)黑箱,我們只要知道怎么搞進(jìn)去一些數(shù)字,然后黑箱給我們搞出來一些答案就行了對(duì)吧!只要會(huì)用就行了對(duì)吧?。ú挪皇且?yàn)閷W(xué)渣看不懂在找借口呢哼)
所以技術(shù)部的大佬們?cè)缇蜏?zhǔn)備好了一款樣本量計(jì)算器,專門為我們Testin的客戶估計(jì)每次實(shí)驗(yàn)的樣本量:
(其實(shí)這種計(jì)算器并不少見,你也可以直接在網(wǎng)上搜索并使用樣本量計(jì)算器來估算,只是由于學(xué)術(shù)界對(duì)于樣本量估計(jì)的爭(zhēng)論也是各有各的說法,所以其他計(jì)算器使用的公式與我們的可能存在些許差別)
重點(diǎn)是,當(dāng)你進(jìn)行A/B測(cè)試的時(shí)候,要先估算好這個(gè)樣本量的數(shù)值,然后再拉取不少于這個(gè)數(shù)量的用戶來進(jìn)行測(cè)試就行了。
沒上限的樣本量……?
經(jīng)過上面兩大塊的敘述,想必你也意識(shí)到了:樣本量越大,實(shí)驗(yàn)結(jié)果的可靠性就越有把握。
但是這就意味著樣本量越大越好嗎?
(就像現(xiàn)在的手機(jī),屏幕真是越來越大了,但是大就好嗎?那你咋不端著個(gè)平板電腦打電話呢……)
誠然,樣本容量太小,會(huì)使抽樣誤差太大,使調(diào)查結(jié)果與實(shí)際情況相差很大,影響調(diào)查的效果,因此做實(shí)驗(yàn)的時(shí)候,都建議加大流量投入,也因此不建議月活用戶數(shù)量太少的客戶做A/B測(cè)試。但樣本容量太大,勢(shì)必會(huì)造成人力、物力和財(cái)力的很大浪費(fèi)。這點(diǎn)大家都懂,成本嘛。
但是可能你又有疑問了,我做A/B測(cè)試的時(shí)候只是在線上收集數(shù)據(jù)罷了,又不用承擔(dān)太大的成本,那我加大測(cè)試流量有什么好擔(dān)心的呢?
我們?cè)倥e個(gè)夸張的栗子:陸仁乙有款產(chǎn)品,月活用戶幾百萬。他要進(jìn)行產(chǎn)品迭代,搞了個(gè)A/B測(cè)試,A版是原版,B版是新版1,C是新版2(是的沒錯(cuò)誰告訴你A/B測(cè)試只能有AB兩版的啦,同時(shí)測(cè)試幾個(gè)版本是可以的哦)為了追求更精確的結(jié)果,他給每個(gè)版本都分配了25萬用戶。經(jīng)過了一周的測(cè)試,陸仁乙開心地發(fā)現(xiàn)C版擁有超過原版數(shù)個(gè)百分點(diǎn)的轉(zhuǎn)化能力,同時(shí)喜聞樂見地發(fā)現(xiàn)B版的25萬用戶因?yàn)锽版本體驗(yàn)非常不好,有數(shù)萬用戶刪除了應(yīng)用……
——看到這里你或許明白我要說什么了:不要忘了我們搞測(cè)試的初衷是什么:找到最好的版本,規(guī)避可能帶來的損失。讓如此多的用戶參與,本就可能帶來不可估量的損失了。
畢竟,改革,是有失敗的風(fēng)險(xiǎn)的,當(dāng)你為了追求結(jié)果的準(zhǔn)確性而盲目提高樣本量的時(shí)候,你所要承擔(dān)的風(fēng)險(xiǎn)成本(指由于風(fēng)險(xiǎn)的存在和風(fēng)險(xiǎn)事故發(fā)生后人們所必須支出的費(fèi)用和減少的預(yù)期經(jīng)濟(jì)利益)已經(jīng)在不知不覺間上升了。
現(xiàn)實(shí)社會(huì)不是象牙塔中的理論世界,很多東西是要考慮實(shí)際的。因此,如何選擇合適的樣本容量,才能既滿足模型估計(jì)的需要,又減輕收集數(shù)據(jù)的成本,是一個(gè)重要的實(shí)際問題。
作者:一顆糯米C,公眾號(hào):云測(cè)數(shù)據(jù)(testindata),數(shù)據(jù)驅(qū)動(dòng)增長(zhǎng)的堅(jiān)定實(shí)行者
本文由 @一顆糯米C 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
- 目前還沒評(píng)論,等你發(fā)揮!