那些年,我們?cè)贏/B測(cè)試中踩過(guò)這5個(gè)坑

2 評(píng)論 13269 瀏覽 81 收藏 11 分鐘

如果這些坑真實(shí)反映了你當(dāng)前的狀況,就請(qǐng)盡快修正測(cè)試方案,跳出陷阱才能得到更為科學(xué)可信的結(jié)果。

隨著Growth Hacking在中國(guó)的傳播和興起,作為增長(zhǎng)黑客必殺技之一的A/B測(cè)試,也被越來(lái)越多的國(guó)內(nèi)企業(yè)所接受和重視。然而,A/B測(cè)試看似簡(jiǎn)單,實(shí)則隱藏著許多溝溝坎坎,稍不注意就會(huì)導(dǎo)致試驗(yàn)結(jié)果偏離科學(xué)軌道。那么今天,我們就為大家一一細(xì)數(shù)那些年我們?cè)贏/B測(cè)試中踩過(guò)的坑。

PS,文中包含大量真實(shí)案例,若能對(duì)號(hào)入座,請(qǐng)盡快修正試驗(yàn)方案。

1. 輪流展現(xiàn)不同版本

對(duì)于廣告主而言,找到最有價(jià)值的廣告投放渠道,提升著陸頁(yè)(landing page)的轉(zhuǎn)化率,從而對(duì)整個(gè)廣告投放流程進(jìn)行優(yōu)化,無(wú)疑是最核心的優(yōu)化目標(biāo)。采用A/B測(cè)試對(duì)不同版本的廣告和著陸頁(yè)進(jìn)行測(cè)試,是一種很有效的優(yōu)化手段。也就是將不同版本的廣告和著陸頁(yè)同時(shí)投放,根據(jù)它們各自的數(shù)據(jù)表現(xiàn),就可以判定哪一版更好。

而目前最常見的做法是,將不同版本的廣告進(jìn)行輪流展示,比如谷歌Adwords系統(tǒng)中的測(cè)試功能,就是采用的這種方法。這種所謂的A/B測(cè)試(請(qǐng)注意,這種測(cè)試方法其實(shí)并不能被稱為真正意義上的A/B測(cè)試),就讓企業(yè)掉入了第一個(gè)陷阱。

舉個(gè)不太恰當(dāng)?shù)睦?,如此的測(cè)試方法就好比在電視上投放廣告,分別選取了工作日的下午三點(diǎn)中和晚間黃金時(shí)段進(jìn)行測(cè)試收集。由于輪流展示時(shí)的測(cè)試環(huán)境不盡相同,所面向的受眾群體更是千差萬(wàn)別,因此最終試驗(yàn)結(jié)束后的數(shù)據(jù)結(jié)果必然會(huì)存在一定偏差,也就更不具有說(shuō)服性了。

正確的做法是:不同版本需要并行(同時(shí))上線,并且盡可能的降低所有版本的測(cè)試環(huán)境差別,才能得到精準(zhǔn)的數(shù)據(jù)結(jié)果,從而做出可信的決策。

2. 選擇不同應(yīng)用市場(chǎng)投放

在介紹這個(gè)誤區(qū)之前,必須先解釋一下什么是辛普森悖論。辛普森悖論是英國(guó)統(tǒng)計(jì)學(xué)家 E.H. 辛普森(E.H. Simpson)于1951年提出的悖論,即在某個(gè)條件下的兩組數(shù)據(jù),在分別討論時(shí)都會(huì)滿足某種性質(zhì),可是一旦合并起來(lái)進(jìn)行考慮,卻可能導(dǎo)致相反的結(jié)論。

什么樣的情況會(huì)造成辛普森悖論呢?一個(gè)很典型的應(yīng)用場(chǎng)景:為了驗(yàn)證新版本對(duì)于用戶使用真實(shí)影響,很多企業(yè)會(huì)選擇將不同版本打包,分別投放到不同的應(yīng)用市場(chǎng)。當(dāng)發(fā)現(xiàn)其中某版本的數(shù)據(jù)表現(xiàn)的最好,就決定將該版本全量上線。殊不知,當(dāng)將全部應(yīng)用市場(chǎng)整合起來(lái)進(jìn)行統(tǒng)計(jì),卻發(fā)現(xiàn)這個(gè)版本的表現(xiàn)差強(qiáng)人意,對(duì)核心數(shù)據(jù)產(chǎn)生了不利影響。

這里有一個(gè)真實(shí)的案例,某產(chǎn)品計(jì)劃在安卓客戶端上線一個(gè)新功能,于是先將不同版本以小流量投放在多個(gè)應(yīng)用市場(chǎng)(例如豌豆莢、91助手等)。一段時(shí)間之后,測(cè)試結(jié)果都指向了其中一個(gè)版本。但其實(shí),這些不同應(yīng)用市場(chǎng)的用戶并不具有全用戶代表性,所以如果盲目將試驗(yàn)選出的版本直接推送給全部用戶,就很容易因?yàn)樾疗丈U摱霈F(xiàn)完全相反的結(jié)果。

因此,避免這一大陷阱的正確做法是:將流量進(jìn)行科學(xué)地分割,保證試驗(yàn)組和對(duì)照組的用戶特征一致,且都具有全局代表性。

3. 試驗(yàn)結(jié)果不好就一竿子打死

上一個(gè)誤區(qū)講的是「以偏概全」,那么接下來(lái)我們要介紹的這個(gè)誤區(qū)則是「以全概偏」,也叫做區(qū)群謬誤。

在這個(gè)概念中,認(rèn)為群體中的所有個(gè)體都有群體的性質(zhì)。但如果僅基于群體的統(tǒng)計(jì)數(shù)據(jù),就對(duì)其下屬的個(gè)體性質(zhì)作出推論,那么得出的結(jié)論往往是不準(zhǔn)確的。換句話說(shuō),當(dāng)我們做了一次A/B測(cè)試后,發(fā)現(xiàn)試驗(yàn)版本的數(shù)據(jù)結(jié)果并不理想,于是就認(rèn)定所有的地區(qū)或渠道的效果都是負(fù)面的,那么我們就陷入了區(qū)群謬誤的陷阱。

作為國(guó)際短租平臺(tái),搜索是Airbnb生態(tài)系統(tǒng)中很基礎(chǔ)的一個(gè)組成部分。Airbnb曾經(jīng)做過(guò)一個(gè)關(guān)于搜索頁(yè)優(yōu)化的A/B測(cè)試,新的版本更加強(qiáng)調(diào)了列出的圖片,以及房屋所在位置(如下圖所示)。

1

在等待了足夠長(zhǎng)的時(shí)間之后,試驗(yàn)結(jié)果顯示新老版本的整體數(shù)據(jù)相差無(wú)幾,似乎這次優(yōu)化沒(méi)有很好的效果。如果此時(shí),Airbnb直接根據(jù)整體的數(shù)據(jù)表現(xiàn)放棄了這次優(yōu)化,那么這個(gè)花費(fèi)了很多精力設(shè)計(jì)的項(xiàng)目就會(huì)前功盡棄。

然而,Airbnb并沒(méi)有借此放棄。相反,經(jīng)過(guò)仔細(xì)研究,他們發(fā)現(xiàn)除了IE瀏覽器之外,新版在其他不同瀏覽器中的表現(xiàn)都很不錯(cuò)。當(dāng)意識(shí)到新的設(shè)計(jì)制約了使用老版本IE的操作點(diǎn)擊后(而這個(gè)明顯為全局的結(jié)果造成了很消極的影響),Airbnb當(dāng)即對(duì)其進(jìn)行了修補(bǔ)。至此以后,IE恢復(fù)了和其他瀏覽器一樣的展示結(jié)果,試驗(yàn)的整體數(shù)據(jù)增長(zhǎng)了2%以上。

2

通過(guò)Airbnb的例子,我們能學(xué)到正確的做法是:在整體效果不太好的時(shí)候,不要一竿子打死,而需要從多個(gè)維度細(xì)分觀察個(gè)體的情況,以避免區(qū)群謬誤帶來(lái)的決策偏差。

4. “好奇害死貓”

一個(gè)好的產(chǎn)品必須要能夠激發(fā)用戶的好奇心,并在用戶的持續(xù)使用中對(duì)產(chǎn)品逐漸產(chǎn)生粘性,而不至于流失。但與此同時(shí),我們需要時(shí)刻警惕好奇心理所帶來(lái)的數(shù)據(jù)偏差。

從心理學(xué)的角度來(lái)說(shuō),好奇心是個(gè)體遇到新奇事物或處在新的外界條件下所產(chǎn)生的注意、操作、提問(wèn)的心理傾向。應(yīng)用到A/B測(cè)試的場(chǎng)景中,當(dāng)一個(gè)產(chǎn)品推出了新的功能或主頁(yè),用戶在早期出于好奇心理,發(fā)生了過(guò)多的試探性點(diǎn)擊,從而推動(dòng)了相關(guān)數(shù)據(jù)的增長(zhǎng)。如果這時(shí)就以為用戶更青睞于優(yōu)化后的版本,直接全量上線,就很有可能忽視了用戶的真實(shí)喜好。

所以,正確的做法是:適當(dāng)延長(zhǎng)試驗(yàn)的運(yùn)行時(shí)間,觀察試驗(yàn)數(shù)據(jù)的走勢(shì)是否持久穩(wěn)定,消除用戶的好奇心給結(jié)果帶來(lái)的偏差。

5. 反復(fù)檢驗(yàn),區(qū)間一收斂就喊停

在反復(fù)檢驗(yàn)中,我們提到了p-value的概念,它可以作為區(qū)間收斂結(jié)果顯著的一個(gè)參考。通常情況下,p=0.05是常用的顯著值。于是,我們會(huì)自然而然的認(rèn)為當(dāng)p達(dá)到這個(gè)值時(shí),就可以得到顯著的結(jié)果。不過(guò)事實(shí)真是這樣嗎?可以看看下面這個(gè)案例。

Airbnb還做過(guò)另一個(gè)試驗(yàn),他們將搜索頁(yè)上的價(jià)格過(guò)濾器的上限從300調(diào)大到了1000,想知道預(yù)訂數(shù)是否會(huì)增加。他們監(jiān)測(cè)了價(jià)格過(guò)濾器試驗(yàn)隨時(shí)間變化的結(jié)果,發(fā)現(xiàn)p-value曲線在7天之后就達(dá)到了0.05,并且這時(shí)候的結(jié)論是試驗(yàn)版本在預(yù)訂方面起到了很顯著的效果,然而當(dāng)他們繼續(xù)運(yùn)行試驗(yàn)的時(shí)候,卻發(fā)現(xiàn)這個(gè)試驗(yàn)開始趨向于中立,最后得到的結(jié)果是兩個(gè)版本差別不大。

為什么不應(yīng)該在p-value達(dá)到0.05時(shí)就停止試驗(yàn)?zāi)兀緼irbnb團(tuán)隊(duì)認(rèn)為,用戶預(yù)訂需要花很長(zhǎng)的時(shí)間,所以早期的轉(zhuǎn)化在試驗(yàn)最開始時(shí)會(huì)有不太恰當(dāng)?shù)挠绊憽K麄兘o出的建議是,為了避免統(tǒng)計(jì)學(xué)上的錯(cuò)誤,最好的實(shí)踐方法就是基于樣本的總量計(jì)算所需最小效果,并在開始試驗(yàn)之前就想好你要運(yùn)行多久。

試驗(yàn)給出的p-value值是基于認(rèn)為你設(shè)計(jì)的試驗(yàn)是已知樣本和效應(yīng)大小的,所以單純使用p-value作為停止試驗(yàn)的準(zhǔn)則是不太正確的。以及,如果你持續(xù)的監(jiān)控試驗(yàn)的發(fā)展和p-value,就比較容易看到真實(shí)的效果。

以上,就是在做A/B測(cè)試時(shí)比較容易遇到的坑。還是文章開頭說(shuō)過(guò)的那句話,如果剛才說(shuō)到的那些坑真實(shí)反映了你當(dāng)前的狀況,就請(qǐng)盡快修正測(cè)試方案,跳出陷阱才能得到更為科學(xué)可信的結(jié)果。

 

作者:吆喝科技,微信公眾號(hào)(appadhoc)。

本文由 @吆喝科技 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. “以及,如果你持續(xù)的監(jiān)控試驗(yàn)的發(fā)展和p-value,就比較容易看到真實(shí)的效果?!?/p>

    請(qǐng)問(wèn)這個(gè)持續(xù)周期又該如何確定呢?

    來(lái)自廣東 回復(fù)
  2. 請(qǐng)問(wèn)p-value曲線利用什么工具查看?

    來(lái)自廣東 回復(fù)