關于增長AB測試,這5件事你應該知道

4 評論 7447 瀏覽 57 收藏 11 分鐘

編輯導讀:AB測試是產(chǎn)品、運營同學經(jīng)常用到的工具,它能夠比較新版本與當前版本用戶體驗的變化,收集數(shù)據(jù)并分析。根據(jù)數(shù)據(jù)分析結果衡量更改對業(yè)務的影響,可以確保每個更改都產(chǎn)生正向結果,從而消除創(chuàng)新和迭代風險,讓業(yè)務快速增長。本文作者將圍繞增長AB測試,分享要注意的五件事情。

增長工作中,AB測試可以說是被奉為圭臬的方法,也是產(chǎn)品/運營同學們信手拈來的工具。工作對AB測試接觸使用較多,但也有了更多的經(jīng)驗教訓以及學習思考。

這次分享5個實際使用AB測試中的關鍵事項,一起來交流避坑。

一、樣本規(guī)模預估

AB測試中,對照組和實驗組的樣本量越大,實驗時間越長,實驗結果就更加準確。

這可以說是常識性的判斷,但是實際上這是由統(tǒng)計顯著性決定的:

統(tǒng)計顯著性是指對照組和實驗組的數(shù)據(jù)差異有多大可能是真實存在的,而不是隨機誤差導致的。

所以周期更久、樣本量更多的AB測試更有說服力,但是實際工作中,產(chǎn)品或活動的迭代速度快,這就要求AB測試的實驗周期不能過長,所以在AB測試前對樣本規(guī)模進行預估至關重要。

計算樣本量的方法有些復雜,對于丟棄高數(shù)、概率論多年的打工人來說,還是建議求助于數(shù)據(jù)分析同學。

在這個樣本數(shù)量計算器中,輸入原始版本轉化率(已知),再輸入優(yōu)化版本的轉化率(預期),同時設置統(tǒng)計顯著性水平,一般達到95%以上即是顯著差異。這樣就可以快速得到一個樣本數(shù)量結果。

如上圖,如果原始版轉化率是10%,優(yōu)化的新版本轉化率預期是12%,在進行AB測試時,每組用戶樣本數(shù)據(jù)達到2900以上時,才能說明這個新版本轉化率的是顯著差異,是可信的。

在計算完預估的樣本數(shù)量之后,還有一個重要工作就是預估實驗周期。

如果可信的AB測試每組實驗需要2900個樣本量,但是我們的產(chǎn)品每天只有200的日活用戶,分成兩組后每組只有100用戶,則2900/100=29天,意味著AB測試實驗需要29天后才可達到需要的樣本量。

這個時候就要評估這個周期是否是可接受的,如果周期過長,則說明這個AB測試在現(xiàn)階段進行是不合適的。

二、測試結果分析

樣本規(guī)模預估是在AB測試前進行,因為優(yōu)化版本的轉化數(shù)據(jù)是預估的,所以樣本量和實驗周期都是預估數(shù)據(jù),幫助我們在AB測試前對測試樣本和周期有個初步判斷。

在實際的AB測試實驗結束后,我們還需要對實際的結果數(shù)據(jù)進行統(tǒng)計顯著性檢驗,保證對照組和實驗組的數(shù)據(jù)差異是顯著可信的。

在這個工具中,我們輸入AB兩組的實際數(shù)據(jù),就可以清楚看到兩者轉化率的差異,以及試驗結果的統(tǒng)計顯著性結果。

以上圖為例,雖然B組的轉化率比A組高,但是因為樣本量較小,試驗結果沒有達到顯著的統(tǒng)計學差異,所以我們不能得出B組優(yōu)化比A組更好的結論。

這個時候有兩種選擇,一是繼續(xù)實驗,積累更多的實驗數(shù)據(jù)后進行分析,二是放棄實驗,得出此次優(yōu)化沒有明顯提升的結論。

也不是說繼續(xù)實驗一定會得出顯著性差異,如果樣本量繼續(xù)增大,但是轉化率差異減小,就意味著需要更多的樣本量,這種情況往往說明兩個版本的差異確實不大,但是也需要根據(jù)實際情況判斷是否需要停止AB測試。

三、反向相關指標

在進行AB測試時,一般情況下會有一個核心指標來判斷實驗結果,同時會有一些支持或輔助指標來更好地監(jiān)測實驗和分析結果。但是不能忽略的是一些反向指標。

什么是反向指標?反向指標就是AB測試實驗中可能會負面影響的指標。

舉一個簡單的例子:

AB實驗為了提升新用戶注冊率,于是在新版本中過度包裝了新人權益,雖然提升了新用戶注冊率,但是因為用戶預期管理不足,新用戶注冊后發(fā)現(xiàn)實際的新人權益大打折扣,對產(chǎn)品產(chǎn)生不滿的情緒,導致新用戶首單轉化率降低。

新用戶首單轉化率在這個實驗中就是一個值得關注的反向指標。

AB測試為了實驗的速度和效果,往往會關注少部分關鍵流程節(jié)點和核心指標,但是忽略反向指標,卻有得不償失的風險。

四、辛普森悖論

辛普森悖論是指:某些條件下的兩組數(shù)據(jù),分別討論時都會滿足某種性質,可是一旦合并考慮,卻可能導致相反的結論。這個理論由英國統(tǒng)計學家辛普森提出。

還是舉一個簡單的例子,在對新用戶首購流程的AB測試實驗中:

首日,A組轉化率是10%(10/100),B組轉化率是12%(120/1000);

次日,A組轉化率是15%(150/1000),B組轉化率是16%(160/1000);

兩日分別看,B組的轉化率都高于A組。

但是合計起來看,A組轉化率是14.5%(160/1100),B組轉化率14%(280/2000);

這樣合計數(shù)據(jù)A組的轉化率卻高于B組。所以在分析時就無法直接判斷實驗結果。

辛普森悖論的存在,對AB測試提出了更多的要求,用戶樣本的合理選擇、樣本量的監(jiān)控調(diào)整、全面的數(shù)據(jù)分析等。

例子中導致分日和合計數(shù)據(jù)結論相反的原因就是首日A組和B組樣本量差別較大。

五、分層實驗

對于大體量的產(chǎn)品和完善的增長團隊,會存在多個AB測試同時進行的情況,這就需要考慮分層實驗。

分層實驗是指,將多個實驗建立起分層結構,每一層實驗使用過的流量,下一層的實驗可以繼續(xù)用。有些不是很好理解,繼續(xù)舉個例子:

以電商產(chǎn)品的新人流程為例,新用戶下載打開APP后,首頁有新人禮包的入口,點擊進入后可以查看新人權益和優(yōu)惠商品,新用戶查看新人商品后完成下單,這就是新用戶轉化的基本路徑。

為了優(yōu)化現(xiàn)有的新人轉化流程,從新人禮包的首頁展示、落地頁展示、新人商品詳情頁同時進行了多個AB實驗。

在首頁展示上,同時進行了按鈕顏色和引導文案的AB實驗,為了保證變量的唯一性,按鈕顏色實驗中,包括文案等其他內(nèi)容完全是一致的,文案實驗中,包括按鈕顏色等其他內(nèi)容也是完全一致的。這就需要把100%的流量分成2部分,假設為各50%,即50%用戶進行按鈕顏色實驗(25%看到紅色按鈕,25%看到黃色按鈕,兩組文案一致),其余50%用戶進行文案實驗(25%看到“領取權益”文案,25%看到“1元下單”文案,兩組按鈕顏色一致)。

進入到新人頁面之后,對權益展示的方式又進行了AB實驗,從第一層(首頁)來的流量(100%)都進行權益展示的AB實驗,來自第一層100%的流量剛進行了按鈕顏色和文案的實驗,為了避免上層實驗對權益展示實驗的影響,從上層來的流量要隨機分配到權益展示實驗的AB兩組,這就是分層實驗中的流量正交,均勻分配上層流量。

分層實驗在實際工作中不多見,但是成熟的產(chǎn)品必須要考慮這種情況的存在,才能更高效地更科學的同時進行多個AB實驗。各團隊間也要保持溝通,避免單打獨斗進行實驗,卻不知被對方的實驗影響了結果,得出不恰當?shù)慕Y論。

以上,就是關于AB測試的5個階段性分享,后面的工作中,AB測試還會繼續(xù)做,新的問題還會出現(xiàn)。

 

本文由 @吳依舊 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 有收獲,已關注,謝謝。AB測試還會繼續(xù)做,新的問題還會出現(xiàn),期待作者后續(xù)的分享~

    來自河北 回復
  2. 請問文中提到的AB測試工具(樣本量計算等)在哪可以找到?

    回復
    1. 本來放文章中了,審核時給刪掉了。
      樣本預估工具:https://www.eyeofcloud.com/124.html
      結果驗證工具:https://www.eyeofcloud.com/126.html

      來自北京 回復
    2. 謝謝

      來自江蘇 回復