產品經理該如何做A/B 測試?

2 評論 7429 瀏覽 71 收藏 12 分鐘

A/B測試的實質是對照試驗,即通過對幾個不同的版本進行對比,從而選出最優(yōu)版本。本文作者分享了A/B 測試的具體操作步驟,對過程中需要注意的問題進行了總結。

在產品運營過程中會存在許多次迭代優(yōu)化,大到某項功能的增加或刪除、小到某個點擊按鈕的顏色,都有可能成為驅動關鍵轉化指標提升的因素,那么就會存在一個問題,作為公司內部的產品、運營等團隊,要如何才能保證每一次的方案都能取得更好的效果呢?

很簡單,試一試就知道了。A/B 測試指的是根據試驗的目標,把測試群體分為2組(或更多的組,取決于備選方案的數量),每組采用不同方案試行,最后對統(tǒng)計結果進行分析,選取效果最好的方案。

一、確定測試目標,提出方案

做任何事之前,都需要想清楚是為什么而做,因為這很大程度上決定了其可行性,以及之后的發(fā)力方向、時程、耗費的人力物力等。

1. 收集需求

需求可能來自真實業(yè)務中的方方面面,但都保持跟整個公司的發(fā)展大方向一致(也就是北極星指標),這些需求的解決能夠從某個角度推動總體業(yè)務前進,(例如優(yōu)化注冊頁面文案可以提高新用戶注冊轉化率,增大產品拉新規(guī)模),包括但不限于以下來源:

(1)來自內部(團隊):

  • 產品部門
  • 運營部門
  • 市場部門
  • 研發(fā)部門

(2)來自外部(用戶):

  • 問卷調查
  • 用戶調研

(3)來自外部(行業(yè)):

  • 行業(yè)分析
  • 競品分析

用戶增長團隊(or數據分析師們)收集到這些需求,會做出一些可行性評估,并篩選出合理需求進入試驗庫。

2. 進行優(yōu)先級排序

當產生了眾多的需求之后,該如何安排先處理哪些呢?對于試驗順序的處理不能毫無章法,拎出哪個做哪個,針對此問題,可在公司內部制定一個優(yōu)先級排序系統(tǒng),將所有待處理的需求進行科學有序地排列。

例如ICE排序系統(tǒng)(Impact=影響力,Confidence=成功率,Effort=開發(fā)成本),其核心思路是根據不同試驗執(zhí)行的綜合性價比來決定先后順序,“性”指的是可以收獲到的價值(包括影響力及成功率),“價”指的是需要為此付出的人力物力及財力。預期影響力越大,成功概率越高,開發(fā)成本越小,優(yōu)先級就越高,反之則越低。

相信在評估上述的重要參考因素之后,可以比較清晰地指導不同的試驗順序,找到應盡快實施的試驗。

假定排在試驗庫內的頂端,有這么一個情景,某產品運營過程中發(fā)現“新用戶觀看時長”是個可以優(yōu)化的方向,初一看可能覺得無從下手,但對其進行拆解后,可得出:

新用戶觀看時長=新用戶數*人均觀看時長=注冊頁面瀏覽人數*注冊轉化率*人均觀看時長

與歷史數據進行比對后,發(fā)現問題出在注冊轉化率較低,因此想要通過A/B 測試的方法來提高注冊轉化率。

3. 提出假設

確定要做的試驗之后,需要對試驗的結果進行假設,通常由團隊內部綜合多方面因素給出。例如,想要通過優(yōu)化宣傳文案的方式,突出產品注冊的價值,提高注冊頁面轉化率。

針對上述目標,團隊可能通過頭腦風暴等方式,給出以下幾種文案:

  1. “一節(jié)課搞懂A/B測試,快來加入我們吧?!?/li>
  2. “國內首個A/B測試課程,權威中的權威?!?/li>
  3. “手把手教你A/B測試:從規(guī)劃到落地?!?/li>

預測上述某種經過優(yōu)化的文案能夠幫助激發(fā)用戶的注冊欲望,從而提高注冊轉化率。針對這些假設,可以進一步討論出較為適宜的1-2種作為試驗材料。

4. 確定方案

在完成上述兩個步驟后,已經界定了試驗的核心,接下來需要對整個試驗的流程進行系統(tǒng)化的規(guī)劃,形成標準、清晰、可執(zhí)行的文檔??筛鶕?w1h的思路較為完整地描述整個測試:

二、更新開發(fā)版本及測試

1. 更新開發(fā)版本

完整的測試方案敲定后,便需要將方案落地,將優(yōu)化內容植入新開發(fā)的版本中。

2. 進行測試

對新開發(fā)的版本進行上線前的測試,主要包括以下幾個方面:

  • 基本質量保證,即流程是否順暢
  • 測試A/B分流采樣是否生效,即用戶能否根據預設采樣比例進入不同版本
  • 測試各個版本的指標埋點能否正確上報
  • 觀察除修改點之外,其他變量是否保持完全一致,即是否有準確控制無關變量

三、方案上線,運行試驗

測試通過的方案可以正式上線,實現分流之后不同分組用戶體驗到的不同方案。上線最初一兩天可先少量測試(一般在10%以下,避免有bug,保證不會有太多用戶受到影響),待上線效果趨于穩(wěn)定后再擴展到全部的樣本。

四、統(tǒng)計并分析結果

在試驗上線后,需要對實驗數據進行監(jiān)控。當試驗結束后,負責的分析團隊需要對收集的結果進行分析,A/B測試主要使用的是假設檢驗的方法,假設檢驗是指通過樣本統(tǒng)計量得出的差異做出一般性結論,從而判斷總體參數之間是否存在差異的一種推論過程。

假設檢驗的主要步驟有:

  1. 根據問題要求,提出假設。假設檢驗中存在兩種假設,第一種根據已知理論與事實作出的希望證明的假設叫做研究假設,通常稱為H1。在統(tǒng)計學中不能對H1的真實性直接檢驗,而是利用反證法的思想,建立與之對立的假設(稱為虛無假設,H0),通過否定H0來接受H1。例如“新版本的注冊轉化率比原先高30%”就是H1,“新版本注冊轉化率與原先無顯著區(qū)別”為H0,需要通過拒絕H0來證明H1。
  2. 選擇適當的檢驗統(tǒng)計量。例如均值、方差等。一般情況下指的是對于均值的檢驗。
  3. 規(guī)定顯著性水平α。在假設檢驗中有可能會犯錯誤。如果虛無假設正確卻把它當成錯誤的加以拒絕,犯這類錯誤的概率用α表示(也叫取偽錯誤),α就是假設檢驗中的顯著性水平。顯著性水平確定以后,拒絕域也隨之而定,而且對于不同的假設形式,拒絕域是不同的。顯著性水平的大小應根據實際情況而定,如果對結果要求比較精確,則顯著性水平α應小一些。一般情況下,根據小概率事件原理,將概率不超過0.05的事件當做“小概率事件”,也就是α取0.05。
  4. 計算檢驗統(tǒng)計量的值。根據樣本資料計算出檢驗統(tǒng)計量的具體值。
  5. 作出決策。根據顯著性水平α和相應統(tǒng)計量的分布,查相應的統(tǒng)計表,查找接受域和拒絕域的臨界值,將計算出的統(tǒng)計值與臨界值相比較,若超出了接受域,則作出結論可以拒絕原假設,判斷試驗方案有效改變某項指標。

五、得出結論,加以應用

根據上述對于結果的分析,可以得出新的方案是否成功提高某項指標的結論。
若達到統(tǒng)計學上差異顯著的標準,那么就可以將新方案逐漸覆蓋到整體,實現100%發(fā)布,完成之前的目標。并且,如果試驗效果不錯的話,說明此優(yōu)化方向具有潛力,后續(xù)可以設置進一步的試驗去探索,不斷地對此進行優(yōu)化迭代,從而最大化效果的提升。

那么,如果沒有達到預期的目標呢?那么就需要總結發(fā)現原因,如果是假設方向有誤,那么繼續(xù)探索其他假設,如果是試驗過程中存在操作有誤,那么應盡快發(fā)現具體問題點,將其改進并繼續(xù)推進,直至得出正確結論。

具體流程如下圖:

六、回歸整體業(yè)務

最后也是最重要的是,試驗從整體業(yè)務中來,也需要回到整體業(yè)務中去,我們所得出的并不應該僅僅是“某項指標提高”這樣一個具體的數字,而要將其與宏觀的增長指標聯(lián)系起來。回到之前的指標模型:

新用戶觀看時長=新用戶數*人均觀看時長=注冊頁面瀏覽人數*注冊轉化率*人均觀看時長

假設之前的數據為:

360000分鐘=10000人*30%*120分鐘

并且假設其他因素保持不變,注冊轉化率提高30%

468000分鐘=10000人*39%*120分鐘

可以看到,僅僅對注冊頁的文案進行了優(yōu)化,就將新用戶觀看時長提高了108000分鐘,這就非常清晰地讓人看到A/B測試的價值了。

總的來看,A/B測試說簡單也不簡單,大到整個測試戰(zhàn)略的制定,小到具體每一個測試項目的執(zhí)行,都需要各部門間協(xié)作,通過大量的數據采集、分析,不斷試驗不斷推翻,才能不斷地向更優(yōu)解接近。這也正是A/B 測試的意義與價值所在。

 

本文由 @ywmw_ 原創(chuàng)發(fā)布于人人都是產品經理,未經作者許可,禁止轉載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 請問統(tǒng)計結果(數據清洗到可視化過程)是產品經理負責還是開發(fā)負責。

    來自四川 回復
  2. 給了我很多啟發(fā),感謝分享。

    來自北京 回復