如何利用A/B test科學驅動產品優化?(附簡易案例數值分析)

6 評論 15709 瀏覽 116 收藏 14 分鐘

本文源于A/B測試 by Google的學習總結,本文僅是對課程第一節內容的學習總結,希望大家可以一同學習并深入交流在實際工作中的A/B測試情況。

一、A/B 測試概述

A/B test概念:A/B測試是一種用于在線測試的常規方法,可用于測試新產品或新功能,需要設置兩組用戶,將其中一組設置為對照組,采用已有產品或功能,另一組采用新版產品或功能,通過對比分析上述用戶做出的不同響應數據,確定哪個版本更好。

A/B test 適用場景:通過大范圍的用戶數據觀察,如新功能界面中增加了內容,不同的外觀,不同的按鈕配色,都可以使用A/B測試,幫助產品持續優化。案例:google曾在用戶界面中運行了42不同藍色陰影,觀察用戶有什么反響。amazon做過測試,每個頁面增加100毫秒延遲,收入會降低1%,google也得出類似結果。

A/B test 局限性:A/B測試不適合做全新體驗的效果評估,因為全新的體驗存在兩個問題,比較基準是什么?數據對比需要多長時間才能看到效果?(面對低頻服務-如租房,很難通過A/B測試看出推薦對于人們的行為影響)。

A/B test 練習題(評論區寫下你的選項,回復給你正確答案):

1、在以下什么情況下你可以考慮A/B測試?

A:你想要知道你的電商網站是否完整,是否存在用戶想要購買但是平臺無法提供的商品

B:公司已經有了免費服務,但想要提供有其他功能的高級服務,需要客戶升級或付費

C:假設一個網站提供電影推薦服務,通過新的算法對可能的建議進行排序

D:假設你想要改變基礎架構的后臺,會影響到頁面加載速度和用戶看到的顯示結果

E:一個汽車銷售網站,考慮做出改變,想知道改變是否更可能再次訪問網站或者向他們的朋友推薦

F:假設一家公司想要更新他們的品牌形象,如主頁的logo,改版后對用戶行為產生哪些影響

G:假設你想改版移動應用首頁,想要調整信息架構,觀察對用戶行為產生哪些影響

當A/B測試不適用時,可以通過用戶操作日志檢查或觀察來分析,也可以通過隨機的試驗,進行前瞻性分析。也可以使用焦點小組,面對面溝通,問卷調查,用戶評價分析等方法獲得定性數據,補充A/B測試的定量測試結果。

實操案例設計:wap首頁改版,wap首頁作為導流落地頁,主要功能為引導用戶完成注冊。

二、A/B 測試度量選擇

A/B測試前一定要設計合理的測試度量指標,通過審核核心指標判斷不同測試版本的效果如何,如果需要測試首頁改變對于用戶注冊帶來的效果,可以使用獨立訪客點擊率作為測試首頁改變的度量值。

獨立訪客點擊率=獨立訪客點擊注冊按鈕數/獨立訪客登錄首頁數

實操案例設計:

  • 獨立訪客注冊按鈕點擊率=獨立訪客點擊注冊按鈕數/獨立訪客登錄著陸頁數
  • 獨立訪客注冊完成率=獨立訪客注冊完成數/獨立方可登錄著陸頁數

三、二項分布和置信區間

樣本數不同,則結果的置信度會收到影響,第一組實驗,獨立訪客點擊注冊按鈕數=100,獨立訪客登錄首頁數=1000,這注冊改版后的獨立訪客點擊率=100/1000=10%,那么在做一組實驗,如果獨立訪客點擊注冊按鈕數=150,是否異常?可以利用統計學知識進行測算測試結果是否可信。

數據中經常會有特定的一些分布,幫我們了解數據變化規律,如正態分布,T分布,卡方分布等。我們關于首頁點擊情況符合二項分布。

二項分布就是重復n次獨立的伯努利試驗。在每次試驗中只有兩種可能的結果,而且兩種結果發生與否互相對立,并且相互獨立,與其它各次試驗結果無關,事件發生與否的概率在每一次獨立試驗中都保持不變,則這一系列試驗總稱為n重伯努利實驗,當試驗次數為1時,二項分布服從0-1分布。–【源自百度百科】

二項分布需要滿足以下條件:兩種結果;實驗彼此獨立,不相互干擾;事件要遵循同一種分布。

平均概率:p=x/n

檢驗是否符合正態分布:n*p>5,n(1-p)>5

置信區間寬:m(誤差幅度)=z(置信度)*SE(標準差);SE=√ ̄(p(1-p)/n)

μ±1.96標準誤之間包含所有平均數的95%,

μ±2.58標準誤之間包含所有平均數的99%

四、統計顯著性分析

假設檢驗或推斷是統計學中的一個概念,以量化的方式,確定你的結果發生的概率。

首先我們需要一個零假設或者說基準,也就是對照組和實驗組之間的概率沒有區別,然后要考慮的是備擇假設。要想確保結果具有統計顯著性,那么需要計算結果是偶然出現的可能性。要計算這個概率,你需要先假設,如果實驗沒有效果結果會怎么樣,這就是所謂的零假設,記為Ho,我們還需要假設如果實驗有效,那結果會是怎樣,這稱為備擇假設,記為HA。

合并標準誤差(實驗中觀測差異是否具有統計顯著性)

Xcont,Xexp;Ncont,Nexp;

Pexp=Xcont/Ncont;Pcont=Xcont/Ncont

Ppool=(Xcont+Xexp)/(Ncont+Nexp)

SEpool=√ ̄(Ppool*(1-Ppool)*(1/Ncont+1/Nexp))

d=Pexp-Pcont

m=z*SEpool

H0:d=0,d~N(0,SEpool)

if d-1.96*SEpool>0 or d+1.96*SEpool<0,則可以拒絕零假設,認為差別具有統計顯著性

從商業角度來說,2%的點擊概率改變就具有實際顯著性。

不同的實驗觀測樣本數量,直接影響實驗的有效性,那么如何設計科學的A/B測試呢?可以考慮使用下方工具,根據輸入數值,自動計算合理的實驗組和對照組的觀察人數。

在線測算實驗人數工具

工具說明

Significance level α:顯著性水平是估計總體參數落在某一區間內,可能犯錯誤的概率,用α表示。顯著性是對差異的程度而言的,程度不同說明引起變動的原因也有不同:一類是條件差異,一類是隨機差異。它是在進行假設檢驗時事先確定一個可允許的作為判斷界限的小概率標準。

Statistical power 1?β:統計功效(statistical power )是指, 在假設檢驗中, 拒絕原假設后, 接受正確的替換假設的概率。我們知道,在假設檢驗中有α錯誤和β錯誤。α錯誤是棄真錯誤, β錯誤是取偽錯誤。取偽錯誤是指, 原假設為假,樣本觀測值沒有落在拒絕域中,從而接受原假設的概率,及在原假設為假的情況下接受原假設的概率。由此可知, 統計功效等于1-β。

首先要設計實驗,鑒于可以控制對照組和實驗組的網頁瀏覽量,我們必須要確定,為獲取統計顯著性的結果,最能獲取統計顯著性的結果,這稱為統計功效。功效與規模呈負相關,你想要探索的改變越小,或者是你想要的結果置信度越高你需要運行的實驗規模就越大,這就是對照組和實驗組需要更多的網頁瀏覽量,大家可以嘗試在計算器中修改數據,觀察實驗樣本數量,如修改最低可觀測效果,修改基準轉化率,修改統計功效,修改顯著性水平。

五、案例實操分享

5.1 實驗設計背景

案例背景概述:wap首頁改版,wap首頁作為導流落地頁,主要功能為引導用戶完成注冊。滿足二項分布

計算最小實驗樣本:利用上圖工具,我們將dmin定為2%,意思是新版本用戶轉化增加超過2%才有效,置信區間選擇95%,經過計算最小實驗樣本數為3623人。

5.2 實驗中需要用到的公式和評估標準

需要獲取信息:

對照組原首頁一定時間內獨立訪問用戶數:Ncont,點擊注冊按鈕的獨立用戶數:Xcont,最小顯著性:dmin,置信度區間:95%時z=1.68。

觀察組新版首頁一定時間內獨立訪問用戶數:Nexp,點擊注冊按鈕的獨立用戶數:Xexp。

計算合并標準誤差:

Ppool=(Xcont+Xexp)/(Ncont+Nexp)

SEpool=√ ̄(Ppool*(1-Ppool)*(1/Ncont+1/Nexp))

d=Pexp-Pcont

m=z*SEpool

(d-m,d+m)

通過上訴公式套用,可以計算出d和m值,那么在什么情況下可以判定優化后是否具有實際顯著性,全面推廣改版呢?

如下圖所示,當d>0時,d-m>dim我們說更新具有顯著效果

當d<0時,d+m<-dim,我們可以得出結論,實驗版本失敗。

其他情況要么得出實驗不具有統計顯著性,要么需要進一步調整優化實驗。

5.3 數值案例分析

經測算我們得出如下數據:

Xcont=974,Ncont=10072,Xexp=1242,Nexp=9986,dmin=2%,置信區間選擇95%,則z=1.96

Ppool=(Xcont+Xexp)/(Ncont+Nexp)=(974+1242)/(10072+9986)=0.111

SEpool=√ ̄(Ppool*(1-Ppool)*(1/Ncont+1/Nexp))=√ ̄(0.111*(1-0.111)*(1/10072+1/9986))=0.00445

d=Xexp/Nexp-Xcont/Ncont=1242/9986-974/10072=0.0289

m=z*SEpool=1.96*0.00445=0.0087

最小值d-m=0.0289-0.0087=0.0202,最大值d+m=0.0289+0.0087=0.0376,

因為:d>0,dmin<d-m

所以:實驗結果具有統計顯著性,同時增長超過2%,具有實際顯著性,得出結論,新版首頁對于注冊有更好的轉化效果,應該替代原版首頁。

筆者正在深入學習A/B測試后面的課程,也希望大家可以一同學習并深入交流大家在實際工作中的A/B測試情況。

一張圖看懂A/B測試

#專欄作家#

田宇洲(微信公眾號:言之有術),人人都是產品經理專欄作家,北京大學軟件工程管理碩士,北京電信4年產品經理,負責B2B電商平臺的前后端產品設計,擅長游戲化產品設計,挖掘用戶畫像。

本文原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖由作者提供

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. ACDF

    回復
    1. 老師的答案是CDG,A選項無法通過測試獲得,比如我想購買飛機,實際上從現有網站中是無法獲取用戶想要飛機的需求的,F選項中的logo是品牌形象,對用戶的影響需要長期觀測,觀察周期較長影響因素太多,不適合使用A/B測試,

      來自北京 回復
    2. G選項調整首頁信息架構應該是多變量多吧?而且結果用戶行為可能包括多種行為,也沒有列出確切的哪個指標。那E選項不可以做A/B test 嗎? 兩個不同的網站版本,就是一個變量。用戶的訪問率,或者推薦率,這個就是有確切test的指標的吧。

      來自墨西哥 回復
  2. 好喜歡第一張圖的顏色,請問這個APP叫什么名字?

    來自湖南 回復
    1. ?? 關注的點好有特點,花瓣里面隨便搜的圖。。。并不知道什么APP

      來自北京 回復
  3. 這個a/b測試講的好專業,涉及統計學。。正常來講的話,只要是看到現在的轉化率比之前的轉化率高就可以了吧,但是你寫的這篇還要論證后來數據的真實性。。這個你怎么學習的。

    來自浙江 回復