從0到1玩轉AB測試評估體系搭建
本文以一個擁有數千萬用戶的頭部物流APP為例,詳細介紹如何基于Google的多層實驗框架建立AB測試評估體系,從而精確度量和改進產品的多種交互場景。
一、應用場景
某頭部物流類APP目前擁有數千萬級別的用戶量,每天有數百萬用戶在app上使用寄快遞、查快遞、網點查詢、運費查詢等相關服務。
在日常用戶精細化運營中,需要準確評估大量交互場景,以輔助業務決策。
AB測試是一種常用的數據驅動方法,用于評估不同版本的用戶界面、功能或設計。
它旨在幫助決策者了解哪個版本能夠更好地滿足用戶需求,優化產品并改善用戶體驗。
本文將基于Google多層實驗框架原理,來進行AB測試評估體系搭建的探索研究。
二、解決方案
AB測試通過為同一個迭代目標制定兩個或多個策略方案,并在同一時間維度內讓具有相同(或相似)組成成分的A/B群組分別采用這些策略,收集各群組的體驗數據和業務數據,最后分析評估出最佳策略,使迭代朝著更好的方向演進。
1. 關鍵步驟
AB測試評估體系構建通常包括以下3個關鍵步驟:
(1)樣本量測算;
(2)樣本分流;
(3)評估機制(顯著性檢測)
2. 樣本量測算
在AB測試中,樣本量的測算至關重要。樣本量大小會影響實驗結果的可靠性和統計顯著性。以下是常見的樣本量測算公式:
其中:
n為總樣本量;
α和β分別為第一類錯誤概率和第二類錯誤概率,一般取0.05和0.2;
Z為正態分布的分位數函數, Z1?α/2=1.96,Z1?β=0.84;
δ代表預期實驗組和對照組兩組數據的差值。
在AB測試中還會涉及到樣本隨機化和多重檢驗校正等。建議根據具體情況綜合考慮這些因素,以確保獲得合適且有效的樣本量。
3. 樣本分流
在Google多層實驗框架中,樣本hash分流是一種常見方法。
基于分流算法,將樣本均勻地分配至不同實驗中。在實際操作過程中使用參與者的唯一標識符(如會員號或Cookie)作為輸入,并將其通過哈希函數轉換為一個固定范圍內的哈希值。該哈希值可用于確定參與者被分配到哪個實驗組。
通過使用hash分流方法,可以確保每個參與者在樣本中都具有相同概率被隨機地分配到不同實驗組,并減少偏差,在評估不同變體之間的差異時保證可靠性。
4. 顯著性評估
構建AB測試顯著性評估機制非常關鍵,它有助于確定實驗結果是否具有統計上的顯著性。步驟如下:
Step 1:確定希望使用的顯著性水平(即第一類錯誤指拒絕了正確假設),通常情況下表示為α。
Step 2:確定所需樣本量:為確保實驗結果達到所需統計顯著性水平,在目標效應大小、所選顯著性水平和統計功效之間進行計算。
Step 3:選擇適當的統計檢驗方法:根據實際設計和指標類型選擇適當的統計檢驗方法(如t檢驗或卡方檢驗)。
Step 4:在實驗結束后收集實驗組和對照組數據,并使用所選統計檢驗方法進行假設檢驗,并基于觀察到差異計算P值。
Step 5:P值代表觀察到結果或更極端結果出現概率。如果P值小于預先設定的顯著性水平,則可以拒絕原始假設并得出結論認為結果具有統計上顯著性。
5. ab測試評估體系流程圖
基于上述最小樣本量測算、hash分流以及顯著性評估等步驟,在構建線上用戶增長中心AB測試系統時可以考慮以下模塊:實驗配置、分流、計算、分析輸出等模塊。
重要模塊功能說明
(a)實驗模塊:由業務方完成相關配置,例如定義實際評估指標、設置實際評估周期以及確定實施方式;
(b)計算模塊:基于歷史數據值來完成當前所需最小樣本量測算;
(c)分流模塊:根據最小樣本量以及配置好的分組信息利用hash打散方式 進行均勻分流(推薦采用二次hash方式來規避碰撞問題),以保證樣本共享且被隨機地劃入不同試驗證明理義;
(d)分析輸出模塊:采用所選統計檢驗證法進行假設檢義,并通過比較觀察到結果與初期設定閾值來判斷是否存在顯著差異。
完整ab測試系統數據流程圖如下圖所示。
三、應用案例
基于Google多層實驗框架進行線增ab測試評估體系的搭建,期間(22年9月到24年2月)累計支撐業務評估實驗1000+項。
本文由 @yyandbb415 原創發布于人人都是產品經理,未經許可,禁止轉載
題圖來自Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!