日常運營中,如何做好 A/B test?
本文來和大家聊聊,在日常的運營中,如何才能運用好AB測試,通過數據反饋,AB測試,測試結果分析,運營策略優化等過程,最終將產品轉化的每一個環節做好,從而更好地提升在AARRR環節的某一項數據指標。
我相信運營對于AB測試一定不陌生。當我們從數據中發現了一定的問題,但是也不敢確定想出來的辦法一定能解這個問題的時候,領導便會說:小范圍測試一下吧。
這時候說的測試就是AB實驗,簡單來說,AB測試是為產品的界面或流程制作兩個(A/B)或多個(A/B/n)版本,在同一時間維度,分別讓組成成分相同(相似)的訪客群組(目標人群)隨機的訪問這些版本,收集各群組的用戶體驗數據和業務數據,最后分析、評估出最好版本,正式采用。
進行AB實驗能夠有利于優化用戶體驗,提升漏斗或者單個節點的轉化率,從而使得產品的最終效果變得越來越好。
那么該怎么去進行測試呢?如何才能保證測試的數據有效性,在最短的時間內測試出來結果,以便后期能夠更好地進行調整。小步快跑,關鍵是步子要小,結果要快,后期才能更好地運用在運營過程中。
今天就來和大家聊聊,在日常的運營中,如何才能運用好AB測試,通過數據反饋,AB測試,測試結果分析,運營策略優化等過程,最終將產品轉化的每一個環節做好,從而更好地提升在AARRR環節的某一項數據指標。
一、從數據中發現問題
前面,我寫過一遍文章:運營人如何進行數據分析?從日常的數據中發現問題,找到出現異常的那些數據。
最終,從數據中發現問題,也需要回到數據中去解決問題。一般來說,在數據折線圖中,數據出現下降拐點的很在程度上為異常數據。在進行數據分析的時候,可以著重關注這些數據。
如下圖的各個渠道周新增用戶趨勢圖,就可以重點分析,為什么第四周之后,新增用戶的增長幅度降低,是因為預算減少了嗎?還是說,在用戶注冊的過程中遇到了什么問題,導致新增用戶下降。
在日常的運營中,數據分析運用的比較多的便是漏斗模型,不一定是AARRR模型,而是用戶路徑中每一個關鍵步驟都會出現流失,轉化率下降的問題,只是說這個流失是否在合理范圍內,和業內的平均數據相比,這個數據是否還存在可優化的空間。
從關鍵用戶路徑出發,從數據中能夠快速找到,用戶在哪個環節可能出現了一定的問題,用戶在哪個環節停留的時間比較長,用戶在某個環節轉化率急劇下降,這些可能就是AB實驗的關鍵點。
做好其中一個環節的優化,便能夠帶來明顯數據的提升,從而更好地提升轉化率。
如,用戶在淘寶上搜索一個產品的路徑可能是:直接輸入關鍵詞——點擊某個產品——查看產品信息(包括詳情頁和評論等)——詢問客服——選擇產品規則——下單購買。
而這些步驟,每個環節都會出現用戶流失的情況。如果每天的曝光很高,但是卻沒有點擊,那么說明在首圖中還需要去進行優化,了解用戶為什么沒有點擊的原因:是因為人群不精準,還是因為和競品的首圖更吸引人,還是其他什么原因。這些都可以去通過AB實驗去進行測試,不斷優化用戶路徑中的關鍵步驟。
接下來就進入重點了,如何去進行AB實驗,在這過程中,需要注意什么,什么樣的實驗才真正算一個好的實驗。
二、如何進行AB實驗?
進行AB實驗,我主要會在以下4個方面進行說明。
1)確定實驗的核心目標
2)確定測試的樣本量
3)確定實驗的周期
4)AB實驗遵從的原則
以上這4個關鍵點,是我認為進行AB實驗最關鍵的核心,將這些東西弄明白,基本上就能進行一個完整的AB實驗了。接下來,我將舉例說明。
1. 確定AB實驗的核心目標
這個應該不用多說,運營是目標導向的,做實驗的時候也不例外。只有確定了做AB實驗的核心目的,才能更好地進行后續的AB實驗。
在核心目標這里,需要延伸出來,其他兩個和核心目標相關的兩個指標,第一個是輔助指標,第二個是反向指標。有這兩個指標之后,我們才能更好地確定核心目標,后期也才能更好地檢測這是否是一次成功的實驗。如果核心指標提升了很多,但是同時反向指標也上升了很多,那么可能相當于是亡羊補牢,拆了東墻補西墻,最終也很難將核心指標提升上去。
接上邊的那個列子,在用戶搜索產品的時候,我們發現用戶的點擊率很低,遠遠低于行業平均水平,假設行業平均水平是5%,而目前你的產品的點擊率才2%。
假設核心目標是將商品點擊率從2%提高到5%,而同時輔助指標是購買轉化率在一定程度上會有所提升,畢竟要保證進來的流量不是虛假流量,最終能夠形成一定的轉化。而反向指標是,頁面的跳失率在一定程度上不會收到太大的影響。
2. 確定測試的樣本量
確定了實驗目標之后,緊接著我們就應該來測算出需要測試的樣本量。很大的樣本量雖然更能體現實驗的準確性,但是可能在數據收集上也需要耗費更多的時間。很小的樣本量,很難說明數據的準確性。
所以我們需要在有限的時間內收集好足夠的數據量做實驗。
按照實驗的準確性原則來說,一般是統計顯著≥95%確定的樣本量,是有效樣本量,能夠保證實驗結果的準確性,確定操作的統計顯著差異不是由于偶然因素造成的,而是系統設定的測試實驗的結果。
如何根據統計顯著,確定所需的最小的樣本量?直接用AB測試樣本數量計算器(https://www.eyeofcloud.com/124.html) 計算出每個版本需要的最小樣本量。
也就是說,做這個實驗,至少需要640個樣本數量。并且需要保證分流的均勻性,人群是隨機分類的。
3. 確定實驗周期
是不是上邊的樣本量保證了之后,就一定能保證實驗的準確性呢?答案是否定的,還有一個很重要的因素是需要保證實驗周期,能夠剛好覆蓋產品的一般使用周期。也就是說,能夠覆蓋產品的高頻用戶和低頻用戶,保證不會因為用戶群體之間的差距而產生一定的數據的差異。
舉個例子,如果一個產品的使用周期是7天,那么實驗周期需要大于等于7。如果一個產品的使用周期是30天(如工具類的產品,比較低頻),實驗周期就需要大于等于30天,才能更好地保證實驗的準確性。
4. AB實驗遵從的原則
接下來,簡單地和大家聊下AB實驗需要遵從的原則,以便我們更好地進行實驗,在保證實驗結果的前提下,能夠快速推動實驗的進行。
1)小步快跑原則
遵循效率優先、簡單優化的原則,一點點優化,一步步優化。
能不開發就不開發,能從UI層面解決的就一定不要麻煩開發小哥哥。
即使要開發,也要了解競品的情況,給產品和技術一定的數據支撐,否則很難實現需求落地,畢竟開發小哥哥的時間都是很寶貴的,他們需要確認自己做的都是能夠產生一定影響的事情。
2)案例借鑒原則
AB實驗,一定要從數據入手,找到出現異常的數據。而最終進行的優化實驗,也需要找到一定的案例來進行支撐(實在沒有,也要找到一個相近的案例。畢竟我們的產品很多,不愁找不到相似的產品來支撐自己的實驗。)
有其他案例作為支撐,也就是這個實驗,是從某個成熟的產品中借鑒而來的,這樣成功的幾率也就更大。同時,如果有開發需求的話,產品和技術對于這個需求也更加認可。(但是請看第一條,設計開發就一定需要排期,需要排期就一定需要一定的時間。)
3)預期管理原則
做好預期管理,這里不僅包含對于實驗的預期,也包含對于領導預期的管理,不要給領導以及其他協作者太高的預期。最終結果,要讓結果高于預期,未來才能更好地推動資源,才能讓大家更信任你。
三、測試結果分析
接下來來到最關鍵的一步,那就是測試結果的數據分析。
在保證核心指標明顯提升的基礎上,輔助指標也有一定量的提升。
同時,反向指標變化不明顯。一旦反向指標差異變化明顯,可能是一次不成功的實驗,畢竟犧牲了其他的指標來讓核心指標變得更好,不是長久的運營策略。
如果統計顯著性,≥95%,那么則證明核心指標有了一定量的提升。同時,再來計算輔助指標是否也有了一定量的提升,同樣也是用上方的AB測試工具計算器來計算出統計顯著性。
而有了一定的小范圍數據支撐之后,如果再來提開發需求,將實驗結果產品化或者繼續優化迭代,那么需求也更加可靠。
四、將實驗結果進行整理歸類
將AB實驗結果記錄在實驗表中,方便后期更好地調用實驗想法,為新的實驗想法提供可參考的依據。
一般實驗記錄可以分為以下幾個關鍵點:
- 實驗的目標:如提升單點轉化率或者漏斗轉化率
- 實驗類型:是針對頁面上實驗,還是文案修改上的實驗,還是在用戶路徑上做了一定量的優化,簡單描述就好。
- 實驗的過程:簡單描述下實驗的過程,用了多少樣本量,在多少時間內完成內進行了什么樣的實驗。
- 實驗結果:最終的實驗結果什么樣。
將已經做好的實驗結果進行整理歸類,方便自己或者后來人調取實驗庫,這樣在一定程度上能夠提高做事的效率。
以上就是我關于AB實驗的一些分享。
在AB實驗中,遵從最重要的原則就是:控制單一變量,小步快跑,得出結果,不斷優化總結。用實驗的思維去升級迭代,不斷進行優化,最終將操作系統變得越來越靈活。
本文由 @運營汪日記 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
看過
提一個問題大家交流:各位做AB實驗時候,是不是必須置信區間達到95%及以上,才會采納新版本的呢?日常操作時候,發現達到這個標準的實驗太少了,該如何去把握這個標準?希望聽取一下其他公司AB增長小伙伴的看法
請問這個顯著率是怎么計算的呢,我看那個計算器顯著率是不動的啊
樣本計算器不錯 收~