如何平衡實驗效率與準確性?關鍵點在這里
在產品的工作流程中,其實也要做不少的實驗和測試,比如AB測試、黑盒測試等。不少人認為實驗的結果和準確性是靠方法和執行,實際上,界定實驗受眾和樣本量才是關鍵,魔鬼往往藏在細節中……
很多人認為實驗的成功取決于創意和執行。但其實,關鍵在于如何界定實驗受眾和樣本量。魔鬼往往藏在細節中……
01 確定實驗受眾
1. 實驗受眾的選擇標準
(1)全體用戶 vs. 特定條件的用戶
確定實驗受眾主要回答兩個問題:
- 哪些用戶會被包含在實驗中
- 需要多大樣本數和多長時間才能得到可信的結果
針對第一個問題,具體情況需具體分析。
有時希望所有用戶都參與實驗,就無需特別設置受眾;如果只想讓特定條件的用戶參與,才需要設置實驗受眾。
設置實驗受眾的目的,是針對某個用戶群體生成更精細的產品優化方案。
第二個問題,本文后續會展開說明。
(2)案例分析:新聞APP廣告點擊率實驗
舉個例子,一個新聞APP的用戶分兩類:看新聞賺零錢的,和喜歡游戲玩樂的。該APP想測試不同廣告banner的點擊率。
假設是,”喜歡玩樂”的人看到”葛優躺”的banner,點擊率會更高。所以進行這個實驗時,就應該單獨摘取”喜好玩樂”的用戶。
針對”喜歡玩樂”的用戶,分別投放”葛優躺”創意banner和其他banner,測試點擊效果。
2. 實驗受眾的分類方法
(1)默認分組:操作系統、iOS版本
通過第三方AB測試工具設置實驗受眾非常容易。工具里有一些默認的受眾分組可供選擇,比如操作系統、iOS版本等。
假設某個實驗只針對iOS 12用戶,比如測試一個自動填表單的功能。那進行實驗時,就可以選擇默認方式,只針對iOS 12用戶,因為其他用戶就看不到這個功能。
(2)自定義分組:特定渠道來源、產品使用情況
除了默認分組,還可以定制分組。產品經理或增長黑客提需求給研發,由研發來完成自定義受眾分組。
比如只想針對某個渠道來源的用戶(如信息流廣告或百度搜索)給出不同的首頁設置,就可以通過自定義受眾方式完成設置。
再比如,招行有各種用戶:有的有信用卡,有的買了理財。
如果招行想在首頁做個實驗,但只針對有基金賬號的用戶,也可以通過自定義受眾分組找出這部分人,針對性地做實驗。
02 估計所需樣本數
1. 樣本數的重要性
我們再來看第二個問題:如何預估實驗所需的樣本數。這里有個例子,一個公司想測試把首頁的藍色按鈕改成紅色,看看點擊率如何。
實驗上線3小時后,初步統計100個用戶樣本數據,發現藍按鈕的轉化率是20%,紅按鈕只有12%。此時很多人就要下結論了:藍按鈕更好。
但等等,這個樣本數太小了!不可能根據這么小的樣本得出可靠結論。
于是公司繼續實驗。上線3天后,樣本數已經比一開始大很多了,上千個樣本,點擊數也有好幾百。
這時藍按鈕的轉化率掉到6%,紅按鈕的轉化率升到9%。感覺差不多了,紅按鈕應該更好,但還不能完全確定。
如果實驗跑300天,樣本數非常大??梢钥吹?,兩種按鈕的轉化率都有所下降,但藍按鈕穩定在4.8%,紅按鈕穩定在7.2%。有了如此大的樣本,才可以比較有把握地得出結論。
但在實際的操作中,不可能等 300 天再對一個實驗進行分析得出結論。
可見,只有精確界定實驗受眾與合理預估樣本量,才能確保實驗快速迭代與結果的可靠性。
2. 影響樣本數的因素
如果從結果的可靠性出發的話,樣本量越大,實驗時間越長,那么實驗結果就越可靠。
但是如果從實際工作出發,樣本量越小,實驗時間越短,才能保證快速上線新實驗,試錯的成本也越小。
所以想要在這兩者之間找一個平衡,其實就是要找到一個最小的樣本量,保證達到實驗結果可靠,但是又不會浪費過多的時間和樣本數。
影響實驗所需樣本數有三大因素:原版本(對照組)的轉化率、新版本(實驗組)的轉化率,以及統計顯著性要求。
(1)對照組和實驗組的轉化率
兩組測試的轉化率越小,所需的樣本量就越大;反之,兩組的轉化率越大,所需樣本量就越小。因為需要足夠的轉化用戶樣本數,這個很好理解。
同時,實驗組相比對照組轉化率提升幅度越大,需要的樣本量就越??;反之,提升幅度越小,比如從1%提高到1.05%,檢測的敏感度要求就越高,需要的樣本量就越大。
(2)統計顯著性的要求
什么是統計顯著性?其實就是進行增長實驗的時候,通過檢驗對照組和實驗組的轉化率差異,來確認這個差別是真實存在的,還是隨機誤差導致的。這就是”統計顯著性”的概念。
如果檢驗發現某個指標的轉化率差異,且統計顯著性達到95%,就說明有95%的可能性這個差異是真實存在的。也就是說實驗組確實比對照組好,只有5%的可能性是隨機誤差導致的。
統計顯著性越高,隨機誤差的可能性越低,結果就越可靠。一般做增長實驗,建議至少要求95%的統計顯著性。
3. 實用工具:AB測試樣本計算器
介紹一個工具:AB測試樣本計算器,網址是https://www.eyeofcloud.com/abtest-widget/124.html
它主要有三個輸入字段:原始版本(對照組)的轉化率、優化版本(實驗組)的轉化率,以及統計顯著性要求(可以在90%-100%之間選擇)。
輸入這三個數字后,它會自動計算出每個版本所需的樣本數量。
比如,原始版本轉化率15%,優化版本轉化率18%,統計顯著性要求95%,它會算出每個版本需要1700個樣本。
如果新版本的預期轉化率與原始版本差別很小,比如只有16%,那每個版本所需的樣本數就會大幅增加。
03 估計實驗時長
1. 實驗時長的計算方法
學會預估實驗樣本后,我們進一步預估實驗需要多長時間。也就是收集到足夠樣本以確認統計顯著性所需的時間。
計算公式很簡單:預估實驗時長=實驗總樣本數(各版本所需樣本數之和)÷實驗頁面或路徑的日訪問量
舉例,如果分兩個版本實驗,每個版本所需樣本總量是2900,則所需總樣本是2900*2(兩個版本),即5800個。
假設該頁面每日訪問量是580,那預計需要實驗10天才能得到統計顯著的結論。
如果要分4個版本測試,所需總樣本加倍,預估實驗時間也就加倍到20天。
2. 實驗設計的合理性檢查
(1)樣本數量與實驗時長的平衡
為什么要預估實驗樣本和時長?就是為了檢查實驗設計是否合理。
通過預估,我們可以知道達到統計顯著需要多大樣本,有沒有那么多流量或用戶量,實驗要跑多久,時間是否過長。
如果一個200多天才能完成的實驗,基本就等于判了死刑。
(2)反思:小流量情況下的實驗設計
所以,如果發現實驗樣本不夠或時間冗長,就得想辦法:
a.減少實驗版本數。能不能減少實驗版本數?比如不要測四個版本,只測兩個版本,版本數越少,所需總樣本就越小,所需時間也越短。
b.更換實驗頁面。假如想測試在下單轉化路徑中加入其他用戶的推薦,如果放在最后幾步,那里流量可能很少,不如放到產品詳情頁,同樣的思路,那里的流量會大很多,有助于快速得出結論。
c.增加流量。如果面臨樣本量太小的問題,是不是應該先設法吸引更多用戶,留存更多用戶,再去做實驗?
d.加大改動幅度。在小流量情況下做一些很小的改動,預期變化很小,其實意義不大。因為流量或用戶數越少,實驗改動就要越大,小修小補作用不明顯。
04 大公司與小公司的實驗策略
我們經常聽說Facebook、抖音每時每刻都有成千上萬個實驗在跑,Google把一個藍色按鈕測了20多個色號,得出了非常好的結果。
背后的邏輯是,這些產品的用戶量巨大,可以進行大量細小的實驗。即使每個實驗的結果提升不大,但基數龐大,最終對利潤和營收的貢獻也很可觀。
但如果你在一個小公司,流量和用戶沒那么多,也去測20個按鈕色號,很可能的結果是,等到地老天荒也沒等到統計顯著的結果,公司都黃了。
所以建議流量和用戶少的情況下,要做大的改動,同時想辦法提升用戶基數和流量。
最后總結一下,”要致力于品質的提升,而不是數量的增加。”這句話同樣適用于AB實驗設計。
通過精細化設定實驗受眾,合理預估樣本量和實驗時間,可以在保證數據質量的前提下,有效地減少實驗的盲目性,提高實驗的成功率和效率,進而為產品和用戶體驗的優化提供可靠的數據支持。
本文由 @小黑哥 原創發布于人人都是產品經理,未經許可,禁止轉載
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!