久久久久久精品无码人妻,欧美日本高清在线不卡区,国内精品久久久久久无码不卡

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

如何平衡實驗效率與準確性？關鍵點在這里

小黑哥

2024-06-03

0 評論 711 瀏覽 3 收藏

13 分鐘

在產品的工作流程中，其實也要做不少的實驗和測試，比如AB測試、黑盒測試等。不少人認為實驗的結果和準確性是靠方法和執行，實際上，界定實驗受眾和樣本量才是關鍵，魔鬼往往藏在細節中……

很多人認為實驗的成功取決于創意和執行。但其實，關鍵在于如何界定實驗受眾和樣本量。魔鬼往往藏在細節中……

01 確定實驗受眾

1. 實驗受眾的選擇標準

（1）全體用戶 vs. 特定條件的用戶

確定實驗受眾主要回答兩個問題：

哪些用戶會被包含在實驗中
需要多大樣本數和多長時間才能得到可信的結果

針對第一個問題，具體情況需具體分析。

有時希望所有用戶都參與實驗，就無需特別設置受眾；如果只想讓特定條件的用戶參與，才需要設置實驗受眾。

設置實驗受眾的目的，是針對某個用戶群體生成更精細的產品優化方案。

第二個問題，本文后續會展開說明。

（2）案例分析：新聞APP廣告點擊率實驗

舉個例子，一個新聞APP的用戶分兩類：看新聞賺零錢的，和喜歡游戲玩樂的。該APP想測試不同廣告banner的點擊率。

假設是，”喜歡玩樂”的人看到”葛優躺”的banner，點擊率會更高。所以進行這個實驗時，就應該單獨摘取”喜好玩樂”的用戶。

針對”喜歡玩樂”的用戶，分別投放”葛優躺”創意banner和其他banner，測試點擊效果。

2. 實驗受眾的分類方法

（1）默認分組：操作系統、iOS版本

通過第三方AB測試工具設置實驗受眾非常容易。工具里有一些默認的受眾分組可供選擇，比如操作系統、iOS版本等。

假設某個實驗只針對iOS 12用戶，比如測試一個自動填表單的功能。那進行實驗時，就可以選擇默認方式，只針對iOS 12用戶，因為其他用戶就看不到這個功能。

（2）自定義分組：特定渠道來源、產品使用情況

除了默認分組，還可以定制分組。產品經理或增長黑客提需求給研發，由研發來完成自定義受眾分組。

比如只想針對某個渠道來源的用戶（如信息流廣告或百度搜索）給出不同的首頁設置，就可以通過自定義受眾方式完成設置。

再比如，招行有各種用戶：有的有信用卡，有的買了理財。

如果招行想在首頁做個實驗，但只針對有基金賬號的用戶，也可以通過自定義受眾分組找出這部分人，針對性地做實驗。

02 估計所需樣本數

1. 樣本數的重要性

我們再來看第二個問題：如何預估實驗所需的樣本數。這里有個例子，一個公司想測試把首頁的藍色按鈕改成紅色，看看點擊率如何。

實驗上線3小時后，初步統計100個用戶樣本數據，發現藍按鈕的轉化率是20%，紅按鈕只有12%。此時很多人就要下結論了：藍按鈕更好。

但等等，這個樣本數太小了！不可能根據這么小的樣本得出可靠結論。

于是公司繼續實驗。上線3天后，樣本數已經比一開始大很多了，上千個樣本，點擊數也有好幾百。

這時藍按鈕的轉化率掉到6%，紅按鈕的轉化率升到9%。感覺差不多了，紅按鈕應該更好，但還不能完全確定。

如果實驗跑300天，樣本數非常大?？梢钥吹?，兩種按鈕的轉化率都有所下降，但藍按鈕穩定在4.8%，紅按鈕穩定在7.2%。有了如此大的樣本，才可以比較有把握地得出結論。

但在實際的操作中，不可能等 300 天再對一個實驗進行分析得出結論。

可見，只有精確界定實驗受眾與合理預估樣本量，才能確保實驗快速迭代與結果的可靠性。

2. 影響樣本數的因素

如果從結果的可靠性出發的話，樣本量越大，實驗時間越長，那么實驗結果就越可靠。

但是如果從實際工作出發，樣本量越小，實驗時間越短，才能保證快速上線新實驗，試錯的成本也越小。

所以想要在這兩者之間找一個平衡，其實就是要找到一個最小的樣本量，保證達到實驗結果可靠，但是又不會浪費過多的時間和樣本數。

影響實驗所需樣本數有三大因素：原版本（對照組）的轉化率、新版本（實驗組）的轉化率，以及統計顯著性要求。

（1）對照組和實驗組的轉化率

兩組測試的轉化率越小，所需的樣本量就越大；反之，兩組的轉化率越大，所需樣本量就越小。因為需要足夠的轉化用戶樣本數，這個很好理解。

同時，實驗組相比對照組轉化率提升幅度越大，需要的樣本量就越??；反之，提升幅度越小，比如從1%提高到1.05%，檢測的敏感度要求就越高，需要的樣本量就越大。

（2）統計顯著性的要求

什么是統計顯著性？其實就是進行增長實驗的時候，通過檢驗對照組和實驗組的轉化率差異，來確認這個差別是真實存在的，還是隨機誤差導致的。這就是”統計顯著性”的概念。

如果檢驗發現某個指標的轉化率差異，且統計顯著性達到95%，就說明有95%的可能性這個差異是真實存在的。也就是說實驗組確實比對照組好，只有5%的可能性是隨機誤差導致的。

統計顯著性越高，隨機誤差的可能性越低，結果就越可靠。一般做增長實驗，建議至少要求95%的統計顯著性。

3. 實用工具：AB測試樣本計算器

介紹一個工具：AB測試樣本計算器，網址是https://www.eyeofcloud.com/abtest-widget/124.html

它主要有三個輸入字段：原始版本（對照組）的轉化率、優化版本（實驗組）的轉化率，以及統計顯著性要求（可以在90%-100%之間選擇）。

輸入這三個數字后，它會自動計算出每個版本所需的樣本數量。

比如，原始版本轉化率15%，優化版本轉化率18%，統計顯著性要求95%，它會算出每個版本需要1700個樣本。

如何平衡實驗效率與準確性？關鍵點在這里

如果新版本的預期轉化率與原始版本差別很小，比如只有16%，那每個版本所需的樣本數就會大幅增加。

如何平衡實驗效率與準確性？關鍵點在這里

03 估計實驗時長

1. 實驗時長的計算方法

學會預估實驗樣本后，我們進一步預估實驗需要多長時間。也就是收集到足夠樣本以確認統計顯著性所需的時間。

計算公式很簡單：預估實驗時長=實驗總樣本數（各版本所需樣本數之和）÷實驗頁面或路徑的日訪問量

舉例，如果分兩個版本實驗，每個版本所需樣本總量是2900，則所需總樣本是2900*2（兩個版本），即5800個。

假設該頁面每日訪問量是580，那預計需要實驗10天才能得到統計顯著的結論。

如果要分4個版本測試，所需總樣本加倍，預估實驗時間也就加倍到20天。

2. 實驗設計的合理性檢查

（1）樣本數量與實驗時長的平衡

為什么要預估實驗樣本和時長？就是為了檢查實驗設計是否合理。

通過預估，我們可以知道達到統計顯著需要多大樣本，有沒有那么多流量或用戶量，實驗要跑多久，時間是否過長。

如果一個200多天才能完成的實驗，基本就等于判了死刑。

（2）反思：小流量情況下的實驗設計

所以，如果發現實驗樣本不夠或時間冗長，就得想辦法：

a.減少實驗版本數。能不能減少實驗版本數？比如不要測四個版本，只測兩個版本，版本數越少，所需總樣本就越小，所需時間也越短。

b.更換實驗頁面。假如想測試在下單轉化路徑中加入其他用戶的推薦，如果放在最后幾步，那里流量可能很少，不如放到產品詳情頁，同樣的思路，那里的流量會大很多，有助于快速得出結論。

c.增加流量。如果面臨樣本量太小的問題，是不是應該先設法吸引更多用戶，留存更多用戶，再去做實驗？

d.加大改動幅度。在小流量情況下做一些很小的改動，預期變化很小，其實意義不大。因為流量或用戶數越少，實驗改動就要越大，小修小補作用不明顯。

04 大公司與小公司的實驗策略

我們經常聽說Facebook、抖音每時每刻都有成千上萬個實驗在跑，Google把一個藍色按鈕測了20多個色號，得出了非常好的結果。

背后的邏輯是，這些產品的用戶量巨大，可以進行大量細小的實驗。即使每個實驗的結果提升不大，但基數龐大，最終對利潤和營收的貢獻也很可觀。

但如果你在一個小公司，流量和用戶沒那么多，也去測20個按鈕色號，很可能的結果是，等到地老天荒也沒等到統計顯著的結果，公司都黃了。

所以建議流量和用戶少的情況下，要做大的改動，同時想辦法提升用戶基數和流量。

最后總結一下，”要致力于品質的提升，而不是數量的增加。”這句話同樣適用于AB實驗設計。

通過精細化設定實驗受眾，合理預估樣本量和實驗時間，可以在保證數據質量的前提下，有效地減少實驗的盲目性，提高實驗的成功率和效率，進而為產品和用戶體驗的優化提供可靠的數據支持。

本文由 @小黑哥原創發布于人人都是產品經理，未經許可，禁止轉載

題圖來自 Unsplash，基于 CC0 協議

該文觀點僅代表作者本人，人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

小黑哥

【增長黑客之道】公號主理人，10年大廠運營專家提供“策略型用戶增長”方向求職服務

72篇作品 157292總閱讀量

用戶體驗度量模型

03-1140144 瀏覽

這么難，B2B企業還要做品牌嗎？

12-282061 瀏覽

好品牌一定不能八面玲瓏，這三件事你要清楚！

10-272568 瀏覽

深入討論 DRD：從交互模型解析設計需求及關系

04-183601 瀏覽

大廠卷模型，小廠卷應用，普通人如何應對AI浪潮？

09-183518 瀏覽

評論

目前還沒評論，等你發揮！