99久久精品免费视频,在线播放免费人成视频在线观看

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

A/B 測試中 12 個常見的誤區（上）

王瑞秋

2019-08-01

3 評論 4384 瀏覽 26 收藏

11 分鐘

文章為大家梳理一些運用A/B 測試時12個常見的誤區，本文為上篇，一起看看~

A/B 測試是一項很有趣的測試內容，使用者可以通過優質的工具去完成產品中的 A/B 測試。但其實，A/B 測試并不僅僅是建立一個測試，很多公司在使用 A/B 測試時都存在一定的誤區，都在不經意間浪費著時間和金錢且不自知。

下面，本文將為大家梳理一些運用A/B 測試時常見的誤區：

一、太早停止A/B 測試

如果樣本量足夠大，統計顯著性是版本 A 優于版本 B 的最好證據，50% 的統計顯著性代表一種隨機的結果。如果你只要求有 50% 的統計顯著性，那么你可能要考慮離職了，因為其實這個數字達到 75% 也不能說明什么。

任何一個經驗豐富的測試人員都有過這樣的經歷，你通過 A/B 測試去檢測你的產品功能，最終將一個置信度達到 80% 的產品推向各大市場，但最終發現，市場卻并不買賬。于是你想，那下次把數字達到90% 怎么樣？這樣就會很好了吧？其實比達到 90% 更重要的是，你要找到其中的真相。

真相>勝利

作為一個專業的職場人士，你的工作就是找出真相。你必須先把自我放在一邊，執著于你的假設或設計是人之常情，如果當你的假設沒有出現顯著的差異性時，這可能會對你造成很嚴重的打擊。真理高于一切，否則一切都失去了意義。

這里有一個常見的場景，即使對于經常進行 A/B 測試的公司也是如此，公司進行一個又一個的測試，持續了 12 個月，好不容易挑選出“獲勝者”，然后將它們推出市場。結果一年后發現，他們網站的轉化率和剛開始時一樣……

為什么？基本是因為測試停止得太早或樣本量太小。這里有一個關于何時停止 A/B 測試解釋，簡而言之需要滿足這三個條件，才能說明測試已經完成：

足夠的樣本大小。實驗要有足夠的被試參與，你需要為你的 A/B 測試預先估算出足夠的樣本量。
要運行多個銷售周期(通常為 2-4 周)。如果你只是在幾天內就停止測試（或者在達到所需的樣本量之后就停止），那么你獲得的這個樣本結果，并不具有代表性。
統計學的顯著性至少要達到 95%（p≤0.05）。值得注意的是，p 值沒有辦法告訴我們 B 比 A 的方案好。

這里有一個經典的例子來說明我的觀點，下表為開始測試兩天后的結果：

A/B 測試中 12 個常見的誤區（上）

圖 1. 圖片來源于網絡

我構建的新版本損失慘重，我構建的版本并沒有太大的優勢，而我的客戶也已經開始準備停用這個方案。但是，由于樣本量太?。看巫兓挥?100 多次訪問），通過我的堅持不懈，這是 10 天后的結果：

A/B 測試中 12 個常見的誤區（上）

圖 2. 圖片來源于網絡

你沒看錯，我制造的版本現在以 95％的置信率獲勝。

有些A / B測試結束得過早，這就需要我們仔細檢查各種數據。而最糟糕的事情就是，因為不準確的數據，讓你損失了大量的時間與金錢。

需要多大的樣本量？

通過上面的介紹，我們都不希望根據較小的樣本量得出結論。理想的狀態下，一個好的測試版本最好能發生至少 350-400 次轉換數據。但是，這個數字不是定值。我們不要被一個號碼困住，因為我們手中的是科學，而不是魔術。

所以，你一定要提前估算出測試所需要的樣本量。那么即使這樣做了，但置信度還是低于 95％怎么辦？那么可以從細分領域下手，但你仍需要為每個測試的細節提供足夠的樣本量。無論如何，你都需要不斷修改你的假設并進行新的測試。

二、測試的單位不是“周”

假設你有一個高流量網站，你在三天內實現了 98％的置信度，并且每次都發生了至少 350 次的轉換數據。

這樣能算完成了測試嗎？不，我們需要排除周期性因素并測試整整一周。如果你從上周一開始測試，那么這個測試需要在下周一停止。

為什么？因為你的轉化率可能會因“今天是星期幾”而有很大差異。如果你一次不測試整整一周，那么你的結果就會出現偏差。所以，你需要以“周”為單位，在你的網站上運行“每日轉化次數”的報告，觀察到底能產生多少波動。

下面是一個例子：

A/B 測試中 12 個常見的誤區（上）

圖 3. 圖片來源于網絡

你看到上表中的內容了嗎？

星期四的收入比星期六和星期日的總和還多出 2 倍，星期四的轉換率幾乎是星期六的 2 倍。如果我們沒有以“周”為單位進行測試，那么結果將是不準確的，所以，必須開始一次運行七天的測試。如果在這七天內沒有出現差異顯著的結果，則再運行七天。如果 14 天都沒有達到，那么就運行到第 21 天。

多數情況下，你需要至少運行兩周的測試（我的個人最低時間是四周，因為兩周通常是不準確的），然后，如果你需要延長測試時間，則應用七天規則逐步疊加。

注意外部因素

如果你在雙十一等一些購物季獲得了良好的測試結果，那么你一定要在購物季結束后再次進行重復的測試。另外，如果你的公司鋪設了一些電視廣告或者其他大型活動，都可能會影響你的測試結果。你必須要了解你的公司正在做什么，因為外部因素會影響到你的測試結果。

三、沒有足夠的流量也進行 A/B 測試

如果你每月只能完成一次或兩次銷售，然后進行測試，結果顯示 B 方案比 A 方案的轉化率高 15%，這樣的結果準確嗎？

當然不。許多人都喜歡用 A / B 測試來驗證假設，但流量較小的情況下，即使版本 B 的效果再好，也可能需要數月才能達到統計顯著性。

不基于假設就進行測試

我喜歡意大利面，但我對意大利面條柔韌度的測試卻沒多大興趣，比如將它扔在墻上，看它是否粘住墻壁？

這其實是一種隨意的測試想法，而測試這種隨機想法需要付出巨大代價，它會浪費你寶貴的時間和流量，所以永遠不要那樣做。你需要有一個假設。假設的提出要根據有限的證據，這個證據可以通過實驗去被證明，并且作為一個新的研究起點。

如果你在沒有明確假設的情況下進行 A/B 測試，然后發現 B 方案的轉化率高了 15％，可是你從中學到了什么？

什么沒有。我們需要了解我們的受眾，獲得合理的假設，這將有助于我們更好地改進貼合實際的測試。

四、不利用大數據分析平臺

測試的平均值往往包含著謊言。如果 A 方案比 B 方案的轉化率高出 10％，但也并不能代表全部。你需要將其中的指標再次進行分割測試，去分析其中的各項細分指標。你可以使用一些優質的大數據分析工具，利用各種分析模型，對數據進行細致地分析和處理。

A/B 測試中 12 個常見的誤區（上）

圖 4. 圖片來源于神策數據

五、為了不值得的問題進行測試

你測試過用戶喜歡什么顏色，對嗎？

請趕快停止吧。世界上哪里有最好的顏色，因為顏色始終與視覺層次結構有關。當然，你可以在網上找到有人通過測試顏色從而獲得收益，但這些結果很多都是顯而易見的，所以，不要把時間浪費在這些測試上。

余下的 6 個誤區，未完待續，歡迎大家持續關注。

原文來源：https://conversionxl.com

原文作者：Peep Laja

翻譯：研如玉，神策數據·用戶行為洞察研究院公眾號（ID：SDResearch）

本文由 @研如玉翻譯發布于人人都是產品經理，未經許可，禁止轉載

題圖來自Unsplash，基于CC0協議

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

王瑞秋

神策數據內容營銷

37篇作品 453875總閱讀量

“完美”的智能客服系統

09-079690 瀏覽

2022出海人：殺入“正面戰場”，站在黎明前夜

01-113723 瀏覽

AI產品落地全流程

12-076487 瀏覽

政務CRM-政務CRM的客戶選型關注點

06-135029 瀏覽

東方甄選走紅這一年

06-094950 瀏覽

評論

汪仔6541

測試用例

最近來自河北回復
Eric

前文描述的說會收到星期幾的因素所影響數據，其實是不正確的，因為既然是做AB Test，他的對比因素是相同的
也就是說，實驗組和對照組都是星期一或星期六等，判斷一個AB平臺是否準確，具有可參考意義，要看樣本的分流是否平均
還要根據樣本數，設定置信區間，當樣本數小的情況下，數據波動的范圍會較大，但如果是非常大的樣本數，比如100萬對比100萬的數據，即使是1-2天，0.1%的數據也是顯著置信的~

最近來自上海回復
1. 王瑞秋作者回復Eric
  
  嗯嗯是把可能出現的誤區都提出來了呢 ~
  
  最近來自北京回復