A/B 測試中 12 個常見的誤區(上)
文章為大家梳理一些運用A/B 測試時12個常見的誤區,本文為上篇,一起看看~
A/B 測試是一項很有趣的測試內容,使用者可以通過優質的工具去完成產品中的 A/B 測試。但其實,A/B 測試并不僅僅是建立一個測試,很多公司在使用 A/B 測試時都存在一定的誤區,都在不經意間浪費著時間和金錢且不自知。
下面,本文將為大家梳理一些運用A/B 測試時常見的誤區:
一、太早停止A/B 測試
如果樣本量足夠大,統計顯著性是版本 A 優于版本 B 的最好證據,50% 的統計顯著性代表一種隨機的結果。如果你只要求有 50% 的統計顯著性,那么你可能要考慮離職了,因為其實這個數字達到 75% 也不能說明什么。
任何一個經驗豐富的測試人員都有過這樣的經歷,你通過 A/B 測試去檢測你的產品功能,最終將一個置信度達到 80% 的產品推向各大市場,但最終發現,市場卻并不買賬。于是你想,那下次把數字達到90% 怎么樣?這樣就會很好了吧?其實比達到 90% 更重要的是,你要找到其中的真相。
真相>勝利
作為一個專業的職場人士,你的工作就是找出真相。你必須先把自我放在一邊,執著于你的假設或設計是人之常情,如果當你的假設沒有出現顯著的差異性時,這可能會對你造成很嚴重的打擊。真理高于一切,否則一切都失去了意義。
這里有一個常見的場景,即使對于經常進行 A/B 測試的公司也是如此,公司進行一個又一個的測試,持續了 12 個月,好不容易挑選出“獲勝者”,然后將它們推出市場。結果一年后發現,他們網站的轉化率和剛開始時一樣……
為什么?基本是因為測試停止得太早或樣本量太小。這里有一個關于何時停止 A/B 測試解釋,簡而言之需要滿足這三個條件,才能說明測試已經完成:
- 足夠的樣本大小。實驗要有足夠的被試參與,你需要為你的 A/B 測試預先估算出足夠的樣本量。
- 要運行多個銷售周期(通常為 2-4 周)。如果你只是在幾天內就停止測試(或者在達到所需的樣本量之后就停止),那么你獲得的這個樣本結果,并不具有代表性。
- 統計學的顯著性至少要達到 95%(p≤0.05)。值得注意的是,p 值沒有辦法告訴我們 B 比 A 的方案好。
這里有一個經典的例子來說明我的觀點,下表為開始測試兩天后的結果:
圖 1. 圖片來源于網絡
我構建的新版本損失慘重,我構建的版本并沒有太大的優勢,而我的客戶也已經開始準備停用這個方案。但是,由于樣本量太?。看巫兓挥?100 多次訪問),通過我的堅持不懈,這是 10 天后的結果:
圖 2. 圖片來源于網絡
你沒看錯,我制造的版本現在以 95% 的置信率獲勝。
有些A / B測試結束得過早,這就需要我們仔細檢查各種數據。而最糟糕的事情就是,因為不準確的數據,讓你損失了大量的時間與金錢。
需要多大的樣本量?
通過上面的介紹,我們都不希望根據較小的樣本量得出結論。理想的狀態下,一個好的測試版本最好能發生至少 350-400 次轉換數據。但是,這個數字不是定值。我們不要被一個號碼困住,因為我們手中的是科學,而不是魔術。
所以,你一定要提前估算出測試所需要的樣本量。那么即使這樣做了,但置信度還是低于 95% 怎么辦?那么可以從細分領域下手,但你仍需要為每個測試的細節提供足夠的樣本量。無論如何,你都需要不斷修改你的假設并進行新的測試。
二、測試的單位不是“周”
假設你有一個高流量網站,你在三天內實現了 98% 的置信度,并且每次都發生了至少 350 次的轉換數據。
這樣能算完成了測試嗎?不,我們需要排除周期性因素并測試整整一周。如果你從上周一開始測試,那么這個測試需要在下周一停止。
為什么?因為你的轉化率可能會因“今天是星期幾”而有很大差異。如果你一次不測試整整一周,那么你的結果就會出現偏差。所以,你需要以“周”為單位,在你的網站上運行“每日轉化次數”的報告,觀察到底能產生多少波動。
下面是一個例子:
圖 3. 圖片來源于網絡
你看到上表中的內容了嗎?
星期四的收入比星期六和星期日的總和還多出 2 倍,星期四的轉換率幾乎是星期六的 2 倍。如果我們沒有以“周”為單位進行測試,那么結果將是不準確的,所以,必須開始一次運行七天的測試。如果在這七天內沒有出現差異顯著的結果,則再運行七天。如果 14 天都沒有達到,那么就運行到第 21 天。
多數情況下,你需要至少運行兩周的測試(我的個人最低時間是四周,因為兩周通常是不準確的),然后,如果你需要延長測試時間,則應用七天規則逐步疊加。
注意外部因素
如果你在雙十一等一些購物季獲得了良好的測試結果,那么你一定要在購物季結束后再次進行重復的測試。另外,如果你的公司鋪設了一些電視廣告或者其他大型活動,都可能會影響你的測試結果。你必須要了解你的公司正在做什么,因為外部因素會影響到你的測試結果。
三、沒有足夠的流量也進行 A/B 測試
如果你每月只能完成一次或兩次銷售,然后進行測試,結果顯示 B 方案比 A 方案的轉化率高 15%,這樣的結果準確嗎?
當然不。許多人都喜歡用 A / B 測試來驗證假設,但流量較小的情況下,即使版本 B 的效果再好,也可能需要數月才能達到統計顯著性。
不基于假設就進行測試
我喜歡意大利面,但我對意大利面條柔韌度的測試卻沒多大興趣,比如將它扔在墻上,看它是否粘住墻壁?
這其實是一種隨意的測試想法,而測試這種隨機想法需要付出巨大代價,它會浪費你寶貴的時間和流量,所以永遠不要那樣做。你需要有一個假設。假設的提出要根據有限的證據,這個證據可以通過實驗去被證明,并且作為一個新的研究起點。
如果你在沒有明確假設的情況下進行 A/B 測試,然后發現 B 方案的轉化率高了 15%,可是你從中學到了什么?
什么沒有。我們需要了解我們的受眾,獲得合理的假設,這將有助于我們更好地改進貼合實際的測試。
四、不利用大數據分析平臺
測試的平均值往往包含著謊言。如果 A 方案比 B 方案的轉化率高出 10%,但也并不能代表全部。你需要將其中的指標再次進行分割測試,去分析其中的各項細分指標。你可以使用一些優質的大數據分析工具,利用各種分析模型,對數據進行細致地分析和處理。
圖 4. 圖片來源于神策數據
五、為了不值得的問題進行測試
你測試過用戶喜歡什么顏色,對嗎?
請趕快停止吧。世界上哪里有最好的顏色,因為顏色始終與視覺層次結構有關。當然,你可以在網上找到有人通過測試顏色從而獲得收益,但這些結果很多都是顯而易見的,所以,不要把時間浪費在這些測試上。
余下的 6 個誤區,未完待續,歡迎大家持續關注。
原文來源:https://conversionxl.com
原文作者:Peep Laja
翻譯:研如玉,神策數據·用戶行為洞察研究院 公眾號(ID:SDResearch)
本文由 @研如玉 翻譯發布于人人都是產品經理,未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
測試用例
前文描述的說會收到星期幾的因素所影響數據,其實是不正確的,因為既然是做AB Test,他的對比因素是相同的
也就是說,實驗組和對照組都是星期一 或 星期六等,判斷一個AB平臺是否準確,具有可參考意義,要看樣本的分流是否平均
還要根據樣本數,設定置信區間,當樣本數小的情況下,數據波動的范圍會較大,但如果是非常大的樣本數,比如100萬對比100萬的數據,即使是1-2天,0.1%的數據也是顯著置信的~
嗯嗯 是把可能出現的誤區都提出來了呢 ~