你的 A/B 測試是垃圾測試嗎?

1 評論 5761 瀏覽 31 收藏 11 分鐘

本文作者從市場營銷的角度出發,結合自己的所思所想,分享了在設計A/B 測試過程中需要注意的五個點,供大家一同參考和學習。

在這個以數字為先的廣告世界,許多領導者都渴望將營銷、市場作為一門科學來管理。于是,他們用精確、測量、數據這些科學的字眼來說話,他們聘請專業人士,他們教團隊用結構化的實驗來驗證他們的假設……

然而,除了十分專業的產品經理以外,大多數人并不知道如何用科學、正面的方法論去研究A/B測試的問題,盡管他們進行了所有“成功”的A/B測試,但對于具體的業務指標并沒有多大改善。

為什么會這樣呢?相關人員到底在A/B測試中學到什么?

我認為,從市場營銷的角度來談,在設計一輪A/B測試時,必須要記住以下五個要點:

一、統計顯著性

雖然這幾個字看上去毫無趣味,但大多數營銷人員不能正確定義統計的意義。

當我們開始一個A/B測試:“我正在測試的廣告之間沒有性能差異?!?/p>

然后,我們運行測試并收集數據,我們希望這些數據將反饋給我們信息,并得出相反的結論,即存在性能差異。

但從技術上講,問題是:“假設最初的假設成立,任何性能上的差異都是由隨機因素造成的,那么能觀察到實際差異的可能性有多大?”

所以,計算p值很棘手,但需要理解的重要一點是:p值越低,我們就越有信心得出我們測試的廣告之間存在真正差異的結論。

具體地說,p值為0.05意味著有5%的可能性,觀察到的性能差異將由于純粹的隨機因素而產生。

然而,重要的是,要學會理解這只是一個社會慣例所使用的標簽而已,在一個數據匱乏、沒有電腦的時代,這可以說是一個合理的標準,但在今天的世界,它可能已經被打破了。

二、統計顯著性≠實際顯著性

統計顯著性分析雖然可以幫助市場人員評估廣告之間是否存在性能差異,但它并沒有說明這種差異在實際應用中有多大或有多重要。有了足夠的數據,無關緊要的差異可被視為“具有統計意義”。

例如,假設你用兩個稍微不同的廣告運行一個A/B測試。

你為每個廣告投放了1,000,000個展示,然后你發現版本A獲得1,000個展示,而版本B獲得1,100個展示。使用相關的A/B測試計算方法,你將看到這是一個“具有統計意義”的結果—p值為0.01,遠遠超過通常的0.05閾值。

但這一結果是否具有實際意義?

數字代表著一個進步,但在大多數營銷環境中很難改變游戲規則,記住,有時候需要成千上萬次的投放才能得出這個結論,而這個結論本身就很費錢。

我對營銷領導者的實際建議是:要學會接受這樣的事實,市場與產品不同,A/B測試中微小的調整可能很難會產生巨大影響。

要學會重新定義測試在市場營銷中所扮演的角色,使你的團隊成員將重要性分析理解為一種比較有意義的理念與方法,而不是定義成功。

三、謹防“偏見”

但是,如何理解那些我們讀過的、并與我們的團隊分享過的、看起來微不足道的A/B測試帶來的巨大性能收益的文章呢?比如“如何添加逗號提高30%的收入”“這個表情符號改變了我的生意”等等。

雖然肯定會發生這樣的情況,但它們的數量和距離都比互聯網搜索所能讓你相信的要少得可憐。

在市場營銷領域,這個問題被一些因素復雜化了:人們總是很輕易的認為,通過一些A/B測試,輕松取勝就在眼前;所以,他們當然不會公布那些沒有產生有趣結果的實驗,也就容易造成一種分布偏見。我們不會看到或談論所有A/B測試的結果,更何況一些測試運行的結果根本就是無關緊要的。

所以,請記住,一些看起來好得令人難以置信的結果很可能是真的。但你需要這樣問自己:他們進行了多少次實驗才得出如此驚人的結果?

不要因為要復制有價值的結果而感到壓力,相反,要把注意力集中在不引人注目但更重要的工作上,測試有意義的不同策略,并尋找具有實際意義的重大結果——這才是真正的價值所在。

四、小心 p-hacking

數據是營銷人員最好的朋友,但它同時還帶著一個警告標簽,因為你擁有的數據維度越多,你就越有可能以某種方式陷入被稱為“p-hacking”的反模式。

P-hacking指的是數據分析能夠從純噪聲中產生看似“具有統計意義”的結果的某些方式。最明目驚心的p-hacking形式,不過是不斷地進行實驗,直到得到你想要的結果。

記住,p值為0.05意味著觀察到的差異有5%的幾率是隨機產生的,如果你將同一個實驗進行20次,你應該期望僅憑偶然就能得到一個“顯著”的結果。如果你有足夠的時間和動力,你可以有效地保證在某一時刻取得顯著的成果。

眾所周知,制藥公司為了讓一種藥物獲得FDA的批準會做這樣的事情,但這可不是什么好事。大多數營銷團隊永遠不會做這么愚蠢的事情,但有一些更微妙的p-hacking形式需要注意。

例如:你針對受眾,運行兩個不同的廣告;但是,當高層次的結果被證明不顯著時,通常會發生的情況是,我們對數據進行更深入的挖掘,以尋找更有趣的發現。

也許如果我們只看女性,我們會發現不同?我們看看不同年齡段的人呢?看看iPhone和Android用戶……

這種方式很容易分割數據,但通常被認為是一種很好的實踐方法。

在科學領域,這個問題已經通過一種叫做“預注冊”的實踐得到了解決。在這種實踐中,研究人員公布他們的研究計劃,包括他們希望進行的數據分析,以便他們研究的消費者能夠相信,結果不是在電子表格中合成的。

而在市場營銷中,我們通常不會公布我們的結果,但是我們應該應用這些最佳實踐。

五、在 ROI 中包含實驗成本

生活中一個經常被忽視的事實是A/B是免費的,但其實,它們需要花時間、精力和金錢來設計和執行。

大多數A/B測試關注的是創造性,因為廣告性能在很大程度上是由創造性驅動的。大多數寫在A/B測試上的東西就像從天上掉下來的創意一樣,你所需要做的就是測試,以確定哪種效果最好。

例如:假設你的總營銷預算為25,000美元,而你正在嘗試決定是在單個廣告上花費2千美元,還是在5種不同的變體廣告上花費5萬美元;如果我們假設你需要在每個廣告變體上花費1美元來測試其性能作為A/B測試的一部分,那么你需要獲勝的廣告比A/B測試的基線性能至少高出20%才是值得的。

20%可能聽起來并不多,但是任何做過重要A/B測試的人都知道這樣的收益并不容易獲得,特別是如果你在一個相對成熟的環境中進行操作。

所以,請記住,你的目標是最大化廣告投資回報率,而不僅僅是為了實驗而實驗。預先運行ROI計算,以確定你需要多大程度的改進才能使你的A/B測試物有所值。

六、寫在最后

科學的營銷方法對該領域具有不可思議的價值,但營銷人員經常使用的一些方法和工具,可能只是膚淺的理解,最終浪費了大量的時間、精力和金錢。

為了避免重復這些錯誤,并在相關問題上取得一些有價值的進步,相關人員必須學會從復雜或習以為常的錯誤中,不斷吸取教訓,改善并提升。

 

原文作者:NathanLabenz;原文來源:https://martechtoday.com

編譯過程中有所刪減。

編譯:研如玉,神策數據·用戶行為洞察研究院 公眾號(ID:SDResearch)

本文由 @研如玉 翻譯發布于人人都是產品經理,未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 有沒有人覺得翻譯有點繞口。。。。。。。。
    A/B Test是有P值,是需要大量成本的,是有可能帶來偏見的,需要進行ROI評估,A/B Test不是萬能的?

    來自浙江 回復