Martech 營銷自動化從 AB 測試開始

7 評論 4651 瀏覽 25 收藏 23 分鐘

在數據驅動決策的理念、思維、工具日益革新左右手的增長邏輯的今天,如何決策,即大數據應該走向決策數據顯得尤為重要。本文作者在文中詳細介紹“AB測試”這一科學經營行為,闡述為何將它稱作成功企業留住客戶、進行商業變現的奠基石。同時為大家解釋AB 測試相關術語,舉例數據及其相關過程。值得童鞋們交流分享。

如今的企業營銷決策變革主要在兩個維度發生改變:

左手是市場導向型戰略,即公司業務的市場增長邏輯、增長區間在什么地方,偏宏觀戰略;

右手是消費者行為研究,即如何深入理解消費者偏好、促進精準營銷轉化,偏微觀策略。

今天,數據驅動決策的理念、思維、工具都在革新左右手的增長邏輯。重要的是如何決策,即大數據應該走向決策數據。

過去企業經常談以消費者為中心,很容易陷入空洞的口號,主要過于依賴員工的理解和執行,造成落地難度很大。如今,大量數字化觸點的建設,使多維度數據的可獲得性大大提高,帶來了全新的連接關系。無論是 Martech 的前鏈路還是后鏈路營銷,這種連接直接促成了互動行為的數字化,一個最終的消費決策被分割成無數微觀的階段性消費者行為切面。而 AB 測試,就是對消費者行為切片進行量化反饋的過程,扮演著大數據向決策數據轉變的催化劑作用,也是數據決策的重要抓手。

早在 2007 年,谷歌就建設了完善的 AB 測試系統,隨后實驗的頻率越來越高。

  • 現在谷歌每個月都會上線幾百個 AB 測試,谷歌通過這些實驗可獲得全年 20%+ 的增長,增加超過 10 億美元的營收;
  • Facebook 的 CEO 會親自參與眾多的 AB 測試;
  • Linkedin 把 AB 測試作為產品研發上線過程中的基本流程;
  • 國內大廠中,小米是 AB 測試的先驅者,從 2010 年 8 月 16 日首個 MIUI 內測版發布,就開始進行系統性的 AB 測試,測出天使米粉對哪些功能更感興趣并進行快速迭代,每個員工、米粉都積極參與到 AB 測試,并形成了小米“參與感”的文化底蘊;
  • 字節跳動自 2012 年成立以來,字節跳動先后將 AB 測試應用在產品命名、交互設計、推薦算法、用戶增長、廣告優化和市場活動等方方面面的決策中。

AB 測試背后,折射出的是企業“讓數據和事實說話”、“避免拍腦門”的決策機制。AB 測試堪稱是成功企業留住客戶、進行商業變現的奠基石。

在消費品行業,AB 測試同樣大有所為。比如元氣森林正是通過 AB 測試,在氣泡水這一細分賽道里突圍而出。首先進行口味測試,測出天使用戶對哪一種口味更感興趣;再進行電商測試,看看驗證型的產品在電商渠道的情況,是否達到規?;瘶藴?,再去進行線下鋪開;在門店測試中,通過各種 IOT 設備監測消費者的互動和購買行為,調整選品和陳列策略,最終完成整個 DTC 測試。這套測試方法,本質上就是推動從大數據到決策數據轉變的過程。

很多人一直把 AB 測試理解成一個技術行為,其實它是一種業務經營行為,而且是一種科學的經營行為。我們不應當僅僅拿它作為一個工具,而應當將它變成一種思維,一種方法論,一種企業經營策略。

AB 測試有很大的作用,但能用好 AB 測試的公司并不多,本文立意是 Martech 領域中如何用 AB 測試理解微觀層面的消費者偏好并進行精準營銷自動化,以及闡釋 AB 測試的底層邏輯。

一、什么是 AB 測試

簡單來說,當企業面臨決策的不確定時,可以從整體流量中劃出小部分流量,隨機、均勻地分出兩組,分別由兩組用戶進行測試,最終通過實驗數據對比確定更優方案。實證科學本質就是一種 AB 測試,將實驗對象分組、比較、校準,形成可復制的經驗。用胡適的話,“大膽假設、小心求證”,而今由于行為數據的豐富,AB 測試成為 Martech 的底牌之一。

從心理上,消費者往往不知道自己要什么,但從行為上,我們能知道他們的真實選擇偏好,企業也由此可以動態做出決策。通過 AB 測試,確保每個決策都為企業帶來正向收益,實現復利效應,帶動持續增長。

二、解釋幾個 AB 測試相關術語

1. 流量互斥層

是為了讓多個實驗能夠并行不相互干擾,且都獲得足夠的流量而研發的流量分層技術。把總體流量“復制”無數遍,形成無數個流量層,讓總體流量可以被無數次復用,從而提高實驗效率。各層之間的流量是正交的,你可以簡單理解為:在流量層選擇正確的前提下,流量經過科學的分配,可以保證各實驗的結果不會受到其他層實驗的干擾。

2. 流量正交實驗

每個獨立實驗為一層,一份流量穿越每層實驗時,都會隨機打散再重組,保證每層流量數量相同。

舉個例子。假設現在有 2 個實驗。

  1. 實驗 A(實驗組標記為 A1,對照組標記為 A2)分布于實驗層 1,取用該層 100% 的流量;
  2. 實驗 B(實驗組標記為 B1,對照組標記為 B2)分布于實驗層 2,也取用該層100% 的流量。

(要注意,實驗層 1和實驗層 2實際上是同一批用戶,實驗層 2 只是復用了實驗層 1 的流量)

  1. 如果把 A1 組的流量分成 2 半,一份放進 B1 組,一份放進 B2 組;
  2. 再把 A2 組的流量也分成2半,一份放進 B1 組,一份放進 B2 組。

那么兩個實驗對于流量的調用就會如下圖所示。此時實驗 A 和實驗 B 之間,就形成了流量“正交”。

劉生:Martech 營銷自動化從 AB 測試開始

我們可以發現,因為 A1 組的一半流量在 B1 中,另一半流量在 B2 中,因此即使 A1 的策略會對實驗 B 產生影響,那么這種影響也均勻的分布在了實驗 B 的兩個組之中;在這種情況下,如果 B1 組的指標上漲了,那么就可以排除 B1 是受 A1 影響才形成上漲。這就是流量正交存在的意義。

3. 互斥實驗

所有互斥實驗使用同一流量層用戶,但不共享用戶,如果一個用戶 / 設備命中了實驗 A,就不會命中互斥的其他實驗。

4. 實驗指標

在開始一個實驗時,目的是對比對照組和實驗組的某個或者某幾個指標。如,分析活動頁面主圖的點擊次數時,需要上報注冊的點擊事件,然后在 AB 測試中配置指標,即可看到實驗中及實驗后的指標對比。

5. 流量過濾

對 AB 測試的目標用戶增加一些限制條件,規定被實驗命中的用戶必須符合(或不符合)條件,比如針對某個用戶分群,某些用戶標簽進行過濾,進而精準找到測試目標人群,這種限制條件即“流量過濾”。

6. 白名單用戶

在實驗正式開啟之前,通常需要先選擇幾名用戶進入測試階段,觀察實驗是否能夠正常獲取想要收集的數據,或執行流程是否符合預期。參與這一步的用戶被稱為“白名單用戶”。

7. 置信區間

置信度區間就是用來對一組實驗數據的結果進行估計的區間范圍。

舉個例子,我們現在進行一個實驗來體現活動落地頁中的圖案改變對用戶購買率的影響,其中采用了新策略 B 的實驗組,購買率提升均值為 5%,置信區間為[1.5%,8.5%]。

怎么理解此處的置信區間呢?由于在 AB 實驗中我們采取小流量抽樣的方式,樣本不能完全代表總體,那么實際上策略 B 如果在總體流量中生效,不見得會獲得 5% 的增長。

如果我們設策略 B 在總體流量中推行所導致的真實增長率為 μ,那么在這個案例中,μ 的真實取值會在 [1.5%,8.5%] 之間。

值得注意的是,μ 并不是 100% 概率落在這一區間里,在計算置信區間的過程中,我們會先取一個置信度,計算這一置信度下的置信區間是多少,AB 實驗中我們通常計算 95% 置信度下的置信區間。

回到剛剛的例子,我們就可以得知,μ 的真實取值有 95% 的可能落在 [1.5%,8.5%] 之間。

8. 置信度

在實際操作中,會遇到實驗結論顯示新策略有用,但實際上全量發布新策略后沒用。

在統計學中稱為第一類錯誤,用顯著性水平 ( α ) 來描述實驗者范這一類錯誤的概率,置信度 = 1 – α,當某個實驗結論顯著性指標 α < 5%,則置信度 > 95%,我們認為這個實驗結論指標大概率是可信的,系統有超過 95% 的信心確認這個實驗結論是準確的。

在 AB 測試中,由于只能抽取流量做小樣本實驗。樣本流量的分布與總體流量不會完全一致,這就導致沒有一個實驗結果可以 100% 準確,即使數據漲了,也可能僅僅由抽樣誤差造成,跟我們采取策略無關。

在統計學中,置信度的存在就是為了描述實驗結果的可信度。

9. 校驗靈敏度 ( MDE )

實際操作中,會遇到新策略其實有效,但實驗沒能檢測出來。

在統計學中稱為第二類錯誤,用 β 來描述實驗者范這一類錯誤的概率,統計功效 = 1 – β,統計功效表示如果新策略是有效的,有多大概率在實驗中能夠檢測出來。通常認為統計功效 > 80% 為有效檢測 。

通過設置 MDE,并與新策略的目標提升率進行比較,來避免實驗在靈敏度不足的情況下被過早做出非顯著結論而結束,錯失有潛力的新策略。MDE 越小,意味著要求測試的靈敏度越高,所需的樣本量也越大。

如果 MDE 設置過于精細,不僅會浪費不必要的流量,同時實際收益可能不能彌補新策略的研發和推廣成本。靈敏度不足,比如預期 1% 就達標,但實驗靈敏度僅能檢測 5% 及以上,會導致錯失有潛力的新策略。

三、AB測試的魅力何在

AB 測試究竟有什么魅力,能夠為企業帶來如此大的收益,被各大互聯網公司視為法寶。

一方面 AB 測試只用整體流量中的一小部分進行實驗,避免了一個錯誤決策對整個公司用戶的嚴重影響,另一方面又能夠依靠數據對每個特征進行影響力量化,使得我們可以以較小的風險對新特性進行評估,積極試錯積累經驗,并且這個方法有能力排除其他因素(如同時開發的其他特性、時間因素等)的干擾;除了“好’或者‘不好“,也能夠給出定量的結果。

之所以 AB 測試能夠用小部分流量進行抽樣,并量化誤差,得到相對準確的預測結論,根源在于中心極限定理的存在。中心極限定理定告訴我們,如果我們從總體流量里不斷抽取樣本,做無數次小流量實驗,這無數次抽樣所觀測到的均值,近似呈現正態分布。

這個分布以真值(所有抽樣的平均值) 為中心,抽樣均值越接近真值,出現的概率就越大;反之均值越偏離真值,出現的概率就越小。

對于一個待投放的營銷素材而言,假設以消費者點擊率為實驗指標,只要小流量抽樣次數足夠多,可以得到一個正態分布圖,抽樣次數越多,正態分布均值越趨近于真實的消費者點擊率。

開啟實驗前,哪一個版本表現更好往往是未知的。傳統的 AB 測試依賴于統計顯著性的經典假設檢驗,為對照版本和實驗版本分配定額流量,一般不允許在實驗期間變更每個版本的流量,因此該類實驗的缺陷比較明顯,即便已發現實驗版本明顯優于對照版本,實驗期間我們還需要在對照版本上繼續花費流量直至實驗結束,以便獲得具有統計學意義的結論。

但是在廣告投放、營銷活動推送等場景下,運營人員期望盡快獲得最大收益。此種場景就需要考慮如何在快速發現并收斂到高價值素材和不放棄對新素材的嘗試這兩者之間取得平衡( EE 問題),以追求收益的最大化。

Martech 營銷自動化就是為了解決這類實驗場景,依托多臂老虎機(MAB)強化學習手段,通過概率分布的思想找到最可能成為最優解的實驗版本,快速加大分配流量,并實時計算實驗收益,達到收益最大化。

應用舉例

某公司準備進行一次營銷活動,通過營銷自動化 AB 測試工具進行一次實驗,選出最佳素材,流程如下:

劉生:Martech 營銷自動化從 AB 測試開始

  1. 設計團隊準備 3 個素材,交付到運營投放團隊;

2. 在營銷自動化平臺開啟 AB 測試,按照目標人群標簽過濾出 9000 人流量;配置實驗 1、實驗 2、實驗 3,分別對應素材 1、素材 2、素材 3,初始流量比例各占 1/3;開啟互斥實驗;定義實驗指標為用戶點擊率,記錄每個用戶看到素材后的點擊行為;

3. 實時獲取數據,每隔 30 s 統計一次實驗效果;

4. 采用基于貝葉斯推斷的湯普森采樣,使用 Beta 分布對用戶點擊率的概率分布進行繪制,它有兩個正值參數,α 和 β,決定了概率分布的形狀,兩個參數默認值都為 1。

Beta 分布的均值是:

劉生:Martech 營銷自動化從 AB 測試開始

Beta 分布的方差是:

劉生:Martech 營銷自動化從 AB 測試開始

使用 Python matlab 模擬不同 α 和 β 情況下 Beta 分布(如下圖),可以得到兩個重要信息:

1)α / (α + β) 越大,概率密度分布的中心位置越靠近 1,依據此概率分布產生的隨機數更大概率靠近 1,反之越靠近 0;

2)α + β 越大,分布越窄,集中度越高,這樣產生的隨機數更接近中心位置,從方差公式上能看出來。

劉生:Martech 營銷自動化從 AB 測試開始

依據以上特性,結合本次實驗指標,定義 α 為素材被用戶點擊次數,β 為素材未被用戶點擊素材次數。舉例來說,當某個用戶看到素材 1 時,如果他點擊了素材,則 α += 1,否則,β + = 1。

經過 30 s,進行實驗效果統計時,發現素材 1 的 α = 170,β = 82,素材 2 的 α = 82,β =170,素材 3 的 α = 30,β = 20,則 3 個素材點擊率的概率分布圖如下:

劉生:Martech 營銷自動化從 AB 測試開始

劉生:Martech 營銷自動化從 AB 測試開始

劉生:Martech 營銷自動化從 AB 測試開始

通過分布圖可以看到 素材 1 的點擊率平均值 0.674,素材 2 的點擊率平均值 0.325,素材 3 的點擊率平均值 0.6。可以看到在抽樣流量下素材 1 的效果明顯好于素材 2,但素材 3 由于命中的流量比較少,概率分布圖的方差很大,此時如果直接選擇素材 1 則有可能失去一次對更好素材的探索機會。

這時湯普森采樣會從各素材的 Beta 分布中隨機獲取一個值,并選出隨機值最大的素材進行流量分配。比如素材 1 隨機得到 0.71,素材 2 隨機得到 0.286,素材 3 隨機得到 0.73,此時下一個用戶就會命中素材 3,并根據用戶點擊數據的真實反饋,重繪素材 3 的 Beta 分布。選擇湯普森采樣的好處就是平衡了 EE ( Exploration& Exploitation) 的問題,總體上點擊率越高,獲得的流量越大,同時兼顧了探索新素材的可能;

5. 具有一定初始流量后,各素材繪制的 Beta 分布圖逐漸產生差異,使用湯普森采樣,平均值靠近 1 的素材會更容易獲得新流量,而命中次數比較少的素材,因為集中度低,也有一定概率獲得流量。隨著真實流量的增加,最終收斂到某個最優素材;

6. 蒙特卡洛模擬是在已知各素材 Beta 分布的基礎上,多次從各素材隨機抽取,然后經驗地計算出每一個素材的點擊率,此方法可以模擬海量流量,最大趨近于全量發布方案效果。當真實流量放大到一定程度,與模擬收益相符最優素材勝出,實驗收斂并結束。

三、總結

Martech 營銷自動化工具突出利用算法和大數據進行 AB 測試并自動化決策和執行,取得收益最大化。這與傳統 AB 測試最大區別是時間短、靈活度高,在廣告投放、營銷活動推送等場景下,運營人員可以嘗試更多營銷方案同時盡快收斂最大收益方案,這平衡了 EE ( Exploration& Exploitation) 問題。

劉生:Martech 營銷自動化從 AB 測試開始

傳統 AB 測試,長時間穩定流量觀察數據,得到具有統計意義的結論。

劉生:Martech 營銷自動化從 AB 測試開始

營銷自動化 AB 測試,根據實時數據反饋,流量傾斜到優質內容,迅速收斂。

 

本文由 @劉生 原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. AB測試在市場決策中提供的數據支持還是蠻重要的。第一次看到將它變成一種思維、方法論和企業經營策略的觀點,很新鮮。但文章中的舉例和實驗對照還是略微有些難以理解。

    來自福建 回復
  2. Martech 營銷是什么,可以大致的講一下嗎。不太能理解這篇文章

    來自北京 回復
    1. MarTech 簡單來說就是 Marketing + Tech,營銷技術,用來優化營銷策略和進行自動化營銷

      來自北京 回復
  3. 作者沒在martech行業從業過吧,寫的太理想化了,基本不會有公司像你寫的那樣來執行的

    來自上海 回復
    1. 我本人就是做 martech 創業的,歡迎關注我的公眾號

      來自北京 回復
  4. AB測試通過積極試錯,試出最適合產品研發發展的方向,這給企業帶來的效益是無窮的,而且企業旗下的品牌也可以用同一種打法占領市場。

    來自廣東 回復
  5. 這篇文章對于我來說還是蠻難理解的,好多公式跟專業圖,但結構清晰,值得細細品讀

    來自江蘇 回復