国产一区二区三区日韩精品,国产小呦泬泬

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

只需7步，輕松搭建AB測試閉環(huán)！

原味的運營筆記

2022-04-01

2 評論 5776 瀏覽 66 收藏

11 分鐘

編輯導語：隨著企業(yè)對數(shù)據(jù)越來越重視，A/B測試已被廣泛應用于各類場景、各類職能中尋找突破口尋找增長機會，降低投入風險。那究竟什么是A/B測試？本文對此展開分析。

A/B測試是一種通過一些客觀指標，對比不同方案來衡量哪種效果更佳路徑的評估方式，其優(yōu)勢在真實環(huán)境，通過部分用戶產(chǎn)生的用戶行為數(shù)據(jù)和業(yè)務數(shù)據(jù)，驗證不同的設計方案，最后分析、評估出最優(yōu)方案再加以正式應用。

A/B測試的場景不勝枚舉，那么如何進行科學的A/B測試？原味提供兩個關(guān)鍵點：分群和評估，接下來用7步法來鎖定A/B測試評估策略：

一、A/B測試策略制定

A/B測試永遠是基于策略出發(fā)的，在有明確的策略后，才能夠找到驗證策略是否有效的用戶群，并且用合理的指標去做評估分析。

在這個步驟，通常會經(jīng)歷策略提出、策略打分、策略確定三個步驟。

不管是哪種應用場景，在A/B測試策略制定這一步每個人都會有自己的想法，這就導致會產(chǎn)生許多策略，但不必將每個策略都作為實驗組上線測試，否則在前期的物料準備、方案實現(xiàn)等環(huán)節(jié)會花費巨大的成本。

團隊內(nèi)部做決策時可以使用ICE模型對各項指標進行打分，然后通過每個策略的三個因子的分數(shù)加總，找到得分最高的幾個策略進行A/B測試。

二、測試目標（評估指標）選擇

在策略評估中，評估指標是非常重要，那如何選擇指標，這里需要以OSM模型為基礎，從大目標（O）出發(fā)，找到能夠達到該目標的策略（S），用合理的指標（M）去追蹤策略是否能夠達成業(yè)務目標。

在測試過程中預估實驗樣本量也需要控制好。

若樣本數(shù)量太少，產(chǎn)生的結(jié)果容易受到異常樣本的干擾，導致結(jié)果不具備通用性。
若樣本數(shù)量太大，測試流量過多，就會造成試錯成本的增加，會影響后期的判斷。

在測試過程中預估實驗周期性也需要控制好。

若測試時間太短，沒有足夠的樣本進入實驗組，難以得出有效結(jié)論。
若測試時間太長，就會產(chǎn)生維護線上多個版本的成本，難控制局面。

這里推薦個測試AB測試工具-A/B測試樣本計算器，輸入相關(guān)參數(shù)即可預估測試實驗轉(zhuǎn)化后的數(shù)據(jù)，這里有根據(jù)自身節(jié)奏調(diào)整樣本數(shù)：

影響實驗所需樣本數(shù)的因素：

原版本的轉(zhuǎn)化率：

原版本的轉(zhuǎn)化率較低，意味著信號更弱，需要樣本數(shù)越多。

新版本的轉(zhuǎn)化率：

預期和原版本的轉(zhuǎn)化率差別越小，要求檢測的敏感度就越高，因此需要的樣本數(shù)越多。

統(tǒng)計顯著性要求：

一般建議至少要求95%的統(tǒng)計顯著，統(tǒng)計顯著性要求越高，意味著對結(jié)果需要更確定，因此需要的樣本數(shù)越多。

（統(tǒng)計顯著性：告訴實驗者優(yōu)化版本轉(zhuǎn)化率與原始版本轉(zhuǎn)化率相比，兩者不同的概率有多大，也就是說，它能回答優(yōu)化版本上的改變是否真的對轉(zhuǎn)化率產(chǎn)生影響。）

三、科學分流

A/B測試的分流是否均勻是影響實驗結(jié)果的重要因素，一般分流的方式是基于用戶ID或者設備ID等能夠標識用戶的唯一編碼，通過算法將用戶隨機分到不同的“桶”里

例如，有60個用戶，獲取這60個用戶的ID，根據(jù)用戶ID進行分流，將這60個用戶隨機均勻分散到6個“桶”中。

完成“桶”分流后，需要做的就是根據(jù)實驗要求從這些“桶”中選取對應的流量進入測實驗組。

A/B測試的基本原理是控制變量，在分流中需要確保樣本平衡分布，即不同“桶”的人群特征是均勻分布的，不能實驗分組時，實驗A全是老人或?qū)嶒濨都是女生，這樣測出的結(jié)論數(shù)據(jù)都會影響營銷決策，無意義分流。

四、A/A測試

為了確保樣本的均勻分布，排除由于樣本自身差異帶來的影響，一般會在A/B測試前進行A/A測試，也可以在A/B測試中劃出一部分流量同時進行A/A測試。

A/A測試，顧名思義就是實驗中下發(fā)的策略都是一致的。

在此前提下，對比每組是否有顯著差異，如果存在顯著差異，那么在實驗的分流、埋點或者數(shù)據(jù)統(tǒng)計中至少有一項必定存在問題，所以，A/A測試運營的意義就是增加A/B測試的實驗結(jié)論可信度。

一方面，發(fā)現(xiàn)用戶識別問題及用戶分流問題，及時修復，確保數(shù)據(jù)的準確性。
另一方面，排除樣本用戶的屬性干擾，保證用戶特征分布一致，確保實驗差異僅由變量造成。

用影視會員產(chǎn)品轉(zhuǎn)化率的例子來解釋A/A測試，下圖是影視會員產(chǎn)品付費頁的付費轉(zhuǎn)化率項目的A/A測試結(jié)果。

排查時發(fā)現(xiàn)是對用戶的唯一識別出現(xiàn)了問題，修正后接著進行A/A測試，最后各組用戶的差異不顯著，可以認為用戶特征分布基本一致。

五、策略投放

在企業(yè)真實環(huán)境中，會有很多A/B Test實驗，所以策略投放需要先判斷不同實驗之間的關(guān)系。

①正交實驗：實驗之間相互不影響。

例如，實驗組1是測試不同按鈕顏色的實驗，實驗組2是測試不同廣告算法的實驗，實驗組1的按鈕顏色是不會影響到實驗組2廣告算法的效果，所以實驗組1和實驗組2之間是正交實驗。

②互斥實驗：實驗之間存在相互影響。

例如，實驗1是測試溫控限頻策略對溫度的影響，實驗2是測試溫控降亮度對溫度的影響，實驗1和實驗2都會影響溫度，所以實驗1和實驗2之間互斥。

全局流量基本是固定的大小，不可能說劃分的每個流量群體在同一時刻只開展一個實驗，不然容易發(fā)生流量饑餓。

所以在策略投放中需要合理的控制變量，選擇好一個固定的北極星指標，隨后將目標進行合理拆解細分目標，進行投放測試，選擇最優(yōu)路徑策略來作為A/B測試的最終方案。

六、數(shù)據(jù)監(jiān)控

這塊不細說了，因為每家公司的數(shù)據(jù)監(jiān)控的工具都不同，有自己研發(fā)的數(shù)據(jù)測試看板或者第三方服務商提供的數(shù)據(jù)監(jiān)控。

AB測試的數(shù)據(jù)看板不必過于復雜，目的是快速展現(xiàn)各組的關(guān)鍵指標變化趨勢及是否滿足統(tǒng)計顯著性。

七、策略結(jié)果分析與執(zhí)行

A/B測試結(jié)束后，通過數(shù)據(jù)看板可以確定本次測試是否具備顯著性，也就是策略是否有影響。

影響不一定都是正向影響，一般對于實驗結(jié)果：顯著大幅正向＞顯著小幅正向＞顯著負向＞沒有統(tǒng)計顯著性，對于負向顯著的結(jié)果不要害怕，起碼這個結(jié)果告訴我們不應該做哪些東西。

完成一次A/B測試后，業(yè)務方需要將顯著有效的策略放量，將其應用到更多人群中，并且找到該策略的優(yōu)化點，進行迭代的A/B測試。

對于顯著無效的策略，需要分析無效的原因并進行策略迭代、調(diào)優(yōu)。

這樣不斷在原有結(jié)論的基礎上持續(xù)進行A/B測試，每次測試都是“上臺階”的過程，隨著測試的次數(shù)增長，帶來的收益會持續(xù)增加，對團隊的自信心也會逐漸上升，減少投入成本，實現(xiàn)迭代式增長。

本文由 @原味的運營筆記原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

原味的運營筆記

公眾號：「原味與他的朋友們」，分享運營干貨、打開最新的流量密碼

32篇作品 190654總閱讀量

從煮茶到冰茶，我已經(jīng)“圍爐PTSD”了

04-271628 瀏覽

網(wǎng)文IP的風，吹到“下飯劇”？

09-234932 瀏覽

無人能「喚醒」雙十二

12-141207 瀏覽

SaaS 102 | Deel 如何用 20 個月把 ARR 從一百萬美金做到一億美金？

02-118887 瀏覽

【合集】21個頂尖文案高手寫作錦囊

11-015563 瀏覽

評論

欣寶寶

AB測試的數(shù)據(jù)看板不必過于復雜，目的是快速展現(xiàn)各組的關(guān)鍵指標變化趨勢及是否滿足統(tǒng)計顯著性。

最近來自中國回復
程某人

為同一個優(yōu)化目標制定兩個方案，讓同一部分用戶中的一部分用戶命中 A 方案，同時另一部分用戶命中 B 方案

最近來自山東回復