實驗引爆用戶增長:A/B測試最佳實踐
A/B測試是什么?怎么做?有什么作用呢?本篇文章為大家分享了幾種應用場景及案例,告訴大家如何在團隊中有效推進A/B測試。
在互聯網下半場競爭中實現科學增長,切實讓A/B測試發揮增長引擎的作用是應有之義。
本文分享了A/B測試對業務轉化率提升帶來的價值,以及如何在團隊中有效推進A/B測試及A/B測試系統科學設計實踐等內容。
一、今日頭條增長秘籍:A/B測試驅動
抖音可以說是現在增長最火熱的公司,流行于大街小巷行走的人們手機之中,它讓騰訊感到深深的危機感,被迫應對,從2017年下半年開始,抖音就呈現出現象級爆發式增長。
其母公司字節跳動,估值750億美元,本身就是一個非常講究實驗、以A/B測試驅動科學增長的公司。
A/B測試對頭條系產品來講是很自然的事情,整個公司從最高管理層張一鳴開始就非常注重。36Kr曾在一篇報道中寫道,“頭條發布一個新APP,其名字都必須打N個包放到各大應用市場進行多次A/B測試而決定,張一鳴告訴同事:哪怕你有99.9%的把握那是最好的一個名字,測一下又有神馬關系呢?”
今日頭條從起名字開始就運用了數據思維,創始團隊沒有頭腦風暴,沒有投票,沒有老大拍板兒,而是采用科學實驗的方式,通過數據觀測確定了頭條的名稱。
他們將App Store上各類免費榜單的前10名整理出來,然后根據名字歸類(朗朗上口白話類,內涵情懷類,模擬特殊聲音類,公司名+用途類等),分析那各類數量占比。分析結論是朗朗上口的大白話效果最好。
其次,分渠道A/B測試,確定先驗效果類似的發布渠道,分別投放,界面功能logo完全一樣,統計各個渠道的用戶下載和活躍等核心數據指標,最后測得《今日頭條》效果最好。
二、什么是A/B測試?
A/B 測試是一種產品優化的方法,為同一個優化目標制定兩個方案(比如兩個頁面),讓一部分用戶使用 A 方案,同時另一部分用戶使用 B 方案,統計并對比不同方案的轉化率、點擊量、留存率等指標,以判斷不同方案的優劣并進行決策。
上面圖示就是一個典型的A/B測試范例。
在A/B測試比較成熟的公司中,可能并不局限于只有A、B兩個版本,可能會有ABC測試、ABCD測試,甚至是ABCDE測試。
有一些情況,可能會出現比較特殊的A/B測試,比如說AAB測試,因為需要驗證整個AB測試系統的準確度,需要設置兩個對照組,所以叫AAB測試。
不管同時運行幾個實驗,我們都可以將它們統稱為A/B測試,英文為ABtest或ABtest。
結合公開數據和行業深度調查,我們整理了行業A/B測試頻率概覽圖,其中可以看到,公司市值或體量與A/B測試頻率呈正相關關系。
像谷歌等大體量公司,它本身具有較為成熟的A/B測試系統與數據分析平臺,平均每周A/B測試就多達2000個A/B測試,其中包括一些相對復雜的實驗,如推薦算法A/B測試,也有相對簡單的A/B測試。至于國內BAT等一線互聯網公司,它們每周也會進行上百個A/B測試。
在與我們合作的大部分公司當中,行業分布廣泛,比如互聯網金融、電商、O2O等廠商,它們自身沒有能力和精力自研一套成熟的A/B測試平臺,所以他們選擇與Testin A/B測試合作,將A/B測試服務快速應用到業務中。
比如,某互聯網金融用戶,在使用Testin A/B測試前,每周只能做0.1個A/B測試,使用了云測A/B測試服務后,大大提升了A/B測試頻率,每周跑大概30個A/B測試實驗。
當然,在其每周30個實驗中,約有1/3的實驗會取得轉化率指標提升5%-30%的效果,剩余2/3的實驗效果并不理想,未取得較好的數據指標提升。
通過這個例子,我們可以看出,大概2/3的產品設想并不符合預期,就是說轉化率其實沒有原始版本好。這個也是為什么需要A/B測試的根本原因,憑借產品直覺去做產品決策,但2/3的改進并不是最優解。
上述圖表展示的是微軟必應搜索引擎A/B測試增長曲線,覆蓋Bing從2008年到2015年的時間的A/B測試實驗增長情況。
可以看到,在Bing產品初期,每周A/B測試頻率維持在10~50個,到2012年之后,Bing A/B測試每周頻率進入快速增長。
圖表右下角綠色曲線,是Bing移動端的A/B測試頻率增長曲線。通過該圖表,我們可以看到,Bing非常看重并認真實施A/B測試實驗,以驅動數據增長,促進業務發展。
三、A/B測試應用場景及案例
我們先看下A/B測試在移動應用中的四大應用場景,分別是App、落地頁、后端算法和小程序。
APP端是目前移動互聯網增長的主要載體,PC或H5(如常見的朋友圈刷屏活動)或者廣告投放落地頁面等則可以歸為落地頁,還有后端算法場景,如推薦算法、廣告算法、千人千面等等。
目前增長最快的應用場景,則是小程序。
在不同的場景,A/B測試的側重點也有不同,但最核心目標仍然都是圍繞業務的增長展開,也就是大家所熟悉的「北極星指標」,或者是 DAU、MAU等在A/B測試中設定的具體目標。
案例一:相機拍照類應用
以Camera360為案例,它選用Testin A/B測試服務幫助其進行產品優化決策。
該案例是其產品商業化過程中的一個嘗試,希望提升商店中表情包或道具的付費比例,但要完成付費指標,首先要提升商店入口點擊率。
所以,他們設定了多個商店入口方案(更改圖標樣式、文案),通過A/B測試來驗證哪個方案可以最大化提升商店入口點擊率。
在驗證過程中,他們也針對人群目標做了相關定向測試,如日本、中國、韓國等區域,最終他們針對這一入口同時上線7~8個測試版本,通過A/B測試,將整體點擊率提升了80%左右。
案例二
本案例為互聯網理財行業的App,他們期望通過更改簽到按鈕的文案提高簽到人數,從而提高留存率,按鈕文案由「簽到」改為「簽到賺錢」,并進行A/B測試,為A、B版本分配了各5%的流量。
在經過測試后發現新版本的簽到次數比原始版本簽到次數提高4.17%,其中95%置信區間結果顯示小范圍人群的試驗結果推廣到全量用戶之后,有95%概率獲得1.7% 至 6.6%的提升;p-value小于0.05,顯示新老版本有顯著統計差異,Power 為100%,說明統計功效顯著。
通過這次簡單的A/B測試,就極大提升了App留存率。
本次測試,也借助Testin A/B測試的可視化功能,直接修改相關元素屬性就實現了對照功能,無需開發人員介入。
那產品什么時候需要A/B測試呢?
我們知道進行A/B測試需要成本,比如需要開發多套版本,需要搭建可用的A/B測試及數據分析平臺等。
從投入產出比考慮,進行A/B測試平臺有2個必要條件,一是產品決策影響大,二是產品方案選擇困難。
如果某決策對產品影響很大,但選擇不困難,則沒有必要進行A/B測試,比方是否決定給App增加微信及第三方登錄方式,這對產品影響很大但決策并不困難,因為業界已有常見的解決方案。
再比方說,添加某很細小的功能,且該功能入口極深、用戶量不大,那么A/B測試優先級也并不高。只有當一個產品決策同時滿足影響大和選擇難這兩個條件的時候,才最適合進行A/B測試。
拿我們自身進行的測試來說,我們會基于功能影響大小、選擇困難程度,對要做測試的功能做好優先級排序,然后判斷哪些功能要做A/B測試。
四、A/B測試落地三要素
通過與我們的合作伙伴,如自如、36氪、子彈短信或51信用卡等眾多增長團隊交流,我們發現A/B測試做到落地有三大關鍵要素:
- 第一,人的因素,或者說整個團隊的思維習慣、思維方式。
- 第二,業務流程,就是增長工作流程。
- 第三,工具。
展開來說,在「人」的角度上,要求整個團隊具備數據驅動增長、A/B測試驅動決策的思維習慣,這是最重要的事情。
同時,如果增長或產品團隊負責人本身不具備這種意識,認為A/B測試無關緊要,比較依賴經驗進行產品優化決策,那么A/B測試做起來也很困難。
對APP也好,包括現在的小程序也好,新型產品層出不窮,產品面對的競爭也異常激烈。加之目前互聯網流量紅利期逐漸結束,獲客成本增加,如果想繼續獲得業務增長,目前最有效的辦法就是落地A/B測試、以數據驅動增長這一路徑。
行業發展趨勢決定所有團隊都會慢慢遷移到用科學的實驗進行增長這條路上來,即使你現在的團隊推進A/B測試困難,但是我相信不遠的將來,A/B測試將是最重要的產品增長驅動力。
我曾與較多歐美增長同行進行過深入交流,有一個很深感受就是他們的互聯網企業中 A/B測試氛圍更強,主要因為美國人工成本相對較高,他們特別注重投入產出比,所以他們很早進入到精細化運營階段。
在業務流程上:
- 第一,需要注意你的產品是什么形態,是依托APP、小程序、公眾號還是Web網站。不同的業務場景,A/B測試落地方案也會不一樣。
- 第二,要考慮A/B測試是否很好融入到了產品迭代或增長團隊工作流程中去,最佳實踐就是做到將整個產品優化迭代流程、發版節奏與A/B測試緊耦合,形成流水線作業,這也是BAT等公司能夠把A/B測試每周頻率做到那么高的原因。
在工具方面,一種是自研,另外一種是使用第三方服務。
自研的話,在可控性、業務耦合方面有一定的優越性,但對一般企業來講,其研發成本、人力成本很高,開發A/B測試服務還涉及到較為嚴格的數據統計,需要配置專業的數據分析師。
如果使用目前市面上的第三方工具,比如Testin A/B測試服務,可以最大化降低成本、加速業務落地A/B測試服務。
比如,某小程序用戶當天接入Testin A/B測試服務后,當天就運行起三個A/B測試實驗。無論是自研還是使用第三方工具,關鍵在于適合自身團隊。
五、A/B測試最佳流程實踐
A/B測試最佳流程,可分成四個步驟:
- 分析數據:分析現有原始版本的各項數據指標,如注冊轉化率等,比如說注冊轉化率僅有10%,針對這一轉化率提出想法;
- 提出想法:比方說要改進注冊流程,之前用戶需要輸入短信校驗碼,計劃改成圖片校驗碼,形成改進備選方案。有了該基本假設后,預估大概率可以提升轉化率;
- 重要性排序:限于團隊資源有限,無法把所有需求想法全部都去驗證,這就需要做重要性排序,選擇最重要的這幾個改進方案去做A/B測試,接著進入第四步;
- A/B測試:在這個過程中,我們要監測A/B測試數據,結果一般有兩種,一是數據證明實驗無效,一是證明實驗有效。我們經過大量測試發現,大部分進行的A/B測試實驗,1/3被證明有效, 2/3被證明無效(與原始版本效果差別不大,或者比原始版本效果還壞)。
這里需要大家注意,不是所有的實驗都會被證明對指標增長有顯著效果,如果是這樣,我們就沒有必要進行實驗了。
如果遇到這種情況,需要告訴自己的團隊成員不要灰心,正因為某些實驗被證明無效,我們才會找到有效的增長方式。
實驗失敗是大概率事件,我們最好的辦法就是增加測試頻率、持續測試,而非淺嘗輒止,又回到經驗主義決策的老路上。
如果你的團隊從來沒有做過A/B測試,有三點建議給到大家:
- 從最簡單的文案A/B測試開始,比如說測試關鍵按鈕中不同文案的轉化率;
- 多做團隊間的經驗分享,多分享你的成功經驗,有效果的事情大家都愿意嘗試;不要天天去分享失敗的經驗,如果過多分享失敗經驗,會讓你包括你的團隊對A/B測試產生質疑,影響團隊士氣;
- 可以優先使用第三方免費的A/B測試工具,比如Testin A/B測試,目前支持App、Web/H5、小程序。
六、企業A/B測試成熟度模型
上面介紹了落地A/B測試的三大關鍵因素,以及A/B測試的最佳實踐流程。在這部分,為大家分享企業A/B測試成熟度模型。
我們把企業A/B測試分成四個階段,分別是起步階段、成長階段、成熟階段和大規模應用階段。該能力的成熟度最核心指標,就是每周能做多少個A/B測試。
處于起步階段,平均每周能做0~1個A/B測試,整個組織架構處于開始嘗試A/B測試階段,但內部沒有成型的A/B測試實驗平臺,仍使用最簡單的分流方式和數據分析方法進行實驗。
此時的A/B測試并不是一個標準的A/B測試,從實驗評價體系角度來看,已經設定一個最基本的指標,比如說轉化率,但仍沒有體系化。
何為體系化指標?也就是從單一指標演進為多維度指標體系,系統跟蹤實驗對產品的多方面影響。
第三個階段就是相對比較成熟的階段,這個時候每周能做到3~10個測試,A/B測試已經成為產品迭代流程的一部分,并需要可視化A/B測試,后端A/B測試等高級功能,以便滿足多樣的A/B測試需求。
在成熟和大規模應用階段,提到了一個名詞OEC。OEC,可以理解成綜合評價指標,可能是復合型指標,在很多單項指標通過加權平均后得到。 通過OEC的設定,指導整個組織的業績發展。
七、A/B測試系統設計能力
上面分享了如何落地A/B測試。接下來,跟大家分享下設計一個典型的A/B測試系統,需要具備哪幾點能力或特征:
1. 科學流量分割
包括唯一性、均勻性、靈活性、定向性及分層分流。
- 唯一性是指通過精準且高效的Hash算法,確保單個用戶每次登錄應用時被分到的試驗版本是唯一的;
- 均勻性,則是確保分流人群,各維度分配比例均勻;
- 靈活性,則需要支持用戶隨時在實驗的進行過程中,調節實驗版本之間的流量分配比例;
- 定向性,則是可以根據用戶標簽來實現精準定向分流,如根據用戶設備標簽及其他自定義標簽特定分流;
- 分層分流,則可以滿足并行進行大量A/B測試需求。
這里重點介紹下為什么需要分層流量分割機制。如果沒有分層流量機制,則存在如下限制:
- 每個用戶最多只能參加一個A/B測試實驗
- 多個實驗不能同時使用全體用戶進行測試,可能因為人群覆蓋度不夠高導致結果偏差每個實驗的可用實驗流量受限于其他正在進行的實驗,缺乏靈活的流量分配機制
有了分層流量分割機制,就可以很好地滿足并行進行不同業務或不同場景,或者不同產品模塊之間的A/B測試需求。
2. 科學統計算法
- 科學統計,使用科學的統計分析方法來對實驗數據進行分析,并給出可靠的試驗結果;
- 區間估計,給出95%置信區間,避免點估計帶來的決斷風險;統計顯著性判斷,通過p-value來判斷不同實驗版本之間差異顯著性;統計功效判斷,通過Power來判斷不同實驗版本統計功效是否充足;精益分析,對實驗數據進行去噪音處理,去除噪音數據,以提高統計結果的質量。
上面就是基本的分享內容,限于篇幅,更多A/B測試后面有機會再與大家分享。
作者:陳冠誠,Testin副總裁、Testin A/B測試業務負責人。師從歐洲科學院院士Per Stenstrom教授,發表過6篇大數據國際論文和8項國際專利,為美圖、宜人財富等企業搭建了A/B測試驅動增長的數據體系。公眾號:云測數據(testindata),數據驅動增長的堅定實行者
本文由 @陳冠誠 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議
相關干貨可以在哪里看呢?很感興趣!
這篇軟文寫的不錯
這是我們基于自己的分享實踐,謝謝稱贊啦~
從今年開始做增長開始,一直踐行A/B測試的理念,這篇文章讓我對A/B Test有了更加清晰的認識。
不管做什么工作,數據一定是我們依托的基礎,甚至是判斷方法正確與否的重要指標,A/B測試可以避免我們一股腦門,同時也可以檢驗不確定性和可控性。
多謝~ 后面繼續我們分享干貨!