復(fù)盤(pán):從 0 到 1 設(shè)計(jì) A/B測(cè)試系統(tǒng)

Way
3 評(píng)論 12622 瀏覽 125 收藏 29 分鐘

寫(xiě)本文的主要目的在于希望能將理論和實(shí)際產(chǎn)品設(shè)計(jì)結(jié)合得更加緊密,幫助大家抓住設(shè)計(jì)的重點(diǎn),對(duì)于比較深入的統(tǒng)計(jì)學(xué)原理不會(huì)過(guò)多涉及,僅用于輔助理解系統(tǒng),如有深入學(xué)習(xí)興趣的讀者可自行研究。

不知不覺(jué)拖更了好久,后臺(tái)被催更了好幾次,前陣子比較忙,在給某四大銀做一個(gè)私有化的系統(tǒng),再次實(shí)踐后又對(duì)相關(guān)系統(tǒng)有了新的認(rèn)知,趁著熱乎這期就先來(lái)講講 A/B測(cè)試系統(tǒng)吧。

雖然目前已順利上線投產(chǎn),但回想當(dāng)初實(shí)在找了很多資料,包括書(shū)籍論文、相關(guān)產(chǎn)品使用資料,以及產(chǎn)品和開(kāi)發(fā)者社區(qū)。資料雖然不少,但還是存在2 大問(wèn)題,要么過(guò)于理論化以至于難以實(shí)操落地,要么就是過(guò)于靠近產(chǎn)品功能的介紹以至于對(duì)于產(chǎn)品背后的邏輯理解得不夠深刻,整體都不夠體系化(畢竟要深入和體系化講解篇幅是很長(zhǎng)的,這事就交給我吧)。

因此筆者希望本文能對(duì)此有個(gè)補(bǔ)充,寫(xiě)本文的主要目的在于希望能將理論和實(shí)際產(chǎn)品設(shè)計(jì)結(jié)合得更加緊密,幫助大家抓住設(shè)計(jì)的重點(diǎn),對(duì)于比較深入的統(tǒng)計(jì)學(xué)原理不會(huì)過(guò)多涉及,僅用于輔助理解系統(tǒng),如有深入學(xué)習(xí)興趣的讀者可自行研究。

當(dāng)然,因?yàn)楣P者現(xiàn)在做的是saas產(chǎn)品,所以在產(chǎn)品形態(tài)上是一個(gè) saas系統(tǒng)模塊,讀完如覺(jué)得筆者理解不到位或偏頗之處,歡迎指教。

01 全文內(nèi)容概要

說(shuō)實(shí)在的,寫(xiě)這么一篇文肯定篇幅會(huì)比較長(zhǎng),所以對(duì)全文內(nèi)容做個(gè)基本介紹還是比較有必要的。

對(duì)于互聯(lián)網(wǎng)人而言,A/B 測(cè)試應(yīng)該耳熟能詳,即使沒(méi)用過(guò)絕大部分也聽(tīng)過(guò),但正常來(lái)說(shuō)如果沒(méi)接觸過(guò),很多人的理解可能仍停留在初中生物時(shí)學(xué)到的“對(duì)比實(shí)驗(yàn)”。因此先介紹系統(tǒng)背后的基礎(chǔ)原理還是十分必要的,也能幫助大家更好地理解系統(tǒng)設(shè)計(jì)背后的目的所在,全文展開(kāi)的節(jié)奏如下:

  1. 介紹 A/B 測(cè)試背后的統(tǒng)計(jì)學(xué)原理和試驗(yàn)流程,拋出系統(tǒng)的定位,幫助大家理解系統(tǒng)設(shè)計(jì)的目標(biāo);
  2. 結(jié)合對(duì) 3 大類(lèi)涉及 A/B測(cè)試功能產(chǎn)品的調(diào)研,對(duì)背后不變的產(chǎn)品邏輯和系統(tǒng)架構(gòu)進(jìn)行抽象總結(jié),幫助大家明確各個(gè)關(guān)鍵模塊及作用;
  3. 在設(shè)計(jì)系統(tǒng)各個(gè)關(guān)鍵模塊時(shí),需要重點(diǎn)考慮的地方,屬于落地實(shí)操部分,幫助大家看完后能知道應(yīng)該具體該怎么開(kāi)始設(shè)計(jì)。

02 A/B測(cè)試背后的統(tǒng)計(jì)學(xué)原理

1. 基礎(chǔ)統(tǒng)計(jì)學(xué)概念

某度對(duì)于統(tǒng)計(jì)學(xué)的定義是:

統(tǒng)計(jì)學(xué)是通過(guò)搜索、整理、分析、描述數(shù)據(jù)等手段,以達(dá)到推斷所測(cè)對(duì)象的本質(zhì),甚至預(yù)測(cè)對(duì)象未來(lái)的一門(mén)綜合性科學(xué)。

聯(lián)系到A/B測(cè)試,其實(shí)它就是通過(guò)先對(duì)部分用戶設(shè)置不同的方案,并進(jìn)一步對(duì)不同方案的數(shù)據(jù)進(jìn)行分析,從而去推測(cè)哪個(gè)方案在全量發(fā)布后效果是更優(yōu)的,在這個(gè)過(guò)程中有必要介紹下幾個(gè)基礎(chǔ)的統(tǒng)計(jì)學(xué)概念。下面以一個(gè) case 為例來(lái)說(shuō)明,假設(shè)現(xiàn)在希望看下改變按鈕顏色能否提高落地頁(yè)中的按鈕點(diǎn)擊率,在這個(gè)試驗(yàn)中涉及:

  1. 總體:落地頁(yè)的全部訪客,不僅包括試驗(yàn)時(shí)訪問(wèn)的那些,也包括后續(xù)訪問(wèn)網(wǎng)頁(yè)的,綠色按鈕、紅色按鈕分別對(duì)應(yīng) 2 個(gè)總體;
  2. 樣本:在訪問(wèn)時(shí)隨機(jī)分配了不同顏色按鈕的訪客,對(duì)應(yīng)顏色的按鈕分別對(duì)應(yīng)著一個(gè)樣本,這些樣本是總體經(jīng)過(guò)抽樣產(chǎn)生的,通常在統(tǒng)計(jì)中只有樣本量足夠大,才能更好地確保實(shí)驗(yàn)結(jié)論的有效性,所以 A/B測(cè)試系統(tǒng)會(huì)提供樣本量計(jì)算器,告訴用戶試驗(yàn)應(yīng)該達(dá)多少樣本量或運(yùn)行多行時(shí)間才能得出相對(duì)有效的結(jié)論;
  3. 抽樣:有多種抽樣方法,包括簡(jiǎn)單隨機(jī)抽樣(有放回抽樣、無(wú)放回抽樣)、分群抽樣、分層抽樣,核心是要在隨機(jī)原則下從總體取出樣本,并且具有代表性(樣本能夠代表總體);
  4. 總體參數(shù):描述總體特征的參數(shù),在示例中是按鈕點(diǎn)擊率
  5. 統(tǒng)計(jì)量:樣本統(tǒng)計(jì)計(jì)算后得到的統(tǒng)計(jì)數(shù)值,在示例中是樣本的點(diǎn)擊率;
  6. 參數(shù)評(píng)估:指用樣本統(tǒng)計(jì)量來(lái)估計(jì)總體參數(shù),這里我們通過(guò)對(duì)比試驗(yàn)的2 個(gè)樣本間的數(shù)據(jù),從而評(píng)估方案調(diào)整后針對(duì)全部用戶的效果。常有包括點(diǎn)估計(jì)和區(qū)間估計(jì) 2 種方式,一般我們使用的是后者。這也很好理解,當(dāng)我們統(tǒng)計(jì)出樣本的點(diǎn)擊率是 20%,如果這時(shí)候說(shuō)確定采用點(diǎn)擊率更高的按鈕顏色后,點(diǎn)擊率大概是20%,這便是點(diǎn)估計(jì),顯然它的誤差是非常大的,所以我們?cè)诠烙?jì)是會(huì)給出總體參數(shù)的一個(gè)概率范圍,即有多大的可能落在某個(gè)范圍,比如說(shuō)有 90%的可能提升 10%~20%,顯然這樣的估計(jì)就會(huì)更加準(zhǔn)確科學(xué),通常我們稱之為“置信區(qū)間”,這個(gè)區(qū)間的計(jì)算有一定的方法,大部分 A/B測(cè)試系統(tǒng)都會(huì)給用戶提供這個(gè)參數(shù)以供參考。

2. 假設(shè)檢驗(yàn)試驗(yàn)

結(jié)合上文提到的落地頁(yè)按鈕點(diǎn)擊率試驗(yàn),假如現(xiàn)在通過(guò)一周的試驗(yàn),我們發(fā)現(xiàn)綠色按鈕比紅色按鈕的點(diǎn)擊率更高,但事實(shí)真的是這樣嗎?

不,其實(shí)我們提出的只是一個(gè)基于試驗(yàn)樣本的“假設(shè)”,但我們其實(shí)更想知道的是“總體參數(shù)”,當(dāng)所有按鈕都改為綠色后,最終針對(duì)所有用戶所統(tǒng)計(jì)到的結(jié)果也不一定就是我們?cè)谠囼?yàn)中得出的結(jié)論。

所以,為了提升結(jié)論的可靠性,我們會(huì)基于對(duì)這個(gè)“假設(shè)”進(jìn)行“檢驗(yàn)”,看看這個(gè)“假設(shè)”在應(yīng)用到“總體”時(shí)是否靠譜。

怎樣檢驗(yàn)?zāi)兀?/strong>

統(tǒng)計(jì)學(xué)提出了它的解決方案:小概率反證法,即統(tǒng)計(jì)學(xué)中認(rèn)為小概率的事件很難發(fā)生,我們只需證明某個(gè)假設(shè)發(fā)生的概率小于某個(gè)值(通常取 0.05),這個(gè)值在統(tǒng)計(jì)學(xué)中稱為顯著性水平,如果概率小于這個(gè)顯著性水平,我們可判斷為這個(gè)試驗(yàn)在統(tǒng)計(jì)上是顯著的,就可以有一定的把握認(rèn)為這個(gè)假設(shè)不會(huì)發(fā)生,大部分 A/B測(cè)試系統(tǒng)都會(huì)給用戶提供這個(gè)參數(shù)以供參考。

通常情況下,在進(jìn)行試驗(yàn)時(shí)我們往往并不知道新提出的方案對(duì)于原方案而言是好是壞,所以我們常常假設(shè)“原方案(對(duì)照組)”和“新方案(控制組)”是沒(méi)有差異的,當(dāng)我們證明這個(gè)假設(shè)小于顯著性水平時(shí),就可以有一定把握可以說(shuō)原方案與新方案是有差異的,結(jié)合樣本數(shù)據(jù)結(jié)果我們就可以獲得一個(gè)相對(duì)可行的試驗(yàn)結(jié)論。

PS:上面介紹到的原理部分,為降低理解成本,沒(méi)有對(duì)統(tǒng)計(jì)學(xué)背后的一些更底層的數(shù)學(xué)原理進(jìn)行說(shuō)明,也沒(méi)有對(duì)假設(shè)檢驗(yàn)中的基礎(chǔ)概念做解釋?zhuān)热缭僭O(shè)與備擇假設(shè)、棄真與取偽錯(cuò)誤、單側(cè)與雙側(cè)檢驗(yàn)等,有興趣的讀者可自行了解

小結(jié)

AB測(cè)試系統(tǒng)只是站在上述理論的基礎(chǔ)上進(jìn)行了產(chǎn)品化,有了理論基礎(chǔ),我們才能夠在系統(tǒng)中通過(guò)各個(gè)功能去確保試驗(yàn)的有效性,簡(jiǎn)單的對(duì)應(yīng)關(guān)系:

  • 抽樣:系統(tǒng)需提供科學(xué)的分流算法來(lái)確保試驗(yàn)有效性;
  • 統(tǒng)計(jì)量:系統(tǒng)需要建設(shè)好基礎(chǔ)的數(shù)據(jù)埋點(diǎn)和數(shù)據(jù)統(tǒng)計(jì)能力,才能完成統(tǒng)計(jì)量的計(jì)算;
  • 假設(shè):系統(tǒng)需提供試驗(yàn)方案的編輯管理能力,讓用戶能夠創(chuàng)建不同的試驗(yàn)方案,從而形成試驗(yàn)假設(shè);
  • 置信區(qū)間、統(tǒng)計(jì)顯著:系統(tǒng)在提供試驗(yàn)樣本統(tǒng)計(jì)量數(shù)據(jù)外,還需基于試驗(yàn)統(tǒng)計(jì)量類(lèi)型,基于不同的檢驗(yàn)計(jì)算方法去計(jì)算出統(tǒng)計(jì)指標(biāo),通常為置信區(qū)間以及試驗(yàn)是否統(tǒng)計(jì)顯著。

03 系統(tǒng)核心業(yè)務(wù)流程

AB測(cè)試系統(tǒng)核心的業(yè)務(wù)流程當(dāng)然是圍繞試驗(yàn)的設(shè)計(jì)和分析進(jìn)行的,同時(shí)筆者調(diào)研了業(yè)界多個(gè) AB測(cè)試產(chǎn)品,各家產(chǎn)品在使用流程上也相差無(wú)幾。但不同的產(chǎn)品也提供了一定的方法來(lái)提升流程的效率,在設(shè)計(jì)時(shí)需要多考慮系統(tǒng)應(yīng)該通過(guò)提供什么樣的能力來(lái)支撐這個(gè)業(yè)務(wù)流程,以及怎樣才能夠幫助提升流程效率,幫助運(yùn)營(yíng)者更快更準(zhǔn)確地得出結(jié)果。

復(fù)盤(pán):從 0 到 1 設(shè)計(jì)A/B 測(cè)試系統(tǒng)

業(yè)務(wù)流程圖

結(jié)合一個(gè)具體 case來(lái)說(shuō)上述業(yè)務(wù)流程,還是采用上文的例子,現(xiàn)在是希望提升落地頁(yè)的按鈕點(diǎn)擊率。

  • 確定改進(jìn)點(diǎn):按鈕樣式;
  • 設(shè)計(jì)不同方案:設(shè)計(jì)了綠色和紅色 兩套方案;
  • 確定衡量指標(biāo):按鈕點(diǎn)擊率;
  • 配置試驗(yàn):配置按鈕顏色為綠色、紅色共兩套落地頁(yè);
  • 分析試驗(yàn)數(shù)據(jù):對(duì)比哪個(gè)方案的按鈕點(diǎn)擊率更高,是否統(tǒng)計(jì)上是顯著的;
  • 如果發(fā)現(xiàn)紅色按鈕比原來(lái)綠色按鈕的點(diǎn)擊率還差,則可決定中止試驗(yàn)不繼續(xù)優(yōu)化,或更改為其他顏色繼續(xù)試驗(yàn);
  • 如果發(fā)現(xiàn)紅色按鈕和設(shè)想一樣比原來(lái)綠色按鈕的點(diǎn)擊率更好,則可考慮將按鈕顏色徹底改為紅色。

04 系統(tǒng)目標(biāo)

在設(shè)計(jì)系統(tǒng)時(shí),我們通常會(huì)先定義系統(tǒng)目標(biāo)并拆分階段重點(diǎn),讀過(guò) google 相關(guān)論文的讀者也會(huì)發(fā)現(xiàn) google也結(jié)合自己的情況給出了系統(tǒng)的目標(biāo):

  • 更多:google數(shù)據(jù)驅(qū)動(dòng)的文化使其對(duì)試驗(yàn)運(yùn)行數(shù)量的要求比較高,要求系統(tǒng)能夠支持同時(shí)運(yùn)行更多的實(shí)驗(yàn);
  • 更快:簡(jiǎn)單便捷地創(chuàng)建試驗(yàn);
  • 更好:能夠去規(guī)避無(wú)效實(shí)驗(yàn)的運(yùn)行、、發(fā)現(xiàn)有效但不好的試驗(yàn)、能夠提供標(biāo)準(zhǔn)的衡量維度確保對(duì)比是有效的。

筆者在設(shè)計(jì)自家系統(tǒng)時(shí)則定義如下:

(1)要能確保試驗(yàn)有效性

  • 確保試驗(yàn)有效運(yùn)行:確保分流規(guī)則、統(tǒng)計(jì)指標(biāo)計(jì)算規(guī)則是科學(xué)的;
  • 讓用戶確保試驗(yàn)有效:引導(dǎo)用戶確保樣本量符合要求或提供樣本量計(jì)算工具、提供置信區(qū)間和統(tǒng)計(jì)顯著性指標(biāo)輔助用戶進(jìn)行判斷。

(2)能支撐到更多有需要的試驗(yàn)場(chǎng)景

  • 讓試驗(yàn)進(jìn)行得更快速;
  • 能夠幫助用戶更快地得出結(jié)論(意味著不用耗費(fèi)更多流量):部分系統(tǒng)提供 MAB算法自動(dòng)分配各個(gè)版本的流量,幫助用戶簡(jiǎn)化分析的過(guò)程,并在得出優(yōu)勝版本能夠自動(dòng)全量應(yīng)用。

(3)更便捷快速地完成配置

指使用者能夠有較低的使用和學(xué)習(xí)成本,A/B測(cè)試本身需要比較專(zhuān)業(yè)的背景知識(shí),在互聯(lián)網(wǎng)企業(yè)內(nèi)部往往是增長(zhǎng)團(tuán)隊(duì)和產(chǎn)品經(jīng)理等角色負(fù)責(zé)。但筆者所設(shè)計(jì)的系統(tǒng)面向傳統(tǒng)企業(yè)以及一些有IT部門(mén)的企業(yè),企業(yè)內(nèi)是否有配置專(zhuān)業(yè)的人員來(lái)實(shí)施,是否有對(duì)A/B測(cè)試比較了解的人都是問(wèn)題。所以產(chǎn)品設(shè)計(jì)上一方面需要考慮易用性,另一方面也需要考慮讓交付同事能更好地理解以便引導(dǎo)客戶使用。

05 系統(tǒng)架構(gòu)

結(jié)合筆者調(diào)研的結(jié)果,目前會(huì)涉及到AB測(cè)試系統(tǒng)的公司主要有以下幾類(lèi):

(1)AB測(cè)試服務(wù)saas軟件供應(yīng)商

以saas 化形式提供AB測(cè)試能力,客戶基于簡(jiǎn)單對(duì)接后即可基于平臺(tái)能力進(jìn)行 AB測(cè)試,能夠有效降低企業(yè)自己的開(kāi)發(fā)投入,企業(yè)體量沒(méi)達(dá)到一定規(guī)模時(shí)或相應(yīng)的團(tuán)隊(duì)建設(shè)沒(méi)到位的情況下往往可采取這種方案,這些供應(yīng)商可能同時(shí)也會(huì)提供其他數(shù)據(jù)分析平臺(tái)等其他數(shù)據(jù)服務(wù),針對(duì)的目前客戶以有互聯(lián)網(wǎng)相關(guān)業(yè)務(wù)、有 IT研發(fā)能力的企業(yè)為主。

(2)提供 AB測(cè)試能力的其他saas 平臺(tái)

比如營(yíng)銷(xiāo) saas 產(chǎn)品主要針對(duì)的營(yíng)銷(xiāo)場(chǎng)景下的 ab 測(cè)試能力提供、用戶運(yùn)營(yíng) saas產(chǎn)品主要針對(duì)消息推送場(chǎng)景下的 ab 測(cè)試能力提供。

(3)需自建 AB測(cè)試系統(tǒng)的企業(yè)

這類(lèi)企業(yè)的公司體量基本都到了一定的規(guī)模,并且有專(zhuān)業(yè)的增長(zhǎng)團(tuán)隊(duì)。

在產(chǎn)品形態(tài)上,目前在不同類(lèi)型產(chǎn)品上看到的總共有 3 種形態(tài):

  • AB測(cè)試saas產(chǎn)品一般均以試驗(yàn)管理的形式,在試驗(yàn)報(bào)表中查看 AB測(cè)試相關(guān)數(shù)據(jù);
  • 營(yíng)銷(xiāo) saas 產(chǎn)品則會(huì)與營(yíng)銷(xiāo)流程編輯器結(jié)合,以流程組件的形式提供AB測(cè)試能力,在流程數(shù)據(jù)中查看 AB測(cè)試相關(guān)數(shù)據(jù);
  • 垂直場(chǎng)景的用戶運(yùn)營(yíng)工具則是在以高級(jí)配置的方式提供AB測(cè)試能力,比如可在業(yè)務(wù)功能配置中通過(guò)額外的AB測(cè)試配置項(xiàng)完成配置,并在業(yè)務(wù)數(shù)據(jù)中可查看 AB測(cè)試的相關(guān)數(shù)據(jù)。

但拋開(kāi)具體的產(chǎn)品形態(tài),由于系統(tǒng)背后的原理、業(yè)務(wù)流程和目標(biāo)都相同的,所以經(jīng)過(guò)抽象后的系統(tǒng)架構(gòu)其實(shí)是差不多的,僅在一些細(xì)節(jié)方案上有差異。

復(fù)盤(pán):從 0 到 1 設(shè)計(jì)A/B 測(cè)試系統(tǒng)

系統(tǒng)架構(gòu)圖

1. 業(yè)務(wù)層

這一層是AB測(cè)試的核心功能模塊,用于支持用戶創(chuàng)建 A/B 測(cè)試試驗(yàn)。

1.1 樣本設(shè)置

用于設(shè)置進(jìn)入試驗(yàn)的客戶,主要涉及 2 點(diǎn):

(1)樣本篩選

可篩選特定類(lèi)型的客戶參與試驗(yàn),可與CRM、用戶畫(huà)像系統(tǒng)相結(jié)合,可針對(duì)某一特定人群進(jìn)行試驗(yàn)。

(2)樣本量設(shè)置

可設(shè)置客戶進(jìn)入試驗(yàn)的占比或數(shù)量,樣本量對(duì)于試驗(yàn)有效性有著重要影響,大部分系統(tǒng)都會(huì)提供一個(gè)樣本量計(jì)算公式,結(jié)合用戶設(shè)置的預(yù)期提升效果,告知用戶較合適的樣本量是多少、試驗(yàn)應(yīng)該進(jìn)行多久,讓用戶確保試驗(yàn)有足夠的流量(也看到一些產(chǎn)品會(huì)提供一些經(jīng)驗(yàn)值給到用戶,比如讓用戶確保樣本數(shù)量應(yīng)該大于 1000)。

1.2 流量分配

主要作用是決定客戶命中哪個(gè)試驗(yàn)、命中的是試驗(yàn)的哪個(gè)版本,這塊跟試驗(yàn)的管理結(jié)構(gòu)有關(guān)系,分流模塊需要滿足以下要求:

(1)隨機(jī)均勻分流

分流規(guī)則是系統(tǒng)中比較核心的模塊,有幾個(gè)核心的點(diǎn):

  1. 必須確保樣本一致性:確保分配到不同試驗(yàn)方案的用戶樣本特征是一致的,在統(tǒng)計(jì)上控制單一變量原則,即所謂“隨機(jī)均勻”;
  2. 確保分流一致性:在分配到不同版本時(shí)應(yīng)確保隨機(jī)均勻分布,并且確保分流一致性(即同一客戶多次進(jìn)入同一 個(gè)試驗(yàn),訪問(wèn)的試驗(yàn)版本相同)。

(2)分層分流

當(dāng)需要同時(shí)進(jìn)行多個(gè)試驗(yàn),且避免試驗(yàn)間會(huì)互相干擾時(shí),需要通過(guò)分域的形式把一些會(huì)互相干擾的試驗(yàn)區(qū)隔開(kāi),用戶只能命中其中某個(gè)試驗(yàn),通過(guò)分層的形式把不會(huì)互相干擾的試驗(yàn)區(qū)隔開(kāi),用戶可以同時(shí)命中不同層的試驗(yàn),通用的 A/B 測(cè)試工具都會(huì)支持用戶自定義層級(jí)規(guī)則和試驗(yàn)所處層級(jí)。但也并非必需,需要結(jié)合自身系統(tǒng)場(chǎng)景看是否有并發(fā)多個(gè)試驗(yàn)的場(chǎng)景,可查看下方分流模型示意:

復(fù)盤(pán):從 0 到 1 設(shè)計(jì)A/B 測(cè)試系統(tǒng)

分流模型圖(來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)

  • 分流指定版本:在試驗(yàn)結(jié)束后,用戶可直接指定進(jìn)入試驗(yàn)的客戶進(jìn)入哪個(gè)試驗(yàn)版本,為了提升流程效率,大部分產(chǎn)品提供了自動(dòng)幫助客戶選擇最優(yōu)版本的能力,但大部分只能從單個(gè)指標(biāo)維度進(jìn)行評(píng)判;
  • 自動(dòng)分流:基于MBA算法,可自動(dòng)結(jié)合不同版本方案的試驗(yàn)指標(biāo),自動(dòng)調(diào)整流量分配規(guī)則,幫助快速選擇出可信賴的優(yōu)化版本,可有效提升試驗(yàn)的效率,目前有提供該能力的主要是一些比較專(zhuān)業(yè)的 ab 測(cè)試工具。

1.3 試驗(yàn)配置

(1)版本設(shè)置

可添加不同的試驗(yàn)版本,與對(duì)照組版本進(jìn)行對(duì)比,不同類(lèi)型試驗(yàn)版本設(shè)置會(huì)有所不同,同時(shí)設(shè)置方式也與具體的 A/B測(cè)試場(chǎng)景有關(guān),比如:

  • 大部分系統(tǒng)針對(duì) UI層面的優(yōu)化會(huì)提供可視化編輯模式,可讓運(yùn)營(yíng)人員直接在可視化界面完成不同方案的配置;
  • 針對(duì)廣告著陸頁(yè)場(chǎng)景,則會(huì)提供的是鏈接合并跳轉(zhuǎn)的模式,針對(duì)不同版本的廣告著陸頁(yè)提供不同的URL,用戶訪問(wèn)時(shí)會(huì)隨機(jī)跳轉(zhuǎn)到某個(gè)版本的鏈接中;
  • 針對(duì)算法優(yōu)化等后端優(yōu)化場(chǎng)景,則提供接口給后端服務(wù)調(diào)用。

這一塊也是需要具體考慮,需結(jié)合業(yè)務(wù)場(chǎng)景和自身平臺(tái)的情況考慮用戶配置版本的方式。

(2)流量設(shè)置

即設(shè)置分配給各個(gè)版本的流量,總和需為100%,需要支持在試驗(yàn)中進(jìn)行調(diào)整,方便使用者結(jié)合試驗(yàn)情況靈活調(diào)整流量分配(一般會(huì)先給試驗(yàn)版小流量試跑,然后再進(jìn)一步加大流量)。

(3)指標(biāo)設(shè)置

設(shè)置指標(biāo)后可在數(shù)據(jù)統(tǒng)計(jì)中看到不同版本對(duì)應(yīng)的指標(biāo)數(shù)據(jù),用于評(píng)估不同版本的效果:

  • 主要目標(biāo)與附加目標(biāo):評(píng)估方案好壞有時(shí)候顯然不可能只從一個(gè)維度去評(píng)估,并且即使新版本方案在核心指標(biāo)上表現(xiàn)更好,也不排除在其他比較重要的指標(biāo)維度上表現(xiàn)更弱,所以主要目標(biāo)是指本次試驗(yàn)重點(diǎn)要關(guān)注優(yōu)化的指標(biāo),附加指標(biāo)則是其他關(guān)聯(lián)的效果指標(biāo),可幫助我們進(jìn)一步全面地評(píng)估方案;
  • 復(fù)合指標(biāo)與自定義指標(biāo):可支持更多的業(yè)務(wù)場(chǎng)景;
  • 自定義指標(biāo):指用戶可以自定設(shè)定指標(biāo),可指定更多事件指標(biāo)以及復(fù)合型指標(biāo),本期暫不考慮。

(4)分層分域

本質(zhì)上是為了解決流量在多個(gè)試驗(yàn)的分配問(wèn)題,考慮的是如何盡可能地分配流量確保每個(gè)試驗(yàn)都有足夠的樣本,以及如何避免試驗(yàn)之間互相干擾,這些層和域需要結(jié)合自身情況去做劃分,常見(jiàn)的可劃分為啟動(dòng)層、UI層、算法層等。比如對(duì)于頁(yè)面中同一個(gè)區(qū)域進(jìn)行試驗(yàn),如果現(xiàn)在在進(jìn)行 2 個(gè)試驗(yàn),分別對(duì)文字顏色、文字背景做測(cè)試,假設(shè)不把這 2 個(gè)試驗(yàn)分配在不同域,那可能出現(xiàn)文字顏色和文字背景都是同一顏色,會(huì)導(dǎo)致在前端完全不可見(jiàn),進(jìn)而影響試驗(yàn)。

2. 數(shù)據(jù)統(tǒng)計(jì)層

這一層會(huì)展示試驗(yàn)數(shù)據(jù),包括試驗(yàn)設(shè)定的各個(gè)指標(biāo)數(shù)據(jù)以及統(tǒng)計(jì)數(shù)據(jù),使命是幫助用戶更準(zhǔn)確和快速地進(jìn)行決策,選擇最優(yōu)的方案,其中統(tǒng)計(jì)類(lèi)指標(biāo)主要提供 2 個(gè)指標(biāo):

  • 一個(gè)是置信區(qū)間,通常采用的是置信度為 95%的區(qū)間,用于幫助用戶科學(xué)評(píng)估方案效果;
  • 另外一個(gè)是統(tǒng)計(jì)顯著性指標(biāo),用于告訴用戶當(dāng)前統(tǒng)計(jì)得到的結(jié)論在統(tǒng)計(jì)學(xué)上是否是顯著有效的,提升決策科學(xué)性。

當(dāng)然,有時(shí)候會(huì)需要去細(xì)分到不同人群去看效果,可以進(jìn)一步評(píng)估方案在不同人群中的效果是如何的,在產(chǎn)品上只需增加一個(gè)客戶篩選即可。

3. 數(shù)據(jù)接入層

這一層主要解決試驗(yàn)指標(biāo)統(tǒng)計(jì)的問(wèn)題,與 AB測(cè)試系統(tǒng)的應(yīng)用場(chǎng)景相關(guān),要拓展系統(tǒng)使用場(chǎng)景,肯定是得垂直地從數(shù)據(jù)埋點(diǎn)、試驗(yàn)設(shè)置都進(jìn)行拓展,通過(guò)同步外部數(shù)據(jù),可以大大拓寬使用場(chǎng)景,比如筆者設(shè)計(jì)的是營(yíng)銷(xiāo) saas 系統(tǒng),如果能對(duì)接交易數(shù)據(jù),場(chǎng)景可以進(jìn)一步拓展為“驗(yàn)證通過(guò)更低的優(yōu)惠券折扣是否可促進(jìn)交易轉(zhuǎn)化率”。

4. 服務(wù)接入層

當(dāng)企業(yè)內(nèi)部有多個(gè)客戶端、多個(gè)系統(tǒng)、多個(gè)場(chǎng)景需要對(duì)接 AB測(cè)試能力時(shí),通過(guò)標(biāo)準(zhǔn)接口可快速完能力的部署,有助于可以提升系統(tǒng)的擴(kuò)展開(kāi)放性。

06 業(yè)務(wù)場(chǎng)景

當(dāng)我們對(duì)系統(tǒng)要做的事情以及系統(tǒng)的整體邏輯有所理解后,就需要因地制宜結(jié)合自己負(fù)責(zé)系統(tǒng)的業(yè)務(wù)場(chǎng)景、客戶特點(diǎn)等因素設(shè)計(jì)產(chǎn)品的能力分布和形態(tài)。

當(dāng)然,場(chǎng)景肯定是沒(méi)法遍歷完的,但可以記下一句話:“當(dāng)你無(wú)法衡量它時(shí),你就無(wú)法優(yōu)化它”,結(jié)合上文對(duì)系統(tǒng)架構(gòu)的介紹,我們知道A/B測(cè)試系統(tǒng)底層需依賴數(shù)據(jù)埋點(diǎn)這一基礎(chǔ)設(shè)施,當(dāng)我們能埋的點(diǎn),能統(tǒng)計(jì)到的數(shù)據(jù)越多,能調(diào)控的變量更多,系統(tǒng)能支撐的場(chǎng)景也就越豐富。

但筆者還是對(duì)常見(jiàn)的AB測(cè)試場(chǎng)景做個(gè)簡(jiǎn)單總結(jié),方便大家參考:

  • 產(chǎn)品優(yōu)化
  • UI層面優(yōu)化:比如調(diào)整頁(yè)面布局,調(diào)整文案等
  • 功能體驗(yàn)優(yōu)化
  • 算法層面:比如推薦規(guī)則優(yōu)化、列表展示規(guī)制,提高內(nèi)容點(diǎn)擊率
  • 營(yíng)銷(xiāo)優(yōu)化
  • 廣告落地頁(yè):營(yíng)銷(xiāo)文案優(yōu)化,提升按鈕點(diǎn)擊率
  • 營(yíng)銷(xiāo)活動(dòng)流程、策略優(yōu)化等等

其中 AB測(cè)試saas 產(chǎn)品無(wú)可置疑肯定基本都可滿足上述場(chǎng)景,營(yíng)銷(xiāo)saas產(chǎn)品中則會(huì)圍繞活動(dòng)內(nèi)容、消息觸達(dá)、權(quán)益策略、活動(dòng)流程等營(yíng)銷(xiāo)相關(guān)的場(chǎng)景做優(yōu)化,垂直類(lèi)場(chǎng)景僅支持自身產(chǎn)品場(chǎng)景的優(yōu)化,比如“某策”能進(jìn)行觸達(dá)與否是否影響最終轉(zhuǎn)化的 ab 測(cè)試。

07 落地細(xì)節(jié)注意

1. 分流模塊

分流算法的實(shí)現(xiàn)方法網(wǎng)絡(luò)上大把,推薦大家可以參考一下 google 的論文,具體實(shí)現(xiàn)上就是通過(guò)一致性哈希算法計(jì)算用戶 id 、層 id 后進(jìn)行取模即可,這樣既可實(shí)現(xiàn)上文我們提到對(duì)于分流需要注意的關(guān)鍵點(diǎn)。但這里需要注意的是要結(jié)合我們?cè)O(shè)計(jì)出的產(chǎn)品形態(tài),與上文的產(chǎn)品架構(gòu)進(jìn)行對(duì)應(yīng),考慮需要加什么因子加入哈希算法因子中。

當(dāng)然,一些平臺(tái)為了確保樣本的一致性也提出了一種驗(yàn)證性的方法,比如微博廣告系統(tǒng)提到的一個(gè)解決方案:

在廣告系統(tǒng)中,用戶是通過(guò)多維的畫(huà)像向量(a,b,c,…,n)來(lái)進(jìn)行刻畫(huà)的,如果流量劃分是均勻的,意味著用戶的每一個(gè)畫(huà)像向量分量在該流量劃分條件下是均勻,更進(jìn)一步,多個(gè)畫(huà)像向量分量的組合在該流量劃分條件下也是均勻的。通過(guò)進(jìn)行用戶畫(huà)像向量單個(gè)分量和若干個(gè)畫(huà)像向量分量的組合的均勻性驗(yàn)證,即可來(lái)反映該流量的劃分的均勻性。

2. 試驗(yàn)指標(biāo)模塊

這塊目前也比較成熟,在代碼上有一些已經(jīng)封裝好的計(jì)算方法可直接供開(kāi)發(fā)去調(diào)用,目前 adobe Target產(chǎn)品使用的是 t 檢驗(yàn)的方式來(lái)計(jì)算置信區(qū)間和 P 值(p 值小于 0.05即證明本次試驗(yàn)是統(tǒng)計(jì)顯著的),具體不成問(wèn)題,問(wèn)題主要在于公司內(nèi)部目前是否一套比較完善的數(shù)據(jù)采集處理機(jī)制。

08 總結(jié)

結(jié)合全文,相信讀者對(duì)于 AB測(cè)試系統(tǒng)已經(jīng)有了比較完整的認(rèn)識(shí),大的原理和邏輯基本不變,變的是大家需要結(jié)合自身業(yè)務(wù)場(chǎng)景、自身內(nèi)部系統(tǒng)情況去因地制宜,尤其是要做好業(yè)務(wù)場(chǎng)景的梳理,即可從目前已經(jīng)擁有的數(shù)據(jù)進(jìn)行反推,也可從業(yè)務(wù)需求進(jìn)行正推。

但是,需要提醒的是,至此我們也只是設(shè)計(jì)出了一個(gè)能用的系統(tǒng)而已。

AB測(cè)試的落地還需要依賴使用的組織和人,公司組織層面上是否有數(shù)據(jù)驅(qū)動(dòng)的意識(shí)、執(zhí)行人員層面是否具備做AB測(cè)試的專(zhuān)業(yè)知識(shí)、支持做AB測(cè)試的場(chǎng)景是否有足夠的價(jià)值吸引力、是否具備足夠的數(shù)據(jù)量來(lái)做 AB 測(cè)試,這些因素都會(huì)影響到最終系統(tǒng)的落地效果。

如果碰巧你做的是 saas 系統(tǒng),面向的客戶可能是傳統(tǒng)企業(yè)或傳統(tǒng)銀行這類(lèi)有研發(fā)能力但數(shù)據(jù)驅(qū)動(dòng)意識(shí)不強(qiáng)的企業(yè),更是由于考慮清楚上面提到的幾點(diǎn),好好評(píng)估客戶是否有落地A/B測(cè)試的能力。

專(zhuān)欄作家

Way,公眾號(hào):營(yíng)銷(xiāo)產(chǎn)品研習(xí)社,人人都是產(chǎn)品經(jīng)理專(zhuān)欄作家。某國(guó)民辦公軟件產(chǎn)品人,多年數(shù)字營(yíng)銷(xiāo)、企業(yè)服務(wù)、增長(zhǎng)產(chǎn)品經(jīng)驗(yàn)。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 講解的還是很清楚的!不過(guò)目前遇到一個(gè)問(wèn)題,想和樓主探討下,就是如何把a(bǔ)b測(cè)試體系很好的融合到業(yè)務(wù)里去并且能夠管控整體實(shí)驗(yàn)?比如ab組用戶分別發(fā)送不同優(yōu)惠券或者看到不同的活動(dòng)利益點(diǎn),如果要單獨(dú)在ab測(cè)試系統(tǒng)里進(jìn)行配置的話流程會(huì)變的很繁瑣。

    回復(fù)
  2. 不知所云呢

    回復(fù)
    1. 具體點(diǎn)

      回復(fù)