用戶增長實(shí)驗(yàn)三部曲(3):策略效果分析中的兩個(gè)代表性問題

0 評(píng)論 18978 瀏覽 31 收藏 15 分鐘

本篇為實(shí)驗(yàn)三部曲的完結(jié),主要供有一些實(shí)驗(yàn)經(jīng)驗(yàn)、或者對(duì)實(shí)驗(yàn)感興趣的同學(xué)了解。增長實(shí)驗(yàn)中,除了之前提到的“可比性”以外,還存在這樣或那樣的分析陷阱,文中主要講兩個(gè)代表性問題:正交分層及其局限性,SRM問題及其應(yīng)對(duì)方法。

01 正交分層如何實(shí)現(xiàn)“平行宇宙”

在之前有關(guān)實(shí)驗(yàn)設(shè)計(jì)的文章中,我們簡單提到過正交分層,它的作用在于將有限的用戶數(shù)或流量,同時(shí)用于多個(gè)實(shí)驗(yàn)中而互不干擾。

理想情況下,正交分層體系中的每一層,就像是一個(gè)“平行宇宙”,可以各自進(jìn)行獨(dú)立的實(shí)驗(yàn)。在正交分層的體系里,一個(gè)用戶很可能是同時(shí)被多個(gè)實(shí)驗(yàn)命中的。既然這樣,如何能做到實(shí)驗(yàn)間沒有互相干擾呢?

AB實(shí)驗(yàn)中的隨機(jī)分組通過性能較好的哈希算法,將用戶ID進(jìn)行特殊轉(zhuǎn)換處理,確保分組時(shí)盡可能做到隨機(jī)。可以理解成對(duì)我們每個(gè)人的手機(jī)號(hào)做一些復(fù)雜處理,避免直接按照尾號(hào)分組時(shí),出現(xiàn)尾號(hào)8用戶群和尾號(hào)4用戶群之間的樣本有偏差。

隨機(jī)分組是發(fā)生在每一個(gè)分層中的,而正交分層是指層與層之間需要保證正交性,有現(xiàn)成的檢驗(yàn)方法,感興趣的同學(xué)可以自行查找,此處先不做贅述。借助一系列正交哈希算法(目前較多采用正交表算法),我們可以保證任意兩層之間的實(shí)驗(yàn)獨(dú)立性。

如上圖,假設(shè)我們選擇同一個(gè)用戶群體,任意取到若干正交分層中的兩層:分別記為第N層和第N+1層。

我們決定對(duì)第N層進(jìn)行AB實(shí)驗(yàn),即將該層的用戶隨機(jī)分為A、B兩組;同時(shí)我們?cè)賹?duì)第N+1層進(jìn)行AB實(shí)驗(yàn),記為A1、B1兩組。

兩組實(shí)驗(yàn)覆蓋到的人群是一樣的,我們下發(fā)不同的策略。正交分層能夠做到第N層中的A組用戶,在第N+1層隨機(jī)分散到A1和B1兩個(gè)組。當(dāng)我們?cè)诜治龅贜+1層實(shí)驗(yàn)效果時(shí),可以認(rèn)為A1組和B1組所受到來自第N層策略的影響是相同的。因此,在分析A1、B1兩組間的效果差異時(shí),可以將來自其他層的影響忽略不計(jì)。

通過正交分層,我們可以做到樣本量有限時(shí),依然可以同時(shí)進(jìn)行多組實(shí)驗(yàn),這有助于我們更快速找到有效的策略。因此,正交分層也成為了成熟實(shí)驗(yàn)平臺(tái)的標(biāo)配。然而,并不是滿足了正交分層,我們就可以認(rèn)為可以無視不同層間的策略干擾,下面我們?cè)敿?xì)介紹。

02 正交分層存在局限性

正交分層若想保證策略間“無干擾”,還需要一個(gè)前提:不同層間策略的相關(guān)性需要盡可能低。先舉個(gè)例子說明策略相關(guān)性。

比如,常見的給用戶發(fā)紅包的策略,假定策略1是每人發(fā)0.5元,策略2是每人發(fā)1.0元。這兩個(gè)策略都是發(fā)紅包,是高度相關(guān)的(本質(zhì)上是同一類),其效果會(huì)產(chǎn)生干擾。

試想,如果我們實(shí)驗(yàn)時(shí)分別取一層來下發(fā)策略1,另一層與之正交,下發(fā)策略2。由第一部分的解釋,策略2將會(huì)均勻的影響到策略1的實(shí)驗(yàn)組和對(duì)照組。就這個(gè)例子看,因?yàn)椴呗?下發(fā)的金額較高,效果大概率會(huì)好于策略1,所以當(dāng)分析策略1效果時(shí),很可能發(fā)現(xiàn)其實(shí)驗(yàn)組相比對(duì)照組沒有提升,得到“發(fā)錢無效“的實(shí)驗(yàn)結(jié)論。其原因是策略1(弱策略)的實(shí)驗(yàn)組和對(duì)照組均勻的受到了策略2(強(qiáng)策略)的影響,而策略2覆蓋掉了策略1的效果。

策略相關(guān)性難以準(zhǔn)確量化,可以通過策略種類、參數(shù)是否會(huì)出現(xiàn)增強(qiáng)、削弱、替代等,來判斷策略是否會(huì)存在相互影響。上面是一個(gè)典型的強(qiáng)策略覆蓋弱策略的例子,它會(huì)讓弱策略看起來是無效的。可見正交分層有其明顯的局限性,即便是使用了正交分層,依然無法避免相關(guān)策略間的干擾。

下面再舉一些常見的、需要注意的場景:

  • 頭條、抖音信息流,針對(duì)某特征設(shè)置不同權(quán)重的推薦算法實(shí)驗(yàn)。如果使用正交分層,權(quán)重較高的策略效果很可能覆蓋權(quán)重較低的策略,得到低權(quán)重策略無效的結(jié)論
  • 在百度搜索結(jié)果頁中,用戶點(diǎn)擊會(huì)調(diào)起百度,這是一種常見的拉活方式(如下圖)。對(duì)不同調(diào)起方式(例如點(diǎn)擊百度知道、點(diǎn)擊貼吧調(diào)起)做效果分析時(shí),二者可能存在干擾。比如說,百度知道能夠覆蓋的關(guān)鍵詞和問題更多,極有可能每一位搜索用戶每天都會(huì)被它調(diào)起1次,而貼吧覆蓋的搜索query相對(duì)少,使用正交分層去做這個(gè)實(shí)驗(yàn)(一層是點(diǎn)擊知道調(diào)起,另一層是點(diǎn)擊貼吧調(diào)起),很有可能會(huì)得到“通過貼吧調(diào)起百度App是無效的”這種結(jié)論

類似的情形,你還碰到哪些?

實(shí)驗(yàn)分析需要基于實(shí)驗(yàn)場景制定針對(duì)性的分析方法,更需要選擇對(duì)正確的實(shí)驗(yàn)方式。當(dāng)需要驗(yàn)證這種相關(guān)策略的差異時(shí),建議使用同一層來進(jìn)行分組,對(duì)每個(gè)組進(jìn)行策略互斥的實(shí)驗(yàn)。

03 樣本比率偏差問題

實(shí)驗(yàn)的樣本比例偏差問題(Sample Ratio Mismatch,SRM)指實(shí)驗(yàn)組和對(duì)照組樣本比例偏離預(yù)期,所帶來的對(duì)實(shí)驗(yàn)分析結(jié)論的影響。平時(shí)大家可能沒有特別關(guān)注SRM問題,但是它在很多環(huán)節(jié)都存在。有時(shí)它的差別可以忽略不計(jì),有時(shí)卻能夠顛覆實(shí)驗(yàn)結(jié)論。我們先介紹SRM問題可能帶來的影響,接著列舉可能產(chǎn)生SRM問題的原因,以及應(yīng)對(duì)方法。

SRM問題的核心,是實(shí)驗(yàn)組和對(duì)照組的實(shí)際比例和理論比例有所偏差,而分析時(shí)使用的是理論比例,這個(gè)偏差就使分析結(jié)果失真,嚴(yán)重時(shí)會(huì)得到錯(cuò)誤結(jié)論。

比如,我們選取一個(gè)人群按照50%/50%的比例設(shè)計(jì)了實(shí)驗(yàn)組和對(duì)照組,這時(shí)的理論樣本比例為1.0/1.0;假設(shè)實(shí)驗(yàn)下發(fā)過程中因?yàn)槟撤N原因,部分的對(duì)照組也被策略影響(或污染)到了,使得實(shí)際的樣本比例是1.05/0.95。這會(huì)造成什么后果?

如前面實(shí)驗(yàn)分析的文章所說,在分析效果時(shí),需要以理論的樣本比例為基礎(chǔ),來對(duì)比實(shí)驗(yàn)組與對(duì)照組的指標(biāo)之差。也就是說,沒做實(shí)驗(yàn)時(shí),這個(gè)指標(biāo)差應(yīng)該是0,做了實(shí)驗(yàn)它會(huì)偏離0,這個(gè)偏離值大小就是實(shí)驗(yàn)帶來的影響。這個(gè)例子中,便于理解不妨把實(shí)驗(yàn)前各組的指標(biāo)都設(shè)為100(可以不用在意是什么),SRM問題的影響可概括如下表:

表1?SRM對(duì)實(shí)驗(yàn)結(jié)果分析的影響示例:

注:有SRM-實(shí)驗(yàn)組的實(shí)驗(yàn)后指標(biāo)為105*1.05=110.25;其中1.05是策略的提升效果

如表1所示,這個(gè)例子中SRM問題將實(shí)驗(yàn)效果夸大了兩倍以上,雖然實(shí)際工作中,SRM一般不會(huì)如例子中這么明顯,但依然需要注意。

比如,實(shí)際樣本比例是1.01/0.99,上述例子中實(shí)驗(yàn)效果偏差依然可以達(dá)到41%;而實(shí)際樣本比例低至1.001/0.999,實(shí)驗(yàn)效果偏差也還有0.2%左右(感興趣的同學(xué)可以自行計(jì)算)。判斷樣本偏差是否顯著,可以使用卡方檢驗(yàn);而造成SRM問題的原因很多,也可能遍及實(shí)驗(yàn)各主要環(huán)節(jié),下一小節(jié)將詳細(xì)介紹。

04 SRM問題成因和應(yīng)對(duì)

SRM問題存在于實(shí)驗(yàn)部署、執(zhí)行、數(shù)據(jù)采集、實(shí)驗(yàn)分析等主要環(huán)節(jié),以及實(shí)驗(yàn)時(shí)的外部干擾。這五個(gè)原因,來自一篇SRM論文的概括,我結(jié)合實(shí)踐經(jīng)驗(yàn)給出如下一些理解,如果大家對(duì)全文感興趣可以進(jìn)一步細(xì)讀(文末參考文獻(xiàn))。

1. 實(shí)驗(yàn)部署

實(shí)驗(yàn)部署階段,涉及到分層、分組的隨機(jī)算法的性能和穩(wěn)定性。包含但不限于能否完成理想的正交分層,能否完成大量、實(shí)時(shí)的隨機(jī)分組,能否在一段時(shí)間后依然保持這種效率。這算是SRM問題產(chǎn)生的主要根源。此外,一些實(shí)時(shí)服務(wù)的Bug,也會(huì)導(dǎo)致分組不符合預(yù)期,實(shí)驗(yàn)平臺(tái)在有重要迭代或修改后,尤其需要測試是否對(duì)分層分組產(chǎn)生影響。

2. 實(shí)驗(yàn)執(zhí)行

實(shí)驗(yàn)部署完畢,下一步就需要下發(fā)策略,而下發(fā)策略需要對(duì)齊時(shí)機(jī)。假設(shè)客戶端需要給用戶展示兩套UI,這個(gè)策略需要同時(shí)對(duì)實(shí)驗(yàn)組和對(duì)照組來下發(fā),以避免下發(fā)時(shí)機(jī)不同帶來的偏差。如果實(shí)驗(yàn)組下發(fā)完,再下發(fā)對(duì)照組,很可能兩個(gè)時(shí)間段網(wǎng)絡(luò)情況不一致、用戶活躍度有差異,引發(fā)很多不必要的變量,最終會(huì)體現(xiàn)到實(shí)際樣本比例的偏差上。

即使是同時(shí)下發(fā),也需要注意避免引入“不必要的過濾條件”,比如我們經(jīng)常會(huì)遇到的實(shí)驗(yàn)場景,A組下發(fā)某策略、B組不下發(fā),如果實(shí)驗(yàn)具體執(zhí)行時(shí)是A組下發(fā)而B組不下發(fā),最后拿A組下發(fā)策略的用戶來和B組對(duì)比,可能引入了一個(gè)“過濾條件”。因?yàn)锳組并非100%能下發(fā)成功,如果拿A中下發(fā)成功的用戶對(duì)比整個(gè)B組,可能會(huì)出錯(cuò)。如果A組下發(fā)策略,B組不是不發(fā)而是下發(fā)“空策略”,那么“下發(fā)成功”這一層過濾可以避免掉。

3. 數(shù)據(jù)采集

這里主要關(guān)注實(shí)驗(yàn)組和對(duì)照組的數(shù)據(jù)上報(bào)是否一致、是否準(zhǔn)確,數(shù)據(jù)存取過程是否可靠。這些需要實(shí)驗(yàn)平臺(tái)、策略下發(fā)平臺(tái)、用戶端產(chǎn)品聯(lián)動(dòng)來檢查確認(rèn),并且每增加一個(gè)需要實(shí)驗(yàn)的功能點(diǎn)、資源位,都需要確保數(shù)據(jù)上報(bào)的方式、數(shù)據(jù)質(zhì)量是否能滿足未來實(shí)驗(yàn)分析的要求,即數(shù)據(jù)可比性。

4.?實(shí)驗(yàn)分析

分析過程中的SRM問題,類似于前面提到的不滿足“可比性”,即分析時(shí)因?yàn)橐恍颖酒畋缓鲆?,以理論的樣本比例進(jìn)行分析造成的錯(cuò)誤。這里具體會(huì)涉及到分析起點(diǎn)問題——即選取那兩個(gè)人群進(jìn)行對(duì)比,一般需要從樣本源頭來分析,保證可比性。這個(gè)問題比較寬泛,我們后面結(jié)合一些具體案例繼續(xù)討論。

5. 外部干擾

外部干擾通常來自用于實(shí)驗(yàn)設(shè)計(jì)之外的不可控因素。比如AB兩套落地頁實(shí)驗(yàn),其中一套不小心被用到了其他活動(dòng),分析時(shí),實(shí)際樣本比例就會(huì)和理論值有較大的偏差。

上面提到的造成SRM的可能原因,可以簡單的分為兩類來處理:哪些是實(shí)驗(yàn)平臺(tái)需要克服,哪些是實(shí)驗(yàn)分析需要注意。表2做了簡要的梳理。

表2?主要的SRM問題原因及應(yīng)對(duì)方法:

SRM問題的產(chǎn)生原因很多,但其最終影響到實(shí)驗(yàn)分析結(jié)果時(shí),都是通過破壞了實(shí)驗(yàn)組和對(duì)照組間的“可比性”來實(shí)現(xiàn),和我們之前提到的很多分析錯(cuò)誤可謂殊途同歸。實(shí)驗(yàn)平臺(tái)設(shè)計(jì)和實(shí)驗(yàn)分析時(shí),需要針對(duì)具體問題來找合適的應(yīng)對(duì)方法。

以上是我個(gè)人理解,經(jīng)驗(yàn)和能力所限,難免會(huì)一些偏差或錯(cuò)誤,還請(qǐng)指出。

參考文獻(xiàn)

Diagnosing Sample Ratio Mismatch in Online Controlled Experiments: A Taxonomy and Rules of Thumb for Practitioners

相關(guān)閱讀

《用戶增長實(shí)驗(yàn)三部曲(1):生活中需要實(shí)驗(yàn)思維》

《以抖音為案例,講清楚“用戶增長實(shí)驗(yàn)”在做什么》

《用戶增長實(shí)驗(yàn)三部曲(2):如何準(zhǔn)確評(píng)估「產(chǎn)品和運(yùn)營策略」的效果??》

 

作者:jinlei886;5年+用戶增長的一手經(jīng)驗(yàn),前騰訊、滴滴出行用戶增長產(chǎn)品經(jīng)理,專注增長策略挖掘、增長工具搭建、實(shí)驗(yàn)設(shè)計(jì)分析。本碩博均就讀于浙江大學(xué)高分子系。微信公眾號(hào):用戶增長實(shí)戰(zhàn)筆記

本文由 @jinlei886 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!