淺談AB測試里常見的辛普森悖論
優秀的增長黑客,不會去投機取巧“制造數據”,而是認真思考和試驗,用科學可信的數據來指導自己和企業的決策,通過無數次失敗的和成功的AB測試試驗,總結經驗教訓,變身能力超強的超級英雄。
辛普森悖論(Simpson’s Paradox)是英國統計學家E.H.辛普森(E.H.Simpson)于1951年提出的悖論,即在某個條件下的兩組數據,分別討論時都會滿足某種性質,可是一旦合并考慮,卻可能導致相反的結論。
舉一個辛普森悖論的簡單小例子:一個大學有商學院和法學院兩個學院。這兩個學院的女生都抱怨“男生錄取率比女生錄取率高”,有性別歧視。但是學校做總錄取率統計,發現總體來說女生錄取率卻遠遠高于男生錄取率!
商學院男生錄取率75%高于女生錄取率49%,法學院男生錄取率10%也高于女生錄取率5%,但是總計來說男生錄取率只有21%,只有女生錄取率42%的一半。
為什么兩個學院都是男生錄取率高于女生錄取率,但是加起來男生錄取率卻不如女生錄取率呢?主要是因為這兩個學院男女比例很不一樣,具體的統計學原理我們后面會詳細分析。
這個詭異(Counter intuitive)的現象在現實生活中經常被忽略,畢竟只是一個統計學現象,一般情況下都不會影響我們的行動。但是對于使用科學的 AB 測試進行試驗的企業決策者來說,如果不了解辛普森悖論,就可能會錯誤的設計試驗,盲目的解讀試驗結論,對決策產生不利影響。
我們用一個真實的醫學 AB 測試案例來說明這個問題。這是一個腎結石手術療法的 AB 測試結果:
看上去無論是對于大型結石還是小型結石,A 療法都比 B 療法的療效好。但是總計而言,似乎 B 療法比 A 療法要好。
這個 AB 測試的結論是有巨大問題的,無論是從細分結果看,還是從總計結果看,都無法真正判斷哪個療法好。
那么,問題出在哪里呢?這個 AB 測試的兩個實驗組的病歷選取有問題,都不具有足夠的代表性。參與試驗的醫生人為的制造了兩個試驗組本身不相似,因為醫生似乎覺得病情較重的患者更適合 A 療法,病情較輕的患者更適合 B 療法,所以下意識的在隨機分配患者的時候,讓 A 組里面大結石病歷要多,而 B 組里面小結石病歷要多。
更重要的問題是,很有可能影響患者康復率的最重要因素并不是療法的選擇,而是病情的輕重!換句話說,A 療法之所以看上去不如 B 療法,主要是因為 A 組病人里重病患者多,并不是因為 A 組病人采用 A 療法。
所以,這一組不成功的 AB 測試,問題出在試驗流量分割的不科學,主要是因為流量分割忽略了一個重要的“隱藏因素”,也就是病情輕重。正確的試驗實施方案里,兩組試驗患者里,重病患者的比例應該保持一致。
因為很多人容易忽略辛普森悖論,以至于有人可以專門利用這個方法來投機取巧。舉個例子,比賽100場球賽以總勝率評價好壞。取巧的人專找高手挑戰20場而勝1場,另外80場找平手挑戰而勝40場,結果勝率41%;認真的人則專挑高手挑戰80場而勝8場,而剩下20場平手打個全勝,結果勝率為28%,比41%小很多。但仔細觀察挑戰對象,后者明顯更有實力。
從這幾個辛普森悖論的例子出發,聯想到我們互聯網產品運營的實踐里,一個非常常見的誤判例子是這樣的:拿1%用戶跑了一個試驗,發現試驗版本購買率比對照版本高,就說試驗版本更好,我們要發布試驗版本。其實,可能只是我們的試驗組里圈中了一些愛購買的用戶而已。最后發布試驗版本,反而可能降低用戶體驗,甚至可能造成用戶留存和營收數額的下降。
那么,如何才能在 AB 測試的設計,實施,以及分析的時候,規避辛普森悖論造成的各種大坑呢?
最重要的一點是,要得到科學可信的 AB 測試試驗結果,就必須合理的進行正確的流量分割,保證試驗組和對照組里的用戶特征是一致的,并且都具有代表性,可以代表總體用戶特征。這個問題一直是 AppAdhoc A/B Testing 云服務的云端系統著力研究和解決的問題。
在這里,特別要提出一下這個問題的一個特殊屬性:在流量試驗越大時,辛普森悖論發生的條件越有可能觸發。這是一個和大數定理以及中心極限定理等“常規”實踐經驗完全不同的統計學現象。換句話說,大流量試驗比小流量試驗可以消除很多噪音和不確定性,但是反而可能受到辛普森悖論的影響。
舉個例子說明:如果只是拿100人做試驗,50人一組隨機分配,很可能是28男22女對22男28女,每個性別只是相差6個人而已。如果是拿10000人做試驗,5000人一組隨機分配,很可能是2590男2410女對2410男2590女,每個性別就差了180人,而這180人造成的誤差影響就可能很大。
除了流量分配的科學性,我們還要注意 AB 測試的試驗設計與實施。
在試驗設計上,如果我們覺得某兩個變量對試驗結果都有影響,那我們就應該把這兩個變量放在同一層進行互斥試驗,不要讓一個變量的試驗動態影響另一個變量的檢驗。如果我們覺得一個試驗可能會對新老客戶產生完全不同的影響,那么就應該對新客戶和老客戶分別展開定向試驗,觀察結論。
在試驗實施上,對試驗結果我們要積極的進行多維度的細分分析,除了總體對比,也看一看對細分受眾群體的試驗結果,不要以偏蓋全,也不要以全蓋偏。一個試驗版本提升了總體活躍度,但是可能降低了年輕用戶的活躍度,那么這個試驗版本是不是更好呢?一個試驗版本提升總營收0.1%,似乎不起眼,但是可能上海地區的年輕女性 iPhone 用戶的購買率提升了20%,這個試驗經驗就很有價值了。
分層試驗,交叉試驗,定向試驗是我們規避辛普森悖論的有力工具。
規避辛普森悖論,還要注意流量動態調整變化的時候新舊試驗參與者的數據問題,試驗組和對照組用戶數量的差異問題,以及其他各種問題。而優秀的增長黑客,不會去投機取巧“制造數據”,而是認真思考和試驗,用科學可信的數據來指導自己和企業的決策,通過無數次失敗的和成功的AB測試試驗,總結經驗教訓,變身能力超強的超級英雄。
作者:王曄,吆喝科技創始人兼 CEO
本文由 @王曄 原創發布于人人都是產品經理。未經許可,禁止轉載。
很受益,不過有個疑問請教?!霸诹髁吭囼炘酱髸r,辛普森悖論發生的條件越有可能觸發?!迸e的例子雖然180個人比6個人多,但是按照比例算卻更小呀。。不知道這么算對不對哈
有點意思