新疫苗實(shí)驗(yàn)刷屏,科學(xué)的AB測(cè)試是如何混淆視聽的?
編輯導(dǎo)讀:AB測(cè)試原本是互聯(lián)網(wǎng)的一種工作方式,在是為Web或App界面制作兩個(gè)或多個(gè)版本,分別讓組成成分相同(相似)的目標(biāo)人群隨機(jī)訪問這些版本,收集各群組的用戶體驗(yàn)數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù),最后分析、評(píng)估出最好版本,正式采用?,F(xiàn)在被應(yīng)用到各行業(yè),新疫苗的研發(fā)和使用也有涉及。
世界上有三種謊言:謊言、該死的謊言、統(tǒng)計(jì)數(shù)字。
There are three kinds of lies:lies, damned lies, and?statistics.
01 全世界矚目的兩個(gè)對(duì)照試驗(yàn)
這周頻繁被2組對(duì)照實(shí)驗(yàn)刷屏,都和抗Covid-19有關(guān)。國(guó)際上對(duì)疫情的報(bào)道不斷,但也沒有這兩組實(shí)驗(yàn)的結(jié)果來得刺激。
1. 口罩實(shí)驗(yàn)
第一個(gè)刷屏的實(shí)驗(yàn),是來自丹麥的 “口罩防護(hù)效果” 對(duì)照實(shí)驗(yàn),如下圖所示。
2020年11月18日, 醫(yī)學(xué)內(nèi)科領(lǐng)域頂級(jí)期刊《Annals of Internal Medicine》發(fā)表了一篇“驚世駭俗”的論文, 這個(gè)論文提出了一個(gè)觀點(diǎn)“戴口罩對(duì)于防護(hù)新冠沒用”。這篇論文已經(jīng)在71 個(gè)國(guó)際主流媒體上被報(bào)道, 推特上已經(jīng)有55,994個(gè)轉(zhuǎn)發(fā)和討論帖。
文中詳細(xì)描述了,在丹麥進(jìn)行的、關(guān)于戴口罩預(yù)防新冠感染的隨機(jī)對(duì)照試驗(yàn):6000 人隨機(jī)分成兩組,做了兩個(gè)月試驗(yàn),外出保持社交距離并戴口罩組的感染率是 1.8% ,外出保持社交距離不佩戴口罩的對(duì)照組感染率是 2.1% 。因?yàn)閮山M的感染率差異不顯著,結(jié)果不具有統(tǒng)計(jì)學(xué)意義。因此,在這組實(shí)驗(yàn)中,結(jié)論是?“戴口罩的防護(hù)作用是無效的”。
2. 新疫苗實(shí)驗(yàn)
第二個(gè)刷屏的實(shí)驗(yàn),是登上各大主流媒體重磅頭條的“最新疫苗有效性”對(duì)照實(shí)驗(yàn),如下圖所示。
同樣是11月18日,藥品制造商輝瑞公司宣布最新實(shí)驗(yàn)結(jié)果:他們研制的冠狀病毒疫苗有效性為95%,且沒有嚴(yán)重副作用。Covid-19 疫情在全球范圍內(nèi)急劇上升期間,這組完整的疫苗試驗(yàn)結(jié)果給各國(guó)都打了一劑強(qiáng)心針。
這項(xiàng)試驗(yàn)包括近 44,000 名志愿者,其中一半人注射了疫苗、另一半人注射的是鹽水(安慰劑)。然后,持續(xù)觀察每組有多少人患上 Covid-19。最終,在 170 例感染了 Covid-19的患者中,安慰劑組占 162 例,疫苗組僅占 8 例。實(shí)驗(yàn)初步證明,該疫苗可以預(yù)防輕度和重度形式的 Covid-19。如果疫苗的授權(quán)審批通過,輝瑞公司將全面投入量產(chǎn)。
02 被大眾“誤讀”的三組數(shù)據(jù)
對(duì)照實(shí)驗(yàn)(A/B測(cè)試)一直是科學(xué)陣地牢不可破的根基,它讓我們更接近事情的真相,統(tǒng)計(jì)數(shù)據(jù)的價(jià)值也被充分發(fā)揮出來。但是,很多實(shí)驗(yàn)結(jié)果在向大眾傳播時(shí),信息容易被誤讀,甚至?xí)蔀檎`導(dǎo)大家的工具。究其原因,只有一個(gè):對(duì)A/B測(cè)試的理解不準(zhǔn)確。統(tǒng)計(jì)數(shù)字從來不會(huì)說謊,說謊的是它們被解讀的方式。
1. 1.8% VS 2.1%
前面提到,在丹麥進(jìn)行的、關(guān)于戴口罩預(yù)防新冠感染的隨機(jī)對(duì)照試驗(yàn)中,6000 人隨機(jī)分成兩組,試驗(yàn)進(jìn)行了兩個(gè)月,戴口罩組的感染率是 1.8%,不戴口罩組的感染率是 2.1%。在統(tǒng)計(jì)學(xué)上,這兩組數(shù)據(jù)的差異沒有顯著性。所以,很多人就認(rèn)為,口罩很雞肋,對(duì)于防護(hù)病毒是無效的。
首先,在此研究進(jìn)行的時(shí)候,新冠病毒感染在丹麥還很罕見,且丹麥的人口密集度低,口罩的作用本來就具有很大局限性,以至于該項(xiàng)研究得出的結(jié)論并不能反映:1. 在新冠爆發(fā)期間,戴口罩的作用;2. 在人口密集的地區(qū),帶口罩的作用。
其次,帶面罩組有 42 名參與者(1.8%)、對(duì)照組有 53 名(2.1%)參與者感染,組間差異為 -0.3 百分點(diǎn),這個(gè)百分點(diǎn)雖然不能說明顯著性差異,但是如果換個(gè)角度解讀,我們卻能發(fā)現(xiàn)這組數(shù)據(jù)的可疑之處。
截至目前,丹麥實(shí)際的人群感染率約為 3/1000,如果試驗(yàn)擴(kuò)展到從整個(gè)丹麥人口中隨機(jī)抽取 6000 人,非口罩組的感染人數(shù)大致為 9 個(gè),這個(gè)數(shù)字遠(yuǎn)遠(yuǎn)低于實(shí)驗(yàn)中的53例。就算口罩可以降低 50% 的感染率(這已經(jīng)相當(dāng)高了,現(xiàn)實(shí)中不可能),那么,這個(gè)假想的實(shí)驗(yàn)中,口罩組最多可以減少 4.5 例感染。
而現(xiàn)實(shí)中的口罩組,感染人數(shù)竟然比對(duì)照組少了 11 例,這得多大的預(yù)防效果才能存在如此之大的人數(shù)差異呀?可見,這組實(shí)驗(yàn)結(jié)論的漏洞很大。
這還沒有算上,被招募者的 6000 人,其職業(yè)、行動(dòng)軌跡、行為習(xí)慣和身體素質(zhì)都存在很大差異,如上圖所示,僅職業(yè)不明的人群就占了總實(shí)驗(yàn)人數(shù)的 22% 。個(gè)體存在的差異會(huì)影響最終驗(yàn)證的結(jié)果,實(shí)驗(yàn)中參雜了太多的無關(guān)變量,導(dǎo)致實(shí)驗(yàn)結(jié)果很難被相信。
2. 大樣本量?6000
姑且不談現(xiàn)實(shí)中口罩的應(yīng)用場(chǎng)景,這里僅深究一下 6000 的 “大樣本量” 是否真的合理?
換句話說,3000 對(duì) 3000 的實(shí)驗(yàn)設(shè)計(jì),是否具有預(yù)測(cè)價(jià)值呢?丹麥平均的感染率約為千分之三,依舊假設(shè)人群感染率為 3/1000,就算口罩的作用可以降低 1/3 的感染率(降低 1/3 已經(jīng)是很強(qiáng)的作用了)。那么實(shí)驗(yàn)終點(diǎn),非口罩組和口罩組預(yù)期感染人數(shù)分別是 9 例和 6 例,這一數(shù)字并不具備顯著性。即使預(yù)期感染率達(dá)到 5/1000 (相當(dāng)于武漢的感染率),那么非口罩組預(yù)期感染人數(shù) 15 例,口罩組為 10 例,粗略計(jì)算, p=0.42,還是沒有顯著差異……
直到感染率達(dá)到 2% 的極高水平,非口罩組為 60 例,口罩組為40 例,p= 0.01 ——這時(shí)候才達(dá)到統(tǒng)計(jì)學(xué)顯著性水平??梢?,6000 人的設(shè)置并沒有結(jié)合實(shí)際的人群低感染率來進(jìn)行設(shè)計(jì),只需稍微深究一下,就知道禁不起推敲。
換句話說,不是什么情況下,都適合做對(duì)照實(shí)驗(yàn)的。對(duì)照實(shí)驗(yàn)并不是萬金油,必須和現(xiàn)實(shí)情況密切結(jié)合。如果實(shí)際需求的樣本量很大、現(xiàn)實(shí)卻只能收集很少的樣本數(shù)據(jù)時(shí),這樣完成的實(shí)驗(yàn)結(jié)果,不僅不能說明問題,還很可能造成統(tǒng)計(jì)學(xué)上的某種誤導(dǎo)。
3. 新疫苗功效高達(dá)?95%
上文還提到了有關(guān)“新疫苗”的試驗(yàn),其結(jié)論也被很多人理解為,如果注射一支疫苗,就可以將感染機(jī)率降低 95%。實(shí)際上,這個(gè)數(shù)字也很有誤導(dǎo)性。95% 這個(gè)數(shù)字是怎么來的呢?
以輝瑞公司的實(shí)驗(yàn)為例,首先招募了 43,661 名志愿者,研究人員等待 170 人出現(xiàn) Covid-19 癥狀,并獲得陽(yáng)性測(cè)試結(jié)果。在這 170 個(gè)陽(yáng)性結(jié)果中,有 162 個(gè)屬于接受了安慰劑的對(duì)照組,只有 8 個(gè)是屬于接受了疫苗的實(shí)驗(yàn)組。
然后,科學(xué)家對(duì)這兩部分患者之間的相對(duì)差異做了定義:如果疫苗組和安慰劑組之間的感染人數(shù)沒有差異,則功效為0%;如果疫苗組無人感染,則功效為100%。
通過計(jì)算,我們得出 (100% – 8/162) = 95%,這個(gè)數(shù)字無疑是證明疫苗有效的有力證據(jù)。但是這個(gè)數(shù)字并不能說明:一旦接種疫苗后,生病的幾率是多少。同理,它也不能說明大規(guī)模接種疫苗后,接種人群的疫情降低程度。
現(xiàn)實(shí)中,接種疫苗后的情況并不好估計(jì),因?yàn)閰⒓釉囼?yàn)的人員不能反映整個(gè)人群的復(fù)雜情況,在實(shí)際情況中,人們可能會(huì)遇到各種各樣的健康和反應(yīng)的差異,僅僅是一次大規(guī)模臨床實(shí)驗(yàn),根本不能說明其效果。之所以大概率會(huì)被推行,是因?yàn)槭鲁鼍o急,疫苗的正面作用一旦被認(rèn)可,就很可能做大規(guī)模的接種。畢竟,減少病毒的傳播是第一要?jiǎng)?wù)。
但是,如果人們接種了疫苗,然后放松了戴口罩或其他安全衛(wèi)生措施,則很有可能增加冠狀病毒傳播給他人的機(jī)率,更何況還存在相當(dāng)數(shù)量的無癥狀感染者。因此,慎重對(duì)待特別積極的實(shí)驗(yàn)結(jié)果,才是更科學(xué)的思考方式。
03 給營(yíng)銷A/B測(cè)試的啟示
A/B測(cè)試在廣告投放、轉(zhuǎn)化迭代、優(yōu)惠策略等眾多的營(yíng)銷場(chǎng)景中,被廣泛應(yīng)用著。一說如何提高營(yíng)銷 ROI,營(yíng)銷人最先想到的就是“做個(gè) A/B 測(cè)試吧,咱用數(shù)據(jù)說話?!钡牵瑺I(yíng)銷中如何讓測(cè)試數(shù)據(jù)說出正確的話,而不是像以上兩個(gè)實(shí)驗(yàn)?zāi)菢?,?duì)人產(chǎn)生不必要的誤導(dǎo)呢?
1. 測(cè)試不是打輔助,測(cè)試就是策略本身
與傳統(tǒng)決策流程中的歸納后驗(yàn)式不同,A/B測(cè)試是一種先驗(yàn)的實(shí)驗(yàn)體系,屬于預(yù)測(cè)型結(jié)論。和疫苗實(shí)驗(yàn)類似,得出的結(jié)論很難對(duì)全量流量做出預(yù)測(cè),但是卻可以作為權(quán)衡利弊的籌碼,幫助你做出重大決策。
這也就帶來了一個(gè)問題,很多人認(rèn)為做完A/B測(cè)試,驗(yàn)出結(jié)果好壞,這個(gè)測(cè)試就可以結(jié)束了,殊不知營(yíng)銷的多變因素不亞于疫苗的接種情況,會(huì)遇到各種各樣的差異性問題。這就需要營(yíng)銷人員持續(xù)地做測(cè)試,將測(cè)試作為一種手段和策略,而不是只給決策打個(gè)輔助,偶爾才用一下。
此外,將A/B測(cè)試當(dāng)作策略、而非輔助,還有兩個(gè)重要原因:
- 很多時(shí)候,做A/B實(shí)驗(yàn)時(shí),會(huì)不自覺對(duì)用戶進(jìn)行篩選,這個(gè)時(shí)候得出的ROI較高,一旦擴(kuò)量到全部用戶,ROI可能就會(huì)降低(類比疫苗實(shí)驗(yàn))。因此在說某個(gè)策略的ROI時(shí),需要注意,是否是小規(guī)模用戶的效率,而不是整體用戶的ROI。這個(gè)時(shí)候,就需要做持續(xù)不斷的測(cè)試,才有可能不斷接近目標(biāo)ROI。
- 還有一種新奇效應(yīng)遞減的情況,也很常見。在出某個(gè)新營(yíng)銷頁(yè)面的時(shí)候,用戶可能會(huì)比較感興趣,這個(gè)時(shí)候效果最好。但是過一段時(shí)間,用戶的新奇感就會(huì)消失,需要營(yíng)銷人員做持續(xù)、快速的創(chuàng)意測(cè)試,以防止因版本效果衰減而帶來的轉(zhuǎn)化率大幅波動(dòng)。
【例子】:
某頭部在線教育企業(yè)的課程,在移動(dòng)端推廣效率成為其市場(chǎng)部門非常重視的核心指標(biāo)之一。為提高用戶的購(gòu)買轉(zhuǎn)化,營(yíng)銷和產(chǎn)品部門合作,決定通過A/B測(cè)試找到優(yōu)化方案。
第一次測(cè)試,修改主標(biāo)題,原版本的 “60萬好老師”改為“名師1對(duì)1輔導(dǎo)”,轉(zhuǎn)化率提升 3% 左右,采用試驗(yàn)版本。
第二次測(cè)試,改副標(biāo)題,結(jié)果原版本的“預(yù)約免費(fèi)試聽課”比測(cè)試版的“尋找自己的1對(duì)1老師”,轉(zhuǎn)化效果要好 4.7%,于是繼續(xù)采用原版本。
第三次測(cè)試最有趣,修改了按鈕上的引導(dǎo)語(yǔ)。在按鈕的點(diǎn)擊轉(zhuǎn)化方面,原始版本“免費(fèi)試聽”比試驗(yàn)版本“快速預(yù)約”高 10%。但是,在后續(xù)的實(shí)際購(gòu)買轉(zhuǎn)化追蹤數(shù)據(jù)顯示,試驗(yàn)版本比原始版本高出 9%!
對(duì)于這個(gè)試驗(yàn)結(jié)果,該品牌根據(jù)這個(gè)產(chǎn)品在市場(chǎng)上的發(fā)展階段,進(jìn)行了綜合評(píng)估,最終還是決定最終的試驗(yàn)版本,盡管點(diǎn)擊率差一些,但是轉(zhuǎn)化收益最優(yōu)。
可見,持續(xù)的測(cè)試、并根據(jù)實(shí)際業(yè)務(wù)情況做出優(yōu)化,應(yīng)該成為營(yíng)銷人的日常策略。因?yàn)榭偸怯须S市場(chǎng)變化的因素,今天表現(xiàn)好的元素也不一定明天還好,效果是動(dòng)態(tài)的,測(cè)試也同樣需要?jiǎng)討B(tài)中進(jìn)行。
更何況每次測(cè)試都可以得到一些新的積累,比如這個(gè)案例中,如果這個(gè)課程產(chǎn)品是剛起步階段,需要更多地拉新用戶,那么營(yíng)銷人員就應(yīng)該選擇原始版本——能獲取更多潛在用戶的資料。
2. 測(cè)試結(jié)果要綜合看,維度不能單一
通常,我們會(huì)從一個(gè)固定的測(cè)量維度來評(píng)估測(cè)試結(jié)果。但是如果只考慮一個(gè)維度也意味著脫離了情景來看實(shí)驗(yàn)數(shù)據(jù)。比如,疫苗實(shí)驗(yàn)的結(jié)果中,就沒有考慮到無癥狀感染者的情況,很可能導(dǎo)致結(jié)論有偏差。
數(shù)字結(jié)果是一方面,但是其背后的業(yè)務(wù)含義更加重要,不能忽略。比如,在不同的情景下,你可能需要對(duì)相同的A/B測(cè)試結(jié)果,做出不同的決策。
一個(gè)營(yíng)銷活動(dòng),在進(jìn)行不同優(yōu)惠策略的A/B測(cè)試時(shí)發(fā)現(xiàn),A版比B版的用戶總活躍度高出 5%,但是卻同時(shí)降低了其中年輕用戶的活躍度占比,那么應(yīng)該推廣哪個(gè)版本好呢?
情景一,這是一個(gè)中老年購(gòu)買力占主導(dǎo)的營(yíng)銷活動(dòng),顯然更傾向于總活躍度的提升,至于年輕人,反正也沒有實(shí)際購(gòu)買欲望,可以在這次活動(dòng)中忽略掉。
情景二,這是一個(gè)青年人購(gòu)買力占主導(dǎo)的營(yíng)銷活動(dòng),總活躍度提升,但年輕人活躍度度下降,很可能影響實(shí)際的成單率,A、B版本的選擇,必須重新進(jìn)行評(píng)估。
此外,維度不能單一,還包括避免習(xí)慣性地將測(cè)試結(jié)果當(dāng)作一個(gè)絕對(duì)整體來看待。一般而言,從某個(gè)固定的測(cè)量維度來評(píng)估測(cè)試的結(jié)果是沒錯(cuò)的,這樣做通??梢员苊庠诙鄠€(gè)維度中挑選最符合“需要”的數(shù)據(jù),而故意忽視不符合假設(shè)的結(jié)果。
但同樣,僅考慮一個(gè)維度也意味著脫離了情景來看試驗(yàn)數(shù)據(jù)——不同的情景,很可能意味著對(duì)A/B測(cè)試結(jié)果截然不同的解釋。
【例子】:
幾年前 Airbnb 對(duì)搜索頁(yè)進(jìn)行了改版設(shè)計(jì)。搜索頁(yè)是 Airbnb 業(yè)務(wù)流程中非常重要的一個(gè)頁(yè)面,決定后續(xù)的轉(zhuǎn)化情況。
搜索頁(yè)改版前后的變化如圖,新版更強(qiáng)調(diào)房源的圖片(Airbnb為房主提供專業(yè)的攝影服務(wù))及標(biāo)記了房源所在位置的地圖。為了這次改版,團(tuán)隊(duì)投入了很多資源,設(shè)計(jì)人員和產(chǎn)品人員都預(yù)測(cè)新版肯定會(huì)表現(xiàn)更好,定性研究也表明新版本更好。
但針對(duì)搜索頁(yè)的A/B測(cè)試結(jié)果卻顯示,新版轉(zhuǎn)化率并沒有更好。這個(gè)結(jié)果讓人大跌眼鏡,因此分析團(tuán)隊(duì)將數(shù)據(jù)細(xì)分到不同的情景中,來查找結(jié)果背后的真正原因。
經(jīng)過分析后發(fā)現(xiàn),問題出在 IE 瀏覽器上。如上圖,除了來自 IE 的訪問以外,新版在其他主流瀏覽器上的表現(xiàn)都是優(yōu)于原版的。這個(gè)縱向的深入分析,幫助團(tuán)隊(duì)找到真正的問題:搜索頁(yè)的改版很有效果,但是代碼實(shí)現(xiàn)存在嚴(yán)重問題。在修復(fù)相關(guān)的問題后,源自IE的數(shù)據(jù)也有了超出 2% 的增長(zhǎng)。
這個(gè)案例是A/B測(cè)試中一個(gè)被人津津樂道的案例,可以看出,從多個(gè)維度對(duì)測(cè)試結(jié)果進(jìn)行解釋,是很有需要的。營(yíng)銷人員都應(yīng)該嘗試將數(shù)據(jù)分解到不同的維度,然后去理解不同維度下測(cè)試的實(shí)際效果。
最后,需要強(qiáng)調(diào)一點(diǎn),A/B測(cè)試雖好,但是如果使用不當(dāng)、或解釋不當(dāng),都可以成為增加營(yíng)銷阻力的因素。這就需要營(yíng)銷人避免在分析結(jié)果時(shí)出現(xiàn)自欺欺人的傾向。
我們都理解,測(cè)試過程很費(fèi)時(shí)費(fèi)力,有的改版結(jié)果,測(cè)試后發(fā)現(xiàn)很打臉。這種情況下,很多營(yíng)銷人為了找到有利的結(jié)果,會(huì)刻意去分解數(shù)據(jù),然后在多個(gè)維度中挑選“最符合需要的”數(shù)據(jù),或者和上文中的兩個(gè)“刷屏”的抗疫實(shí)驗(yàn)一樣,為了證明某個(gè)假設(shè)而只突出部分?jǐn)?shù)據(jù)或片面解讀。
例如,盡管我們都知道A/B測(cè)試的最終還是要落腳于優(yōu)化整體營(yíng)銷ROI,而不是為了單純優(yōu)化某個(gè)指標(biāo)。但是,當(dāng)某個(gè)指標(biāo)表現(xiàn)及其搶眼的時(shí)候,可能會(huì)導(dǎo)致優(yōu)化者的短視。比如,過分注重某一層的轉(zhuǎn)化率,從而在設(shè)計(jì)引導(dǎo)上急功近利或花樣百出,甚至強(qiáng)迫用戶去做出點(diǎn)擊,而不管后續(xù)轉(zhuǎn)化的質(zhì)量。
還是那句,A/B測(cè)試從來不會(huì)說謊,說謊的是它們被解讀的方式。想獲得消費(fèi)者洞見和營(yíng)銷優(yōu)化策略,就要遵循科學(xué)的方式、做好充分的解讀,數(shù)字太漂亮或太反常,都要保持十二分的警惕。
#專欄作家#
Agnes;微信公眾號(hào):靈蹊營(yíng)銷筆記,人人都是產(chǎn)品經(jīng)理專欄作家。關(guān)注智能營(yíng)銷領(lǐng)域,擅長(zhǎng)發(fā)現(xiàn)最新的營(yíng)銷技術(shù)及工具,并發(fā)掘行業(yè)前沿案例。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
- 目前還沒評(píng)論,等你發(fā)揮!