欧洲无码亚洲精品无码,亚洲精品色婷婷在线影,欧美在成人精品

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

新疫苗實(shí)驗(yàn)刷屏，科學(xué)的AB測(cè)試是如何混淆視聽的？

Agnes

2020-11-28

0 評(píng)論 2204 瀏覽 9 收藏

22 分鐘

編輯導(dǎo)讀：AB測(cè)試原本是互聯(lián)網(wǎng)的一種工作方式，在是為Web或App界面制作兩個(gè)或多個(gè)版本，分別讓組成成分相同（相似）的目標(biāo)人群隨機(jī)訪問這些版本，收集各群組的用戶體驗(yàn)數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)，最后分析、評(píng)估出最好版本，正式采用?，F(xiàn)在被應(yīng)用到各行業(yè)，新疫苗的研發(fā)和使用也有涉及。

世界上有三種謊言：謊言、該死的謊言、統(tǒng)計(jì)數(shù)字。

There are three kinds of lies:lies, damned lies, and?statistics.

01 全世界矚目的兩個(gè)對(duì)照試驗(yàn)

這周頻繁被2組對(duì)照實(shí)驗(yàn)刷屏，都和抗Covid-19有關(guān)。國(guó)際上對(duì)疫情的報(bào)道不斷，但也沒有這兩組實(shí)驗(yàn)的結(jié)果來得刺激。

1. 口罩實(shí)驗(yàn)

第一個(gè)刷屏的實(shí)驗(yàn)，是來自丹麥的 “口罩防護(hù)效果” 對(duì)照實(shí)驗(yàn)，如下圖所示。

2020年11月18日，醫(yī)學(xué)內(nèi)科領(lǐng)域頂級(jí)期刊《Annals of Internal Medicine》發(fā)表了一篇“驚世駭俗”的論文, 這個(gè)論文提出了一個(gè)觀點(diǎn)“戴口罩對(duì)于防護(hù)新冠沒用”。這篇論文已經(jīng)在71 個(gè)國(guó)際主流媒體上被報(bào)道，推特上已經(jīng)有55,994個(gè)轉(zhuǎn)發(fā)和討論帖。

文中詳細(xì)描述了，在丹麥進(jìn)行的、關(guān)于戴口罩預(yù)防新冠感染的隨機(jī)對(duì)照試驗(yàn)：6000 人隨機(jī)分成兩組，做了兩個(gè)月試驗(yàn)，外出保持社交距離并戴口罩組的感染率是 1.8% ，外出保持社交距離不佩戴口罩的對(duì)照組感染率是 2.1% 。因?yàn)閮山M的感染率差異不顯著，結(jié)果不具有統(tǒng)計(jì)學(xué)意義。因此，在這組實(shí)驗(yàn)中，結(jié)論是?“戴口罩的防護(hù)作用是無效的”。

2. 新疫苗實(shí)驗(yàn)

第二個(gè)刷屏的實(shí)驗(yàn)，是登上各大主流媒體重磅頭條的“最新疫苗有效性”對(duì)照實(shí)驗(yàn)，如下圖所示。

同樣是11月18日，藥品制造商輝瑞公司宣布最新實(shí)驗(yàn)結(jié)果：他們研制的冠狀病毒疫苗有效性為95%，且沒有嚴(yán)重副作用。Covid-19 疫情在全球范圍內(nèi)急劇上升期間，這組完整的疫苗試驗(yàn)結(jié)果給各國(guó)都打了一劑強(qiáng)心針。

這項(xiàng)試驗(yàn)包括近 44,000 名志愿者，其中一半人注射了疫苗、另一半人注射的是鹽水（安慰劑）。然后，持續(xù)觀察每組有多少人患上 Covid-19。最終，在 170 例感染了 Covid-19的患者中，安慰劑組占 162 例，疫苗組僅占 8 例。實(shí)驗(yàn)初步證明，該疫苗可以預(yù)防輕度和重度形式的 Covid-19。如果疫苗的授權(quán)審批通過，輝瑞公司將全面投入量產(chǎn)。

02 被大眾“誤讀”的三組數(shù)據(jù)

對(duì)照實(shí)驗(yàn)（A/B測(cè)試）一直是科學(xué)陣地牢不可破的根基，它讓我們更接近事情的真相，統(tǒng)計(jì)數(shù)據(jù)的價(jià)值也被充分發(fā)揮出來。但是，很多實(shí)驗(yàn)結(jié)果在向大眾傳播時(shí)，信息容易被誤讀，甚至?xí)蔀檎`導(dǎo)大家的工具。究其原因，只有一個(gè)：對(duì)A/B測(cè)試的理解不準(zhǔn)確。統(tǒng)計(jì)數(shù)字從來不會(huì)說謊，說謊的是它們被解讀的方式。

1. 1.8% VS 2.1%

前面提到，在丹麥進(jìn)行的、關(guān)于戴口罩預(yù)防新冠感染的隨機(jī)對(duì)照試驗(yàn)中，6000 人隨機(jī)分成兩組，試驗(yàn)進(jìn)行了兩個(gè)月，戴口罩組的感染率是 1.8%，不戴口罩組的感染率是 2.1%。在統(tǒng)計(jì)學(xué)上，這兩組數(shù)據(jù)的差異沒有顯著性。所以，很多人就認(rèn)為，口罩很雞肋，對(duì)于防護(hù)病毒是無效的。

首先，在此研究進(jìn)行的時(shí)候，新冠病毒感染在丹麥還很罕見，且丹麥的人口密集度低，口罩的作用本來就具有很大局限性，以至于該項(xiàng)研究得出的結(jié)論并不能反映：1. 在新冠爆發(fā)期間，戴口罩的作用；2. 在人口密集的地區(qū)，帶口罩的作用。

其次，帶面罩組有 42 名參與者（1.8％）、對(duì)照組有 53 名（2.1％）參與者感染，組間差異為 -0.3 百分點(diǎn)，這個(gè)百分點(diǎn)雖然不能說明顯著性差異，但是如果換個(gè)角度解讀，我們卻能發(fā)現(xiàn)這組數(shù)據(jù)的可疑之處。

截至目前，丹麥實(shí)際的人群感染率約為 3/1000，如果試驗(yàn)擴(kuò)展到從整個(gè)丹麥人口中隨機(jī)抽取 6000 人，非口罩組的感染人數(shù)大致為 9 個(gè)，這個(gè)數(shù)字遠(yuǎn)遠(yuǎn)低于實(shí)驗(yàn)中的53例。就算口罩可以降低 50% 的感染率（這已經(jīng)相當(dāng)高了，現(xiàn)實(shí)中不可能），那么，這個(gè)假想的實(shí)驗(yàn)中，口罩組最多可以減少 4.5 例感染。

而現(xiàn)實(shí)中的口罩組，感染人數(shù)竟然比對(duì)照組少了 11 例，這得多大的預(yù)防效果才能存在如此之大的人數(shù)差異呀？可見，這組實(shí)驗(yàn)結(jié)論的漏洞很大。

這還沒有算上，被招募者的 6000 人，其職業(yè)、行動(dòng)軌跡、行為習(xí)慣和身體素質(zhì)都存在很大差異，如上圖所示，僅職業(yè)不明的人群就占了總實(shí)驗(yàn)人數(shù)的 22% 。個(gè)體存在的差異會(huì)影響最終驗(yàn)證的結(jié)果，實(shí)驗(yàn)中參雜了太多的無關(guān)變量，導(dǎo)致實(shí)驗(yàn)結(jié)果很難被相信。

2. 大樣本量?6000

姑且不談現(xiàn)實(shí)中口罩的應(yīng)用場(chǎng)景，這里僅深究一下 6000 的 “大樣本量” 是否真的合理？

換句話說，3000 對(duì) 3000 的實(shí)驗(yàn)設(shè)計(jì)，是否具有預(yù)測(cè)價(jià)值呢？丹麥平均的感染率約為千分之三，依舊假設(shè)人群感染率為 3/1000，就算口罩的作用可以降低 1/3 的感染率（降低 1/3 已經(jīng)是很強(qiáng)的作用了）。那么實(shí)驗(yàn)終點(diǎn)，非口罩組和口罩組預(yù)期感染人數(shù)分別是 9 例和 6 例，這一數(shù)字并不具備顯著性。即使預(yù)期感染率達(dá)到 5/1000 (相當(dāng)于武漢的感染率)，那么非口罩組預(yù)期感染人數(shù) 15 例，口罩組為 10 例，粗略計(jì)算， p=0.42，還是沒有顯著差異……

直到感染率達(dá)到 2% 的極高水平，非口罩組為 60 例，口罩組為40 例，p= 0.01 ——這時(shí)候才達(dá)到統(tǒng)計(jì)學(xué)顯著性水平?？梢?，6000 人的設(shè)置并沒有結(jié)合實(shí)際的人群低感染率來進(jìn)行設(shè)計(jì)，只需稍微深究一下，就知道禁不起推敲。

換句話說，不是什么情況下，都適合做對(duì)照實(shí)驗(yàn)的。對(duì)照實(shí)驗(yàn)并不是萬金油，必須和現(xiàn)實(shí)情況密切結(jié)合。如果實(shí)際需求的樣本量很大、現(xiàn)實(shí)卻只能收集很少的樣本數(shù)據(jù)時(shí)，這樣完成的實(shí)驗(yàn)結(jié)果，不僅不能說明問題，還很可能造成統(tǒng)計(jì)學(xué)上的某種誤導(dǎo)。

3. 新疫苗功效高達(dá)?95%

上文還提到了有關(guān)“新疫苗”的試驗(yàn)，其結(jié)論也被很多人理解為，如果注射一支疫苗，就可以將感染機(jī)率降低 95%。實(shí)際上，這個(gè)數(shù)字也很有誤導(dǎo)性。95% 這個(gè)數(shù)字是怎么來的呢？

以輝瑞公司的實(shí)驗(yàn)為例，首先招募了 43,661 名志愿者，研究人員等待 170 人出現(xiàn) Covid-19 癥狀，并獲得陽(yáng)性測(cè)試結(jié)果。在這 170 個(gè)陽(yáng)性結(jié)果中，有 162 個(gè)屬于接受了安慰劑的對(duì)照組，只有 8 個(gè)是屬于接受了疫苗的實(shí)驗(yàn)組。

然后，科學(xué)家對(duì)這兩部分患者之間的相對(duì)差異做了定義：如果疫苗組和安慰劑組之間的感染人數(shù)沒有差異，則功效為0%；如果疫苗組無人感染，則功效為100％。

通過計(jì)算，我們得出 (100% – 8/162) = 95％，這個(gè)數(shù)字無疑是證明疫苗有效的有力證據(jù)。但是這個(gè)數(shù)字并不能說明：一旦接種疫苗后，生病的幾率是多少。同理，它也不能說明大規(guī)模接種疫苗后，接種人群的疫情降低程度。

現(xiàn)實(shí)中，接種疫苗后的情況并不好估計(jì)，因?yàn)閰⒓釉囼?yàn)的人員不能反映整個(gè)人群的復(fù)雜情況，在實(shí)際情況中，人們可能會(huì)遇到各種各樣的健康和反應(yīng)的差異，僅僅是一次大規(guī)模臨床實(shí)驗(yàn)，根本不能說明其效果。之所以大概率會(huì)被推行，是因?yàn)槭鲁鼍o急，疫苗的正面作用一旦被認(rèn)可，就很可能做大規(guī)模的接種。畢竟，減少病毒的傳播是第一要?jiǎng)?wù)。

但是，如果人們接種了疫苗，然后放松了戴口罩或其他安全衛(wèi)生措施，則很有可能增加冠狀病毒傳播給他人的機(jī)率，更何況還存在相當(dāng)數(shù)量的無癥狀感染者。因此，慎重對(duì)待特別積極的實(shí)驗(yàn)結(jié)果，才是更科學(xué)的思考方式。

03 給營(yíng)銷A/B測(cè)試的啟示

A/B測(cè)試在廣告投放、轉(zhuǎn)化迭代、優(yōu)惠策略等眾多的營(yíng)銷場(chǎng)景中，被廣泛應(yīng)用著。一說如何提高營(yíng)銷 ROI，營(yíng)銷人最先想到的就是“做個(gè) A/B 測(cè)試吧，咱用數(shù)據(jù)說話?！钡牵瑺I(yíng)銷中如何讓測(cè)試數(shù)據(jù)說出正確的話，而不是像以上兩個(gè)實(shí)驗(yàn)?zāi)菢?，?duì)人產(chǎn)生不必要的誤導(dǎo)呢？

1. 測(cè)試不是打輔助，測(cè)試就是策略本身

與傳統(tǒng)決策流程中的歸納后驗(yàn)式不同，A/B測(cè)試是一種先驗(yàn)的實(shí)驗(yàn)體系，屬于預(yù)測(cè)型結(jié)論。和疫苗實(shí)驗(yàn)類似，得出的結(jié)論很難對(duì)全量流量做出預(yù)測(cè)，但是卻可以作為權(quán)衡利弊的籌碼，幫助你做出重大決策。

這也就帶來了一個(gè)問題，很多人認(rèn)為做完A/B測(cè)試，驗(yàn)出結(jié)果好壞，這個(gè)測(cè)試就可以結(jié)束了，殊不知營(yíng)銷的多變因素不亞于疫苗的接種情況，會(huì)遇到各種各樣的差異性問題。這就需要營(yíng)銷人員持續(xù)地做測(cè)試，將測(cè)試作為一種手段和策略，而不是只給決策打個(gè)輔助，偶爾才用一下。

此外，將A/B測(cè)試當(dāng)作策略、而非輔助，還有兩個(gè)重要原因：

很多時(shí)候，做A/B實(shí)驗(yàn)時(shí)，會(huì)不自覺對(duì)用戶進(jìn)行篩選，這個(gè)時(shí)候得出的ROI較高，一旦擴(kuò)量到全部用戶，ROI可能就會(huì)降低（類比疫苗實(shí)驗(yàn)）。因此在說某個(gè)策略的ROI時(shí)，需要注意，是否是小規(guī)模用戶的效率，而不是整體用戶的ROI。這個(gè)時(shí)候，就需要做持續(xù)不斷的測(cè)試，才有可能不斷接近目標(biāo)ROI。
還有一種新奇效應(yīng)遞減的情況，也很常見。在出某個(gè)新營(yíng)銷頁(yè)面的時(shí)候，用戶可能會(huì)比較感興趣，這個(gè)時(shí)候效果最好。但是過一段時(shí)間，用戶的新奇感就會(huì)消失，需要營(yíng)銷人員做持續(xù)、快速的創(chuàng)意測(cè)試，以防止因版本效果衰減而帶來的轉(zhuǎn)化率大幅波動(dòng)。

【例子】：

某頭部在線教育企業(yè)的課程，在移動(dòng)端推廣效率成為其市場(chǎng)部門非常重視的核心指標(biāo)之一。為提高用戶的購(gòu)買轉(zhuǎn)化，營(yíng)銷和產(chǎn)品部門合作，決定通過A/B測(cè)試找到優(yōu)化方案。

第一次測(cè)試，修改主標(biāo)題，原版本的 “60萬好老師”改為“名師1對(duì)1輔導(dǎo)”，轉(zhuǎn)化率提升 3% 左右，采用試驗(yàn)版本。

第二次測(cè)試，改副標(biāo)題，結(jié)果原版本的“預(yù)約免費(fèi)試聽課”比測(cè)試版的“尋找自己的1對(duì)1老師”，轉(zhuǎn)化效果要好 4.7%，于是繼續(xù)采用原版本。

第三次測(cè)試最有趣，修改了按鈕上的引導(dǎo)語(yǔ)。在按鈕的點(diǎn)擊轉(zhuǎn)化方面，原始版本“免費(fèi)試聽”比試驗(yàn)版本“快速預(yù)約”高 10%。但是，在后續(xù)的實(shí)際購(gòu)買轉(zhuǎn)化追蹤數(shù)據(jù)顯示，試驗(yàn)版本比原始版本高出 9%！

對(duì)于這個(gè)試驗(yàn)結(jié)果，該品牌根據(jù)這個(gè)產(chǎn)品在市場(chǎng)上的發(fā)展階段，進(jìn)行了綜合評(píng)估，最終還是決定最終的試驗(yàn)版本，盡管點(diǎn)擊率差一些，但是轉(zhuǎn)化收益最優(yōu)。

可見，持續(xù)的測(cè)試、并根據(jù)實(shí)際業(yè)務(wù)情況做出優(yōu)化，應(yīng)該成為營(yíng)銷人的日常策略。因?yàn)榭偸怯须S市場(chǎng)變化的因素，今天表現(xiàn)好的元素也不一定明天還好，效果是動(dòng)態(tài)的，測(cè)試也同樣需要?jiǎng)討B(tài)中進(jìn)行。

更何況每次測(cè)試都可以得到一些新的積累，比如這個(gè)案例中，如果這個(gè)課程產(chǎn)品是剛起步階段，需要更多地拉新用戶，那么營(yíng)銷人員就應(yīng)該選擇原始版本——能獲取更多潛在用戶的資料。

2. 測(cè)試結(jié)果要綜合看，維度不能單一

通常，我們會(huì)從一個(gè)固定的測(cè)量維度來評(píng)估測(cè)試結(jié)果。但是如果只考慮一個(gè)維度也意味著脫離了情景來看實(shí)驗(yàn)數(shù)據(jù)。比如，疫苗實(shí)驗(yàn)的結(jié)果中，就沒有考慮到無癥狀感染者的情況，很可能導(dǎo)致結(jié)論有偏差。

數(shù)字結(jié)果是一方面，但是其背后的業(yè)務(wù)含義更加重要，不能忽略。比如，在不同的情景下，你可能需要對(duì)相同的A/B測(cè)試結(jié)果，做出不同的決策。

一個(gè)營(yíng)銷活動(dòng)，在進(jìn)行不同優(yōu)惠策略的A/B測(cè)試時(shí)發(fā)現(xiàn)，A版比B版的用戶總活躍度高出 5%，但是卻同時(shí)降低了其中年輕用戶的活躍度占比，那么應(yīng)該推廣哪個(gè)版本好呢？

情景一，這是一個(gè)中老年購(gòu)買力占主導(dǎo)的營(yíng)銷活動(dòng)，顯然更傾向于總活躍度的提升，至于年輕人，反正也沒有實(shí)際購(gòu)買欲望，可以在這次活動(dòng)中忽略掉。

情景二，這是一個(gè)青年人購(gòu)買力占主導(dǎo)的營(yíng)銷活動(dòng)，總活躍度提升，但年輕人活躍度度下降，很可能影響實(shí)際的成單率，A、B版本的選擇，必須重新進(jìn)行評(píng)估。

此外，維度不能單一，還包括避免習(xí)慣性地將測(cè)試結(jié)果當(dāng)作一個(gè)絕對(duì)整體來看待。一般而言，從某個(gè)固定的測(cè)量維度來評(píng)估測(cè)試的結(jié)果是沒錯(cuò)的，這樣做通?？梢员苊庠诙鄠€(gè)維度中挑選最符合“需要”的數(shù)據(jù)，而故意忽視不符合假設(shè)的結(jié)果。

但同樣，僅考慮一個(gè)維度也意味著脫離了情景來看試驗(yàn)數(shù)據(jù)——不同的情景，很可能意味著對(duì)A/B測(cè)試結(jié)果截然不同的解釋。

【例子】：

幾年前 Airbnb 對(duì)搜索頁(yè)進(jìn)行了改版設(shè)計(jì)。搜索頁(yè)是 Airbnb 業(yè)務(wù)流程中非常重要的一個(gè)頁(yè)面，決定后續(xù)的轉(zhuǎn)化情況。

搜索頁(yè)改版前后的變化如圖，新版更強(qiáng)調(diào)房源的圖片（Airbnb為房主提供專業(yè)的攝影服務(wù)）及標(biāo)記了房源所在位置的地圖。為了這次改版，團(tuán)隊(duì)投入了很多資源，設(shè)計(jì)人員和產(chǎn)品人員都預(yù)測(cè)新版肯定會(huì)表現(xiàn)更好，定性研究也表明新版本更好。

但針對(duì)搜索頁(yè)的A/B測(cè)試結(jié)果卻顯示，新版轉(zhuǎn)化率并沒有更好。這個(gè)結(jié)果讓人大跌眼鏡，因此分析團(tuán)隊(duì)將數(shù)據(jù)細(xì)分到不同的情景中，來查找結(jié)果背后的真正原因。

經(jīng)過分析后發(fā)現(xiàn)，問題出在 IE 瀏覽器上。如上圖，除了來自 IE 的訪問以外，新版在其他主流瀏覽器上的表現(xiàn)都是優(yōu)于原版的。這個(gè)縱向的深入分析，幫助團(tuán)隊(duì)找到真正的問題：搜索頁(yè)的改版很有效果，但是代碼實(shí)現(xiàn)存在嚴(yán)重問題。在修復(fù)相關(guān)的問題后，源自IE的數(shù)據(jù)也有了超出 2% 的增長(zhǎng)。

這個(gè)案例是A/B測(cè)試中一個(gè)被人津津樂道的案例，可以看出，從多個(gè)維度對(duì)測(cè)試結(jié)果進(jìn)行解釋，是很有需要的。營(yíng)銷人員都應(yīng)該嘗試將數(shù)據(jù)分解到不同的維度，然后去理解不同維度下測(cè)試的實(shí)際效果。

最后，需要強(qiáng)調(diào)一點(diǎn)，A/B測(cè)試雖好，但是如果使用不當(dāng)、或解釋不當(dāng)，都可以成為增加營(yíng)銷阻力的因素。這就需要營(yíng)銷人避免在分析結(jié)果時(shí)出現(xiàn)自欺欺人的傾向。

我們都理解，測(cè)試過程很費(fèi)時(shí)費(fèi)力，有的改版結(jié)果，測(cè)試后發(fā)現(xiàn)很打臉。這種情況下，很多營(yíng)銷人為了找到有利的結(jié)果，會(huì)刻意去分解數(shù)據(jù)，然后在多個(gè)維度中挑選“最符合需要的”數(shù)據(jù)，或者和上文中的兩個(gè)“刷屏”的抗疫實(shí)驗(yàn)一樣，為了證明某個(gè)假設(shè)而只突出部分?jǐn)?shù)據(jù)或片面解讀。

例如，盡管我們都知道A/B測(cè)試的最終還是要落腳于優(yōu)化整體營(yíng)銷ROI，而不是為了單純優(yōu)化某個(gè)指標(biāo)。但是，當(dāng)某個(gè)指標(biāo)表現(xiàn)及其搶眼的時(shí)候，可能會(huì)導(dǎo)致優(yōu)化者的短視。比如，過分注重某一層的轉(zhuǎn)化率，從而在設(shè)計(jì)引導(dǎo)上急功近利或花樣百出，甚至強(qiáng)迫用戶去做出點(diǎn)擊，而不管后續(xù)轉(zhuǎn)化的質(zhì)量。

還是那句，A/B測(cè)試從來不會(huì)說謊，說謊的是它們被解讀的方式。想獲得消費(fèi)者洞見和營(yíng)銷優(yōu)化策略，就要遵循科學(xué)的方式、做好充分的解讀，數(shù)字太漂亮或太反常，都要保持十二分的警惕。