使用student’s T檢驗(yàn)的未必是學(xué)生
產(chǎn)品經(jīng)理在面臨方案選擇時(shí),往往會(huì)面臨多個(gè)方案選擇的情況。面對(duì)這種情況,最好的辦法是選擇一個(gè)相同的。為了確保公平性,我們常常會(huì)用到T檢驗(yàn)和方差檢驗(yàn)。本文分享了相關(guān)方法在網(wǎng)站分析中的應(yīng)用,希望對(duì)你有所幫助。
前言
一直想整理一下統(tǒng)計(jì)方法在網(wǎng)站分析中的應(yīng)用,剛好前幾天遇到類似的問題,借這個(gè)機(jī)會(huì)整理一下網(wǎng)站分析中T檢驗(yàn)的思路。在統(tǒng)計(jì)面前我們并沒有生產(chǎn)方法,我們只是方法的搬運(yùn)工,希望能用的恰到好處而已。T檢驗(yàn)全稱為student’s T檢驗(yàn),是由19世紀(jì)末的一位釀酒師戈塞特推導(dǎo)出的小樣本統(tǒng)計(jì)方法,因其發(fā)表研究成果時(shí)用的筆名為“學(xué)生”,這一方法被稱作是student’sT檢驗(yàn),雖有其名,但使用者卻未必是學(xué)生。
產(chǎn)品經(jīng)理在進(jìn)行產(chǎn)品方案選擇時(shí),往往會(huì)面臨多個(gè)方案選擇的情況,面對(duì)這樣的問題,最簡(jiǎn)單直接的方法是找一個(gè)相同的。
指標(biāo),分別在多個(gè)方案上進(jìn)行計(jì)算,查看計(jì)算結(jié)果的差異,這一方式固然是最為簡(jiǎn)單的,但是引發(fā)的弊端也非常的明顯,比如:測(cè)試往往會(huì)針對(duì)不同的人群、不同的數(shù)據(jù)量,這些因子會(huì)對(duì)計(jì)算的結(jié)果產(chǎn)生影響,但是在上面單純指標(biāo)的計(jì)算中,卻并沒有將其考慮在內(nèi),導(dǎo)致計(jì)算結(jié)果并不公正。
為解決上面的問題,大家開始使用統(tǒng)計(jì)學(xué)中的T檢驗(yàn)來進(jìn)行結(jié)果計(jì)算,這一方法剝離了數(shù)據(jù)中的業(yè)務(wù)屬性,單純從統(tǒng)計(jì)的角度考慮兩組數(shù)據(jù)所對(duì)應(yīng)的方案的差異,能有效避免不同人群、不同數(shù)量集引發(fā)的計(jì)算差異。
T檢驗(yàn)的優(yōu)勢(shì)除了他自身的統(tǒng)計(jì)屬性外,還在于他的穩(wěn)定性,這一方法對(duì)數(shù)據(jù)的正態(tài)性有一定的耐受能力,當(dāng)數(shù)據(jù)不滿足正態(tài)時(shí),可以采用一定的數(shù)據(jù)變換方式,將數(shù)據(jù)轉(zhuǎn)換成正態(tài),進(jìn)而使用這一方法進(jìn)行計(jì)算。
一、哪些場(chǎng)景下會(huì)用到T檢驗(yàn)和方差檢驗(yàn)
在產(chǎn)品設(shè)計(jì)中,能夠用到T檢驗(yàn)的地方非常多,我們最常見的就是A/B測(cè)試:在進(jìn)行網(wǎng)站功能優(yōu)化時(shí),每個(gè)設(shè)計(jì)師或產(chǎn)品經(jīng)理會(huì)產(chǎn)生不同的設(shè)計(jì)思路,最終形成多個(gè)設(shè)計(jì)方案,那么問題來了,如果不能進(jìn)行公正的分析,用哪一個(gè)方案就成了一種風(fēng)險(xiǎn)性決策。方案上線到APP上如果不能引發(fā)用戶的積極態(tài)度,不僅會(huì)影響產(chǎn)品的活躍度,更有可能影響產(chǎn)品進(jìn)一步的優(yōu)化。為公正起見,在A/B測(cè)試的場(chǎng)景中,經(jīng)常會(huì)看到T檢驗(yàn)的影子。
除了A/B測(cè)試外,T檢驗(yàn)還常被用在對(duì)網(wǎng)站進(jìn)行改版或推廣上,APP上線一個(gè)新的功能或者設(shè)計(jì)一個(gè)新的推廣活動(dòng),其效果是否會(huì)有明顯的不同,就需要進(jìn)行T檢驗(yàn)。此時(shí)往往會(huì)在不同時(shí)間段取兩組數(shù)據(jù),計(jì)算兩組相同的指標(biāo),對(duì)兩組指標(biāo)進(jìn)行對(duì)比。講一個(gè)相對(duì)專業(yè)一點(diǎn)的話語:這一方法實(shí)際上是在檢驗(yàn)一個(gè)二元分類變量是否對(duì)一個(gè)連續(xù)變量有明顯的影響。
另外,在運(yùn)營推廣活動(dòng)中,優(yōu)惠券的設(shè)計(jì)是設(shè)計(jì)成“滿15減3”還是“滿15減5”?在頁面設(shè)計(jì)中,按鈕是設(shè)計(jì)在頁面頂部還是在頁面底部?在問卷調(diào)查中,題目是設(shè)計(jì)7個(gè)還是設(shè)計(jì)10個(gè)?這些實(shí)驗(yàn)性的、選擇性的方案中,往往都會(huì)有T檢驗(yàn)的身影。
總結(jié)可知,T檢驗(yàn)的應(yīng)用場(chǎng)景是在方案選擇中,而使用的范圍則可以總結(jié)為:
1)樣本來自的總體應(yīng)服從或近似服從正態(tài)分布;
2)兩樣本相互獨(dú)立,樣本數(shù)可以不等;
兩獨(dú)立樣本T檢驗(yàn)?zāi)康氖牵豪脕碜詢蓚€(gè)總體的獨(dú)立樣本,推斷兩個(gè)總體是否存在顯著差異。
二、T檢驗(yàn)和方差檢驗(yàn)的原理
T檢驗(yàn)在統(tǒng)計(jì)學(xué)中是與Z檢驗(yàn)、卡方檢驗(yàn)齊名的三大統(tǒng)計(jì)方法之一,在網(wǎng)站分析中得到廣泛的應(yīng)用,T檢驗(yàn)以假設(shè)檢驗(yàn)為分析基礎(chǔ),在假設(shè)成立的基礎(chǔ)上查看樣本數(shù)據(jù)對(duì)各種分布的滿足程度。
首先,我們來了解一下假設(shè)檢驗(yàn)方法:
假設(shè)檢驗(yàn)是用反證法來證明某一假設(shè)是否成立的方法,其思路為:
1)假定這個(gè)假設(shè)H0是成立的,并構(gòu)造出一個(gè)服從某一分布F(X)的統(tǒng)計(jì)量X(X~F(X));
2)計(jì)算服從分布F(X)的隨機(jī)變量x大于(或小于)統(tǒng)計(jì)量X的概率P{X<x}(或者P{X>x}),這一概率值記為p-value;
3)選定一個(gè)顯著性水平alpha,如果p-value<alpha,則認(rèn)為原來的假設(shè)H0不成立;如果p-value>alpha,則認(rèn)為原來的假設(shè)成立。
數(shù)據(jù)的語言總是很生硬的,因?yàn)槠鋰?yán)謹(jǐn)性要求他必須字斟句酌,但是我們?cè)谏钪袇s需要一些聽得懂的表達(dá)來理解,我盡量用一些通俗的語言,幫助大家理解這一思路:
我們先來解釋一下顯著性水平表示的是什么,所謂的顯著性水平alpha是指一次實(shí)驗(yàn)中小概率事件發(fā)生的概率,統(tǒng)計(jì)中往往會(huì)假設(shè)小概率事件是不會(huì)發(fā)生的事件,所以小概率事件會(huì)被稱作是錯(cuò)誤概率,例如:alpha=0.05即為小概率事件發(fā)生的概率界限為0.05,小于這一概率即為小概率事件(即為錯(cuò)誤概率),大于這一概率則為非小概率事件(即為正確概率)。在假設(shè)檢驗(yàn)中常用的顯著水平取值有:
以A/B測(cè)試為例,假設(shè)A、B兩個(gè)方案無顯著差異,即H0成立(H0和H1的定義見如下解釋,指標(biāo)x往往是用均值來計(jì)算):理解完顯著性水平之后,我們就可以探索假設(shè)檢驗(yàn)了:
- H0:不同方案(統(tǒng)計(jì)中將其稱為不同的水平)中,指標(biāo)x沒有顯著性差異;
- H1:不同方案中,指標(biāo)x有顯著性差異;
我們假設(shè)H0成立,并依據(jù)樣本的數(shù)據(jù)構(gòu)造一個(gè)統(tǒng)計(jì)量X,根據(jù)假設(shè)這一統(tǒng)計(jì)量就會(huì)服從F(X)分布,則隨機(jī)產(chǎn)生的數(shù)據(jù)大概率會(huì)落到這一分布中,落在這一分布長尾中的數(shù)據(jù)相對(duì)較少,我們選擇顯著性水平為0.05,則長尾概率小于0.05的事件即為小概率事件,也即不可能發(fā)生的事件,這一事件發(fā)生時(shí),我們推翻H0假設(shè),即H1成立,兩個(gè)方案有顯著性差異。
圖中陰影部位即為小概率發(fā)生事件的位置,也就是長尾發(fā)生的位置,在進(jìn)行假設(shè)檢驗(yàn)中往往存在兩個(gè)注意點(diǎn):一個(gè)是兩類錯(cuò)誤(alpha錯(cuò)誤和beta錯(cuò)誤);另一個(gè)是單尾檢驗(yàn)和雙尾檢驗(yàn)(本文的T檢驗(yàn)是雙尾檢驗(yàn))。因?yàn)楸疚牡乃悸肥窍葮?gòu)建一個(gè)T檢驗(yàn)的基本思路,所以,這兩個(gè)注意點(diǎn)在本文中暫不做介紹。
在了解完假設(shè)檢驗(yàn)之后,我們的T檢驗(yàn)方法就呼之欲出了,下面我們介紹一下T檢驗(yàn)的思路:
1)建立檢驗(yàn)假設(shè)和確定檢驗(yàn)水準(zhǔn)。H0: μ=μ0,H1: μ≠μ0,α=0.05,雙側(cè)檢驗(yàn);
2)選定檢驗(yàn)方法和計(jì)算統(tǒng)計(jì)量。用單樣本的t檢驗(yàn);
在不同的前提下可以構(gòu)建不同的統(tǒng)計(jì)量,并且服從不同的分布狀態(tài),總前提是涉及檢驗(yàn)的兩組數(shù)據(jù)都服從正態(tài)分布。
本文中以正態(tài)分布為例進(jìn)行計(jì)算,在正態(tài)情況下,t值的計(jì)算公式為:
df=n-1
公式中的含義轉(zhuǎn)化成文字即為:t值=(兩個(gè)樣本殘差的均值-理想情況下殘差均值)/殘差標(biāo)準(zhǔn)差,計(jì)算殘差的情況下u0=0。
通過上面的公式可以計(jì)算出對(duì)應(yīng)的t值,以及自由度df。
三、確定P值和作出推斷結(jié)論
在確定好t值和自由度后,我們就需要確定對(duì)應(yīng)的P-value值,然后再以這個(gè)P-value值與顯著性水平alpha做比較,即可確定兩個(gè)方案是否是顯著性差異。
傳統(tǒng)的統(tǒng)計(jì)學(xué)中存在一個(gè)t分布表,記錄了t-p的轉(zhuǎn)化關(guān)系,主要思路是通過確定的自由度n和單尾顯著性水平alpha/2查找出對(duì)應(yīng)的標(biāo)準(zhǔn)t值,然后將運(yùn)算的t值與標(biāo)準(zhǔn)t值進(jìn)行比較,得出p-value值與alpha的關(guān)系。
P<alpha時(shí)拒絕原假設(shè),兩個(gè)方案存在顯著性差異。
感覺大家在看到這里的時(shí)候,對(duì)T檢驗(yàn)馬上就要失去信心了,一個(gè)方案選擇而已,又是t值,又是p值的,好不麻煩,臨了還給出一個(gè)t分布表,簡(jiǎn)直要放棄掉;好在現(xiàn)在互聯(lián)網(wǎng)發(fā)展快速彌補(bǔ)了這一缺陷,將這一流程封裝成函數(shù),簡(jiǎn)化了這一流程,我們只需要輸入兩個(gè)樣本數(shù)組,就可以得出兩個(gè)方案對(duì)應(yīng)的p-value值,直接將p-value與alpha進(jìn)行比較即可。
T檢驗(yàn)的應(yīng)用涉及面非常廣泛,自身也有其不足之處,比如面對(duì)三個(gè)或三個(gè)以上的方案選擇時(shí),T檢驗(yàn)就失去了作用,此時(shí)可以借助方差檢驗(yàn),方差分析又會(huì)有單因素方差分析、單因素協(xié)方差分析、雙因素方差分析、含兩個(gè)協(xié)變量的雙因素協(xié)方差分析等多種方式,各種繁瑣,此處也只能是拋磚引玉,梳理出一個(gè)常用的思路而已,對(duì)于方差分析,我就不多做描述了。
四、網(wǎng)站頁面設(shè)計(jì)方案A/B分析
在做頁面設(shè)計(jì)時(shí),對(duì)于按鈕在頂部還是底部進(jìn)行AB測(cè)試,通常希望獲知它對(duì)網(wǎng)站流量pv是否有顯著的影響?;诜治瞿康?,我們獲取兩個(gè)方案各15天pv數(shù)據(jù):
1)在進(jìn)行使用這一數(shù)據(jù)進(jìn)行檢驗(yàn)時(shí)首先要驗(yàn)證數(shù)據(jù)的正態(tài)性,如果不符合正態(tài)特性,則需要將數(shù)據(jù)正態(tài)化之后再進(jìn)行檢驗(yàn)。
2)利用levene檢驗(yàn)兩個(gè)樣本的方差齊次性(方差齊次性可簡(jiǎn)單理解為兩總體方差相等,有興趣可以百度深入了解):
如果返回結(jié)果的p值遠(yuǎn)大于0.05,那么我們認(rèn)為兩總體具有方差齊次性。
如果兩總體不具有方差齊性,需要加上參數(shù)equal_val并設(shè)定為False。
結(jié)論:
通過上面的運(yùn)算我們可以得出,兩個(gè)樣本具有方差齊次性,推廣前后兩個(gè)樣本的P-value=0.427,而alpha值對(duì)應(yīng)為0.05,因此P-value>alpha,兩個(gè)方案差異性不明顯。
專欄作家
野水晶體,微信公眾號(hào):livandata,人人都是產(chǎn)品經(jīng)理專欄作家。金融行業(yè)的互聯(lián)網(wǎng)老兵,聚焦數(shù)據(jù)驅(qū)動(dòng),將算法、數(shù)據(jù)融入產(chǎn)品設(shè)計(jì)與運(yùn)營策略,構(gòu)建金融增長方法論。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒評(píng)論,等你發(fā)揮!