如何七周成為數(shù)據(jù)分析師16:數(shù)據(jù)分析必須懂的假設(shè)檢驗(yàn)
本文是《如何七周成為數(shù)據(jù)分析師》的第十六篇教程,如果想要了解寫作初衷,可以先行閱讀七周指南。溫馨提示:如果您已經(jīng)熟悉概率分布,大可不必再看這篇文章,或只挑選部分。
在前一篇講完概率分布后,我們?cè)俳釉賲柲孟录僭O(shè)檢驗(yàn),也就是大名鼎鼎的AB Testing。俗話說得好,再優(yōu)秀的產(chǎn)品經(jīng)理也跑不過一半AB測試。
抽樣
數(shù)據(jù)分析中,雖然數(shù)據(jù)越多越齊越好,可是受限于各類因素的制約,我們并不能獲取全部的數(shù)據(jù)。比如Excel的性能限制,比如數(shù)據(jù)庫不支持大文件導(dǎo)出、或者是無法全量進(jìn)行的用戶調(diào)研等。
抽樣是一種應(yīng)對(duì)方法,通過樣本來推斷總體,抽樣結(jié)果提供的僅僅是相應(yīng)總體特征的估計(jì),「估計(jì)」這一點(diǎn)很重要。
抽樣有很多方式,樣本首要滿足隨機(jī)性。比如進(jìn)行社會(huì)訪談,你不能只選擇商場人流區(qū),因?yàn)椴稍L到的人群明顯是同一類人群,反而會(huì)遺漏郊區(qū)和鄉(xiāng)鎮(zhèn)的人群,遺漏宅男,遺漏老人。
互聯(lián)網(wǎng)產(chǎn)品中,抽樣也無處不在,大名鼎鼎的AB測試就是一種抽樣,選取一部分人群驗(yàn)證運(yùn)營策略或者產(chǎn)品改進(jìn)。通常篩選用戶ID末尾的數(shù)字,比如末尾選擇0~4,于是抽樣出了50%的用戶,這既能保證隨機(jī)性,也能保證控制性。
畢竟抽樣的目的是驗(yàn)證和檢驗(yàn),需要始終保證用戶群體的完全隔離,不能用戶一會(huì)看到老界面,一會(huì)看到改進(jìn)后的新界面。以上也適用于推薦算法的冠軍挑戰(zhàn),用戶分群等。
至于放回抽樣,分層抽樣,在互聯(lián)網(wǎng)的數(shù)據(jù)分析中用不太到,這里就略過了。
點(diǎn)估計(jì)
既然我們已經(jīng)知道如何選擇一個(gè)樣本,接下來需要從樣本推斷總體。
列舉一個(gè)場景。產(chǎn)品和運(yùn)營人員每周都會(huì)進(jìn)行一次用戶調(diào)研,調(diào)研隨機(jī)抽取30位用戶對(duì)產(chǎn)品進(jìn)行打分,分?jǐn)?shù)0~10。根據(jù)歷史數(shù)據(jù)計(jì)算出平均7.5分,標(biāo)準(zhǔn)差為1分。
現(xiàn)在的問題是,用戶調(diào)研能否反應(yīng)一些產(chǎn)品的狀況?比如發(fā)布新版本,或者做了營銷活動(dòng)后,怎么判斷是正面影響還是負(fù)面?假設(shè)本月產(chǎn)品經(jīng)理們發(fā)布了一次新版本,這次調(diào)研抽取30位用戶平均評(píng)分是7.3,究竟是正常的波動(dòng)還是做糟糕了?
在統(tǒng)計(jì)學(xué)中,把總體的平均值標(biāo)準(zhǔn)差等稱為總體參數(shù),把樣本的種種指標(biāo)稱為點(diǎn)估計(jì)量。s是樣本標(biāo)準(zhǔn)差,σ是總體標(biāo)準(zhǔn)差。n是樣本,N是總體。
點(diǎn)估計(jì)在原有的符號(hào)上加橫線表示,比如樣本均值x拔是樣本均值,現(xiàn)實(shí)中不可能保證每次調(diào)研的數(shù)據(jù)都是一致的,假設(shè)將抽樣過程一而再,再而三的進(jìn)行下去,那么調(diào)研獲得的平均分也是波動(dòng)的。此時(shí),樣本均值x拔是一個(gè)隨機(jī)變量,稱它的概率分布為x拔的抽樣分布。
每次抽樣得出的不同均值,必然會(huì)有一個(gè)期望值,E(x拔) = u,E(x拔)就是所有大量抽樣的可能值的均值。對(duì)簡單隨機(jī)抽樣,我們可以認(rèn)為其數(shù)學(xué)期望等于u總體均值。當(dāng)點(diǎn)估計(jì)量的期望值等于總體參數(shù)時(shí),稱為無偏估計(jì)。
當(dāng)樣本量占總體5%以上時(shí),有求樣本標(biāo)準(zhǔn)差公式如下:
當(dāng)樣本量占總體5%以下時(shí),公式可以簡化成:
研的用戶量肯定小于總體5%,于是能求出樣本的標(biāo)準(zhǔn)差為0.18。
上述數(shù)學(xué)期望和標(biāo)準(zhǔn)差的計(jì)算適用于所有總體,可如果想要知道具體的概率呢?比如分?jǐn)?shù)小于等于7.3的可能性?如果是10%,那么說明這是稀少的情況,產(chǎn)品的改版未必盡如人意。如果是90%,說明這是數(shù)據(jù)的正常波動(dòng)。
x拔作為概率分布,也非為正態(tài)分布和非正態(tài)分布。根據(jù)統(tǒng)計(jì)學(xué)中的中心極限定理,當(dāng)樣本數(shù)足夠時(shí)(n>30),x拔的抽樣分布可近似于正態(tài)分布。
只要是正態(tài)分布就好辦了,把問題轉(zhuǎn)換成標(biāo)準(zhǔn)正態(tài)分布的概率求解。調(diào)研樣本評(píng)分x=7.3分,標(biāo)準(zhǔn)差σ為0.18??傮w均值u為7.5分。
z = (7.3-7.5)/0.18 = -1.11。于是P(x<=7.3)=P(z<=-1.1) = 13.3%。上述結(jié)果說明,本次抽樣得到7.3分(或者更低)的概率為13.3%,產(chǎn)品人員或許可以相信,這次改版并不好。
通過抽樣估算總體,它的概率計(jì)算是以樣本標(biāo)準(zhǔn)差作為依據(jù)的,換言之,如果樣本標(biāo)準(zhǔn)差變化,則概率一定變化。而樣本標(biāo)準(zhǔn)差和樣本容量n息息相關(guān)。如果調(diào)研用戶數(shù)是100位,那么哪怕其他數(shù)字沒變化,最終概率也會(huì)變成2.2%。這是樣本容量增加,均值的標(biāo)準(zhǔn)差減少了誤差。
區(qū)間估計(jì)
點(diǎn)估計(jì)是用于估計(jì)總體參數(shù)的樣本統(tǒng)計(jì)量,我們不可能通過點(diǎn)估計(jì)就給出總體參數(shù)的一個(gè)精確值,更穩(wěn)妥的方法是加減一個(gè)邊際誤差,通過一個(gè)區(qū)間值來估計(jì)。
上文的用戶調(diào)研案例,已經(jīng)知道了總體均值和標(biāo)準(zhǔn)差??墒撬目傮w均值也只是通過歷次調(diào)研作出的假設(shè),并不能反應(yīng)產(chǎn)品所有用戶的評(píng)價(jià)。一個(gè)更實(shí)際的應(yīng)用是,如何通過一次調(diào)研來計(jì)算用戶的總體評(píng)價(jià)。這是反其道而行之。
通過調(diào)研的歷史數(shù)據(jù),已經(jīng)知道了用戶打分的標(biāo)準(zhǔn)差是1。最近產(chǎn)品人員進(jìn)行了一次大規(guī)模的調(diào)研,訪問了200位用戶,得到樣本均值7.5分?,F(xiàn)在需要計(jì)算總體均值的區(qū)間。
通過點(diǎn)估計(jì)公式,可以得出樣本標(biāo)準(zhǔn)差為0.07。在正態(tài)分布的經(jīng)驗(yàn)公式中,已知任何正態(tài)分布的隨機(jī)變量都有95%的值落在均值附近1.96個(gè)標(biāo)準(zhǔn)差以內(nèi)。因此x拔的值一定有95%落在均值u的1.96個(gè)標(biāo)準(zhǔn)差以內(nèi)。
此時(shí),1.96個(gè)標(biāo)準(zhǔn)差等于1.96*0.07 = 0.13。利用總體均值的區(qū)間估計(jì)公式:
將數(shù)據(jù)代入:
這里多出了一個(gè)新的符號(hào)Zσ/2,稱之為置信水平,之所以除2是因?yàn)檎龖B(tài)分布左右對(duì)稱。它代表的是「隨機(jī)變量都有95%的值落在均值附近1.96個(gè)標(biāo)準(zhǔn)差以內(nèi)」,即均值有95%的概率落在這個(gè)區(qū)間內(nèi),也叫做95%置信水平。推廣開來,也有90%置信水平,99%置信水平等。
1.96是95%置信水平的Zσ/2值,我在上文已經(jīng)求出邊際誤差為0.13,最后加入平均值得到答案7.36~7.64,于是可以說,通過調(diào)研樣本均值估計(jì),總體用戶的打分有95%的概率在7.36~7.64之間。我們把[7.36,7.64]叫做置信區(qū)間。
大家可能也已經(jīng)猜出來了,為了獲得更高的置信水平,必然會(huì)得到更寬的置信區(qū)間。比如我假設(shè)一個(gè)置信區(qū)間是[7,8],那么它的置信度肯定無限接近100,因?yàn)樗鼛缀跄依怂械目赡堋H绾芜x擇置信水平和區(qū)間,是數(shù)據(jù)分析中的要點(diǎn)之一。
區(qū)間估計(jì)中還有一種常見情況,即σ未知,上文的案例我們知道了總體的標(biāo)準(zhǔn)差,如果標(biāo)準(zhǔn)差也不知道呢?畢竟案例也只是以歷史調(diào)研數(shù)據(jù)假設(shè)了標(biāo)準(zhǔn)差,未必反應(yīng)了用戶真實(shí)的情況。于是再給出一個(gè)新的問題,訪問了200位用戶,得到樣本均值7.5分,標(biāo)準(zhǔn)差為2,那么總體均值是多少?
通過樣本標(biāo)準(zhǔn)差估計(jì)總體標(biāo)準(zhǔn)差,總體均值是以t分布(上文對(duì)應(yīng)的叫做z分布)的概率分布為依據(jù)。t分布假設(shè)抽樣總體滿足正態(tài)分布,但是非正態(tài)分布中,也是能用t的,效果不錯(cuò)。
t分布依賴一種叫自由度df的的參數(shù)。與標(biāo)準(zhǔn)正態(tài)分布曲線相比,df越小,t分布曲線愈平坦;df愈大,t分布曲線愈接近正態(tài)分布曲線,當(dāng)df=∞時(shí),t分布曲線為標(biāo)準(zhǔn)正態(tài)分布曲線。區(qū)間估計(jì)公式如下:
公式?jīng)]有大的變化,總體標(biāo)準(zhǔn)差σ變化為樣本標(biāo)準(zhǔn)差s,置信水平由t概率表計(jì)算。t概率的區(qū)間分布,需要自由度和置信水平兩個(gè)參數(shù)。自由度=樣本量-1,案例中的自由度為199。然后使用Excel的TINV( )函數(shù)計(jì)算,當(dāng)置信水平為95%時(shí),TINV(0.05,199)=1.97。代入公式:
得到區(qū)間[7.22,7.77],在總體標(biāo)準(zhǔn)差未知的情況下,可以通過樣本均值7.5和標(biāo)準(zhǔn)差2計(jì)算總體均值有95%的概率落在7.22~7.77之間。
假設(shè)檢驗(yàn)
在熟悉掌握點(diǎn)估計(jì)和區(qū)間估計(jì)之后,深入學(xué)習(xí)假設(shè)檢驗(yàn)。
何為假設(shè)檢驗(yàn)?假設(shè)檢驗(yàn)是對(duì)總體參數(shù)做一個(gè)嘗試性的假設(shè),該嘗試性的假設(shè)稱為原假設(shè),然后定義一個(gè)和原假設(shè)完全對(duì)立的假設(shè)叫做備選假設(shè)。假設(shè)檢驗(yàn)就是通過樣本數(shù)據(jù)對(duì)兩個(gè)對(duì)立假設(shè)進(jìn)行檢驗(yàn)。
假設(shè)檢驗(yàn)有一套成熟的方法論。從參數(shù)看,即可以計(jì)算平均數(shù),也可以計(jì)算比率。從樣本看,可以劃分為單樣本和雙樣本。單樣本是從總體中抽取一部分進(jìn)行樣本均數(shù)和總體均數(shù)的比較。用戶調(diào)研就是一個(gè)典型的單樣本。從假設(shè)的條件看,有單側(cè)檢驗(yàn)(僅大于或小于的可能性)和雙側(cè)(僅不可能,包含大于和小于兩種情況)檢驗(yàn)。
數(shù)據(jù)分析中更多的情況是兩組樣本的比較,譬如男女用戶的差異、用戶群體的差異、以及產(chǎn)品AB測試的好與壞。因?yàn)槠颍咐龑⒅攸c(diǎn)放在雙樣本檢驗(yàn)中,單樣本檢驗(yàn)熟悉點(diǎn)估計(jì)和區(qū)間估計(jì)后不難。
回到最開始的案例,當(dāng)通過調(diào)研發(fā)現(xiàn)用戶對(duì)產(chǎn)品評(píng)分下降了,接下來得討論怎么做。產(chǎn)品經(jīng)理們說:用戶都傻兮兮的,它們對(duì)產(chǎn)品改版無法作出有效的判斷,所以打分不算數(shù),應(yīng)該用一套更好的判斷方法。
這時(shí)以產(chǎn)品改版后的活躍相關(guān)指標(biāo)作為標(biāo)準(zhǔn),其中一半用戶不做改變,還是原始功能,成為對(duì)照組。另外一半用戶體驗(yàn)新功能,為改進(jìn)組,然后根據(jù)一段時(shí)間后的表現(xiàn)來判斷改版好與不好。
活躍指標(biāo)怎么設(shè)立很大程度影響如何用假設(shè)檢驗(yàn)。既可以用均值法,即用戶平均使用時(shí)長,或一段時(shí)間窗口內(nèi)的平均活躍用戶數(shù)來衡量,也可以用比例法,即某一時(shí)間內(nèi)的活躍率。兩者對(duì)應(yīng)不同的公式,這里以平均活躍用戶數(shù)舉例。
假設(shè)檢驗(yàn)首先需要設(shè)立原假設(shè)和備選假設(shè),這里很容易犯錯(cuò)。在許多假設(shè)檢驗(yàn)中,都以備選假設(shè)為出現(xiàn)點(diǎn),它是希望得到支持的結(jié)論。因?yàn)橹坝脩粽{(diào)研的評(píng)分是下降的,于是檢驗(yàn)更希望「拒絕」活躍上升或不變,從而得出下降的結(jié)論。
原假設(shè)H0:活躍提升或不變;備選假設(shè)Ha:活躍下降。如果樣本結(jié)果得出拒絕H0的結(jié)論,那么可以做出Ha為真的推斷。
不同的樣本量和總體方差使用的檢驗(yàn)方法不同,下圖是不同情況下使用的檢驗(yàn)方法。樣本是否大于小于30是因?yàn)橹行臉O限定理,在大樣本量,且總體方差未知時(shí),使用t檢驗(yàn)還是z檢驗(yàn)均可,因?yàn)閠分布近似于z分布。我們使用z檢驗(yàn)做雙樣本均值。
將用戶分割出兩個(gè)群體體驗(yàn)產(chǎn)品功能,原始對(duì)照組和改進(jìn)組都有50000用戶。對(duì)照組的七日平均活躍數(shù)u1=8500,標(biāo)準(zhǔn)差為s1=1250,改進(jìn)組的七日平均活躍數(shù)為u2=8300,標(biāo)準(zhǔn)差s2=1240。當(dāng)總體標(biāo)準(zhǔn)差未知時(shí),有公式:
計(jì)算出z=25.399,遠(yuǎn)大于1.96,p值無限接近0,幾乎不可能發(fā)生,也就說明改進(jìn)組的活躍上升或者等于是個(gè)極小概率事件,我們拒絕了原假設(shè),接受了備選假設(shè)。若還想深入的查看活躍究竟下降了多少,使用雙樣本均值計(jì)算置信區(qū)間:
兩個(gè)樣本均值之差的95%置信區(qū)間為[183.566,215.433]。也就是說七日平均活躍數(shù)有95%的可能性下降了183~215之間。
假設(shè)檢驗(yàn)的難點(diǎn)在于諸多知識(shí)點(diǎn)和業(yè)務(wù)的結(jié)合使用,限于文章的篇幅,我省略了不少概念點(diǎn),這塊需要大家多練習(xí),比如用曾經(jīng)文章的練習(xí)數(shù)據(jù),計(jì)算上海和杭州的數(shù)據(jù)分析師工資均值是否相等,金融的工資是不是比電商的高。實(shí)際分析中不會(huì)有那么復(fù)雜的計(jì)算,我知道大家公式看暈了,不論Excel、R或者Python都有簡便的函數(shù)使用,只要知道結(jié)果的符號(hào)意義就行了。
統(tǒng)計(jì)的內(nèi)容告一段落了,這些都是比較基礎(chǔ)的知識(shí)點(diǎn),沒有寫得過于復(fù)雜,其一因?yàn)槲医y(tǒng)計(jì)本身不擅長(讀書時(shí)沒好好學(xué)),其二應(yīng)用中我也不追求背后的數(shù)學(xué)原理。這大概是我寫得最吃力的系列了。雖然還有時(shí)間序列,方差分析等內(nèi)容,就留待以后吧。
下一篇文章寫業(yè)務(wù),因?yàn)闅v史文章已經(jīng)涉及不少,反復(fù)講沒啥意思,所以一篇文章足矣,將數(shù)據(jù)中涉及的各類業(yè)務(wù)指標(biāo)和知識(shí)點(diǎn)明即可。然后就是Python了。嗯,基礎(chǔ)數(shù)據(jù)分析的內(nèi)容已經(jīng)倒計(jì)時(shí)了。
相關(guān)閱讀
互聯(lián)網(wǎng)數(shù)據(jù)分析能力的養(yǎng)成,需一份七周的提綱
如何七周成為數(shù)據(jù)分析師01:常見的Excel函數(shù)全部涵蓋在這里了
如何七周成為數(shù)據(jù)分析師02:Excel技巧大揭秘
如何七周成為數(shù)據(jù)分析師03:手把手教你Excel實(shí)戰(zhàn)
如何七周成為數(shù)據(jù)分析師:Excel技巧之甘特圖繪制(項(xiàng)目管理)
如何七周成為數(shù)據(jù)分析師:Excel技巧之打造多級(jí)菜單
如何七周成為數(shù)據(jù)分析師04:數(shù)據(jù)可視化之經(jīng)典圖表合集
如何七周成為數(shù)據(jù)分析師05:數(shù)據(jù)可視化之打造升職加薪的報(bào)表
如何七周成為數(shù)據(jù)分析師06:數(shù)據(jù)可視化之手把手打造BI
如何七周成為數(shù)據(jù)分析師07:快速掌握麥肯錫的分析思維
如何七周成為數(shù)據(jù)分析師08:如何建立數(shù)據(jù)分析的思維框架?
如何七周成為數(shù)據(jù)分析師09:寫給新人的數(shù)據(jù)庫指南
如何七周成為數(shù)據(jù)分析師10:SQL,從入門到熟練
如何七周成為數(shù)據(jù)分析師11:SQL,從熟練到掌握
如何七周成為數(shù)據(jù)分析師12:解鎖數(shù)據(jù)分析的正確姿勢(上)
如何七周成為數(shù)據(jù)分析師13:解鎖數(shù)據(jù)分析的正確姿勢(下)
如何七周成為數(shù)據(jù)分析師14:概率論的入門指南
如何七周成為數(shù)據(jù)分析師15:讀了本文,你就懂了概率分布
#專欄作家#
秦路,微信公眾號(hào)ID:tracykanc,人人都是產(chǎn)品經(jīng)理專欄作家。
本文由 @秦路?原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
對(duì)于如何建立原假設(shè)和備選假設(shè)還是有些疑惑,但是我的理解是z大于1.96,可以說明p很小,說明兩組差異顯著,且對(duì)照組的均值大于實(shí)驗(yàn)組,可以認(rèn)為新版本導(dǎo)致了活躍下降,不知道這樣理解對(duì)不對(duì)?
這一篇看得就有點(diǎn)云里霧里了,當(dāng)初學(xué)的都忘了。。。
秦大大,木有17唉~~
ces