如何簡單的判斷兩個版本優劣?T檢驗的實踐運用(二)
大學的統計學知識,你是否還記得?本文作者將用最精煉的語言和簡單的案例,讓你能夠快速將T檢驗運用到實戰當中。因此不用糾結過多的統計學理論而不能自拔,知道怎么運用即可。本文是T檢驗的實踐運用系列第二篇-相依樣本T檢驗。
筆者最近項目比較趕,所以更新頻率慢了很多,同時也發現其實這類偏學術一點點的文章熱度并不怎么高,不過認真讀下來并且將文中的知識運用到工作中的小伙伴們,應該是受益頗多的,筆者的初衷也是希望更多的人能在看完我的文章后能在平時的產品設計與產品驗證方面更合理,避免很多拍腦袋的事情頻頻出現,那閑話就聊到這里,下面我們就進入我們本篇的主題-獨立樣本T檢驗。
上一篇我們講到了單樣本T檢驗,我們回顧一下它是用來做什么的:如果我們只有一個樣本,假設樣本均值為,總體的均值為μ,我們想知道,這個樣本來自的總體是否與具有這個均值的總體顯著不同?
通俗的來講,就是想知道我們手里的這個樣本與總體的差距,它比總體表現好,還是表現差。
那么,假如我們有兩個版本的方案設計,如何簡單的判斷兩個版本的方案誰好誰壞呢?
有同學會立即想到A/B Test。不過,A/B Test就一般的小公司來說并不是很簡單就能實施的一種方法,否則也不會有那么多專門做A/B Test的公司了,并且A/B Test的很多理論和知識點與T檢驗也有重合,所以我們首先了解T檢驗是只有好處而沒有壞處的。而相依樣本T檢驗就是一種簡單,快速的雙版本驗證方法,人人都可以用哦。
相依樣本T檢驗的流程與單樣本T檢驗的流程很是類似,所以在閱讀接下來的內容之前,強烈建議回去看一下單樣本T檢驗。那么假如你已經看過上面的文章,并且對基本的實驗流程清楚了的話,我們開始我們的相依樣本T檢驗講解。
相依樣本T檢驗:(Dependent t-test for paired samples)
相依樣本的概念是:如果同一受試者參加兩次測試,則是相依樣本,這叫做受試者內設計。
比如,我們讓每個受試者分別體驗我們的兩版不同的產品,之后我們分別得到兩版的成對數據;又或者是一種縱向的時間研究,我們對受試者施加一種前期測試,然后在一個時間點得到一組數據,然后再對受試者施加另一種測試,在另一個時間點得到另一組數據。
總之,我們是為了得到相同對象的成對數據 (Xi, Yi),我們要衡量這些值之間的差異|Di = Xi – Yi| ,之后我們得到Di后的計算流程就與單樣本T檢驗的計算流程一樣了。接下來我們通過案例來直觀的感受一下相依樣本T檢驗。
假如我們設計了一個新的游戲玩法(或者我們在PC上看到一個很火的游戲想移(chao)植(xi)到移動端,比如吃雞),但是目前遇到了一個問題是這個游戲的玩法,目前市面上沒有合適的操控設計來匹配,因此我們需要重新設計一套操控系統。
團隊經過日夜趕工設計出了兩款新的操控方案,但是不確定哪種會更好一些,因此他們想知道這兩套操控哪種更方便玩家的操作,哪種操控使得玩家犯錯率更低(比如當玩家想向右邊轉動鏡頭時卻轉向了左邊)。團隊邀請了25個內測玩家來進行方案測試。這些玩家被隨機分配到首先使用操控方案一還是操控方案二的組中,然后進行輪換。實驗方式是玩家需要在1分鐘內進行15步游戲常見的操作,然后統計每個玩家的出錯次數。X為方案一的出錯次數,Y為方案二的出錯次數,最后得到如下數據:
1. 提出問題,設定0假設和對立假設
0假設:我們假設兩種方案差別沒什么不同,不存在顯著差異,即如果將這兩種方案共同推出,所有使用這兩種鍵盤的人都沒感到什么差異,記為
對立假設:我們假設這兩種方案有差異,所以記為
u為總體均值。
2.?計算差異點估計
差異的點估計為
這個點估計只是樣本點估計,我們需要知道與其他差異的對比結果,因此我們需要計算差異的標準偏差。
3.?計算差異的標準偏差
根據計算得到S = 1.91
4.?確定均值標準誤差SEM
SEM = 1.38
5.?確定t值
計算得出t = -1.21
6.?確定t臨界值
自由度
因為我們設置的對立假設為
所以此檢驗為雙尾檢驗,根據95%置信水平查詢T表格得:
t臨界 = ±2.064
7.?得出結論
那么根據我們計算得出的t值和t臨界值,我們是否拒絕0假設呢?因為t值為-1.21,它不在臨界范圍之內,所以我們不能拒絕0假設,也就是說,雖然我們從樣本的平均值上面看,可能方案一比方案好。
但是從統計學角度講,如果這兩個方案真的都投入到市場上,用戶的操控體驗其實也沒多大區別。那這時候問題來了,我們到底怎么決策呢?這時候,我們就要將得到的這組數據平均分與行業操控數據進行對比,也就是說與行業數據進行單樣本T檢驗,看看此數據是否比行業數據好,如果連行業數據都不如的話,那就需要對這兩個方案進行整改設計了,再次循環這個過程,直到找到最優方案。
至此我們經歷了一個相依樣本T檢驗的案例,雖然我們最終沒有從這兩個方案中選擇一個出來,但是我們知道了這兩個方案其實差異不大,并且我們也知道了接下來該怎么做,相信我們在實驗的驗證下一定會得到一個比較滿意的方案的。
另外,還是提醒大家,影響方案選擇的因素是比較多的,除了數據上的驗證外,還要考慮到具體的業務需求,時間成本,開發成本等等因素,也就是我們要去評估方案的實際顯著性和統計顯著性,如果方案一的體驗只比方案二的體驗有輕微提升,但是開發成本高出許多,這樣的方案是否要推出,還是需要評估一下的,好啦,那么這期就到這里啦,我們下期見。
下期我們將會講解最后一種,獨立樣本T檢驗。
相關閱讀
本文由 @白子 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自unsplash,基于CC0協議
樓主,你好,SEM是不是計算錯誤了?應該是0.38?