產品測試過程中,T檢驗的實踐運用(一)

3 評論 15437 瀏覽 45 收藏 13 分鐘

大學的統計學知識,你是否還記得?本文作者將用最精煉的語言和簡單的案例,讓你能夠快速將T檢驗運用到實戰當中。因此不用糾結過多的統計學理論而不能自拔,知道怎么運用即可。

作為一個產品經理,在經過一系列坎坷將需求方案落地后,判斷方案效果的好壞就是一個非常重要的步驟了,在產品大范圍發布前,我們通常要進行小樣本量的范圍測試;這些測試我們也可以分為線上和線下。實體產品通常會邀請顧客到店體驗產品,收集用戶反饋;互聯網產品大部分公司會設計一個簡單的線上測試方案,通過觀察用戶行為數據來判斷方案的效果,在成本允許的情況下,做線下用戶測試同樣是非常必要的。

那么,對于樣本量較低的測試方案,如何判斷產品效果的好壞?如果你邀請了10個用戶來體驗你的產品,10個用戶反饋給你的信息都很棒,那么你的產品就一定能滿足大部分目標客戶的需求嗎?在你糾結的時候,不要著急,T檢驗就可以用來實戰了,這種簡單而常用的檢驗方法線上線下兩者通吃,本系列將通過三個例子讓你完全了解T檢驗的實戰方式。

如果你已經把大學的統計學知識忘記的差不多了,別擔心,筆者將用最精煉的語言和簡單的案例讓你能夠快速將T檢驗運用到實戰當中,不用糾結過多的統計學理論而不能自拔,知道怎么運用即可。

你需要了解的2個關鍵的前置知識點:

  1. ?T檢驗的升級版其實是Z檢驗,T檢驗只是Z檢驗的替代版,但是80%的情況下我們會使用T檢驗,因為Z檢驗的使用前提是總體均值已知,但是這個條件在如今情況下幾乎是不可能的,(比如全國人民的平均身高,你需要每個人都量一遍嗎?)。在總體均值未知,樣本量較小的情況下(一般是樣本量<30,但這需要根據樣本來自的總體大小而定),我們還是使用T檢驗。
  2. Z檢驗與T檢驗方法能夠使用的最重要的前提是一個定理→ 中心極限定理:假設我們從一個總體里抽取一定數量的樣本,計算此樣本的均值,然后重復100次抽取,那么畫出這些樣本均值的分布將會是正態的。正是因為這個定理,我們的T檢驗適用于任何總體。

OK,暫且補充這兩個知識點,不過已經交代了為何我們能夠使用T檢驗,以及使用T檢驗的原因,如果一直補充前置知識將會是個無限循環(好比做一個凳子需要木頭,要木頭需要斧子,要斧子需要鐵。。。),如果下面步驟中有未知名詞或者未知概念,Google一下即可,接下來我們將具體講解T檢驗的運用。

T檢驗分為三種:單樣本T檢驗,獨立樣本T檢驗,相依樣本T檢驗,今天我們將講解第一個,單樣本T檢驗。

單樣本T檢驗:(One-Sample t-test)

與他的名稱一樣,單樣本T檢驗就是我們只有一個樣本。

假設樣本均值為,總體的均值為μ,我們想知道,這個樣本來自的總體是否與具有這個均值的總體顯著不同?

一般的單樣本T檢驗的步驟如下:

1. 提出問題,設定0假設和對立假設

0假設是指我們假設此樣本與總體無顯著不同;一般為X = μ

對立假設可以根據實際情況定為三種:

  • 我們假設此樣本與總體有顯著不同?!佴?/li>
  • 我們假設此樣本比總體均值要高?!荭?/li>
  • 我們假設此樣本比總體均值要低。<μ

2.?確定樣本均值和樣本標準偏差

其中為每個樣本的值,N為樣本數。

不用擔心,大部分數據處理工具都能直接算出這個值,(比如excel,python的numpy庫中std()函數)

3. 確定均值標準誤差SEM

(n為樣本個數)

標準誤差用來衡量抽樣誤差,標準誤差越小,表明樣本統計量與總體參數的值越接近,樣本對總體越有代表性,用樣本統計量推斷總體參數的可靠度越大。

4. 確定95%/99%置信水平下t臨界值

至于選擇95%還是99%置信水平,需要根據實際情況進行選擇,一般來說,數值越大,精度越高,95%已經能滿足絕大部分數據要求。對于t臨界值的確定,我們需要用到T表格,T表格鏈接(參考百度文庫https://wenku.baidu.com/view/c010cdc22cc58bd63186bd84.html)。

如何使用T表格?我們需要根據自由度與顯著性水平兩個值進行查詢,一般自由度df = n – 1 ,根據第一步設置的對立假設,確定為單尾檢驗還是雙尾檢驗,然后根據95%/99%置信水平求得顯著性水平。

5. 確定t值

t值求解公式:

6. 得出結論

根據求出的t值與t臨界值進行對比,根據t值所在區域判斷是否拒絕0假設,接受對立假設。

7. 確定Cohen’s d(可選)

Cohen’s d等于(樣本均值 – 總體均值)/樣本的標準偏差,它反映的是樣本均值和總體均值之間存在多少個標準偏差。

8. 確定95%/99%置信區間(可選)

置信區間公式:

置信區間確定了此樣本所在的總體均值所在范圍。

具體案例

此案例為定性數據定量化的案例之一。

假設我們現在要判斷一款產品的用戶體驗如何,用戶體驗這個概念比較主觀,我們需要將定性的數據進行定量化處理。

我們一般的用戶體驗分為以下5種:

  1. 感官體驗:呈現給用戶視聽上的體驗,強調舒適性。
  2. 交互體驗:呈現給用戶操作上的體驗,強調易用/可用性。
  3. 情感體驗:呈現給用戶心理上的體驗,強調友好性。
  4. 瀏覽體驗:呈現給用戶瀏覽上的體驗,強調吸引性。
  5. 信任體驗:呈現給用戶的信任體驗,強調可靠性。

我們針對每一種體驗分別給予0-10,10個評分等級,針對每種體驗給予自己主觀的打分,之后算出五個分數的平均得分。

例如我們的一個目標用戶的體驗得分如下:

分數段 ? ? ? ? ? ? 得分

感官體驗 ? ? ? ? ?0-10 ??????4

交互體驗 ? ? ? ? ?0-10 ??????7

瀏覽體驗 ? ? ? ? ?0-10 ??????6

情感體驗 ? ? ? ? ?0-10 ??????7

信任體驗 ? ? ? ? ?0-10 ??????8

平均得分 ? ? ? ? ?6.4

我們邀請28個目標用戶,事先與其溝通好每種體驗的正確體驗方式,得出了28人的體驗平均得分樣本:

6.2,5.3,8.7,7.4,5.2,6.9,8.3,4.4,7.8,6.5,5.9,5.3,5.4,7.5,7.4,4.3,8.5,6.9,6.4,4.7,8.7,6.4,9.2,6.3,4.7,6.5,5.4,7.1

我們假設用戶體驗的行業及格平均分的標準為6分。

那么,我們提出的問題是,此產品的用戶體驗平均得分是否超過行業及格標準分?

1. 提出問題,設定0假設和對立假設

(1)0假設

此產品的用戶體驗平均得分等于行業及格平均分。

(2)對立假設

此產品的用戶體驗平均得分大于行業及格平均分。

2. 確定樣本的均值和樣本標準偏差

根據樣本數據我們求得:

3. 確定SEM(均值標準誤差)

4. 確定95%的置信水平下t臨界值

自由度 ?

因為我們設置的對立假設為,所以此檢驗為單尾檢驗,根據95%置信水平查詢T表格得:

t臨界 = 1.703

5. 確定t值

6. 得出結論

根據t值與t臨界值之間的關系,我們拒絕0假設,我們可以判斷此產品的用戶體驗及格,并且此產品的用戶體驗平均得分大于行業及格平均分。

7. 確定95%置信區間

根據公式:

我們算出95%置信區間為(6.13,6.96),也就是說此產品如果計算所有用戶的用戶體驗平均得分,那么評分的總體均值大概會落在6.13~6.96之間。

至此我們完成了一個定性數據定量化的簡單案例,有了這個數據,我們可以更加直觀的對產品的用戶體驗做出判斷,這就是單樣本T檢驗的應用案例之一。

下期我們將會講解接下來的兩種檢驗方法:獨立樣本T檢驗,相依樣本T檢驗。

歡迎拍磚。

 

本文由 @白子 原創發布于人人都是產品經理。未經許可,禁止轉載。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 測試用例

    來自河北 回復
  2. 這里我有幾個疑惑。。。
    單樣本t檢驗公式,底部為什么不是n-1?
    感覺這里應該進行雙尾t檢驗,表明平均分高是因為總體高而不是個別高分數拉高了總體。。。

    來自廣東 回復
  3. 優秀 謝謝

    來自遼寧 回復