一文讀懂假設檢驗怎么做

6 評論 10011 瀏覽 63 收藏 22 分鐘

我們在生活中經常會遇到對一個總體數據進行評估的問題,但我們又不能直接統計全部數據,這時就需要從總體中抽出一部分樣本,用樣本來估計總體情況。作者詳細闡述了如何進行假設檢驗,分享給大家。

我們為什么要假設檢驗?

我們在生活中經常會遇到對一個總體數據進行評估的問題,但我們又不能直接統計全部數據,這時就需要從總體中抽出一部分樣本,用樣本來估計總體情況。

舉一個簡單的例子:

學而思網校App進行了改版迭代,現在有以下兩個版本:

  • 版本1:首頁為一屏課程列表 ;
  • 版本2:首頁為信息流。

如果我們想區分兩個版本,哪個版本用戶更喜歡,轉化率會更高。

我們就需要對總體(全部用戶)進行評估,但是并不是全部存量用戶都會訪問App,并且每天還會新增很多用戶,所以我們無法對總體(全部用戶)進行評估,我們只能從總體的用戶中隨機抽取樣本(訪問App)的用戶進行分析,用樣本數據表現情況來充當總體數據表現情況,以此來評估哪個版本轉化率更高。

假設檢驗定義

假設檢驗是先對總體參數提出一個假設值,然后利用樣本信息判斷這一假設是否成立。

假設檢驗的假設

由定義可知,我們需要對結果進行假設,然后拿樣本數據去驗證這個假設。

所以做假設檢驗時會設置兩個假設:

一種叫原假設,也叫零假設,用H0表示。原假設一般是統計者想要拒絕的假設。原假設的設置一般為:等于=、大于等于>=、小于等于<=。

另外一種叫備擇假設,用H1表示。備則假設是統計者想要接受的假設。備擇假設的設置一般為:不等于、大于>、小于<。

例子在進行假設檢驗時,我們希望接受版本2的假設,想拒絕接受版本1的假設。所以我們的假設設置為:H0 :μ版本1 >= μ版本2 ,H1 : μ版本1 < μ版本2。

為什么統計者想要拒絕的假設放在原假設呢?

因為原假設備被拒絕如果出錯的話,只能犯第I類錯誤,而犯第I類錯誤的概率已經被規定的顯著性水平所控制。

有點看不懂哈?沒關系,我們講一下假設檢驗中的兩種錯誤和顯著性水平就清楚了。

兩種錯誤:棄真錯誤、取偽錯誤

我們通過樣本數據來判斷總體參數的假設是否成立,但樣本時隨機的,因而有可能出現小概率的錯誤。這種錯誤分兩種,一種是棄真錯誤,另一種是取偽錯誤。

棄真錯誤也叫第I類錯誤或α錯誤:它是指原假設實際上是真的,但通過樣本估計總體后,拒絕了原假設。明顯這是錯誤的,我們拒絕了真實的原假設,所以叫棄真錯誤,這個錯誤的概率我們記為α。這個值也是顯著性水平,在假設檢驗之前我們會規定這個概率的大小。

取偽錯誤也叫第II類錯誤或β錯誤:它是指原假設實際上假的,但通過樣本估計總體后,接受了原假設。明顯者是錯誤的,我們接受的原假設實際上是假的,所以叫取偽錯誤,這個錯誤的概率我們記為β。

現在清楚原假設一般都是想要拒絕的假設了么?

因為原假設備被拒絕,如果出錯的話,只能犯棄真錯誤,而犯棄真錯誤的概率已經被規定的顯著性水平所控制了。這樣對統計者來說更容易控制,將錯誤影響降到最小。

顯著性水平

顯著性水平是指當原假設實際上正確時,檢驗統計量落在拒絕域的概率,簡單理解就是犯棄真錯誤的概率。這個值是我們做假設檢驗之前統計者根據業務情況定好的。

顯著性水平α越小,犯第I類錯誤的概率自然越小,一般取值:0.01、0.05、0.1等。

當給定了檢驗的顯著水平a=0.05時,進行雙側檢驗的Z值為1.96。

當給定了檢驗的顯著水平a=0.01時,進行雙側檢驗的Z值為2.58。

當給定了檢驗的顯著水平a=0.05時,進行單側檢驗的Z值為1.645。

當給定了檢驗的顯著水平a=0.01時,進行單側檢驗的Z值為2.33。

檢驗方式

檢驗方式分為兩種:雙側檢驗和單側檢驗。單側檢驗又分為兩種:左側檢驗和右側檢驗。

  • 雙側檢驗:備擇假設沒有特定的方向性,形式為“≠”這種檢驗假設稱為雙側檢驗
  • 單側檢驗:備擇假設帶有特定的方向性 形式為”>””<“的假設檢驗,稱為單側檢驗 “<“稱為左側檢驗 “>”稱為右側檢驗

檢驗統計量:據以對原假設和備擇假設作出決策的某個樣本統計量,稱為檢驗統計量。

拒絕域:拒絕域是由顯著性水平圍成的區域。

拒絕域的功能主要用來判斷假設檢驗是否拒絕原假設的。如果樣本觀測計算出來的檢驗統計量的具體數值落在拒絕域內,就拒絕原假設,否則不拒絕原假設。給定顯著性水平α后,查表就可以得到具體臨界值,將檢驗統計量與臨界值進行比較,判斷是否拒絕原假設。

雙側檢驗拒絕域:

假設檢驗——這一篇文章就夠了

左側檢驗拒絕域:

假設檢驗——這一篇文章就夠了

右側檢驗拒絕域:

假設檢驗——這一篇文章就夠了

假設檢驗步驟

  • 提出原假設與備擇假設;
  • 從所研究總體中出抽取一個隨機樣本;
  • 構造檢驗統計量;
  • 根據顯著性水平確定拒絕域臨界值;
  • 計算檢驗統計量與臨界值進行比較。

兩種假設檢驗

假設檢驗根據業務數據分為兩種:一個總體參數的假設檢驗和兩個總體參數的假設檢驗。

一個總體參數的假設檢驗,即只有一個總體的假設檢驗。

舉個例子:

學而思App原版本1轉化率為 19%,學而思App版本2開發完成后,直接全量發布整體上線,過一段時間后統計轉化率為27%,我們想判斷版本2是否比版本1好,這時我們做的假設檢驗總體只有1個,全部用戶。對于總體只有一個的稱為一個總體參數的假設檢驗。

兩個總體參數的假設檢驗:有兩個總體的假設檢驗。

同樣的例子:

學而思App版本1和學而思App版本2同時上線,流量各50%,這時我們做的假設檢驗總體有2個,分別為命中版本1的全部用戶與命中版本2的全部用戶。

兩種假設檢驗的檢驗統計量計算方式有所不同,所以做區分描述。

一個總體參數的假設檢驗

大小樣本:樣本量大于等于30的樣本稱為大樣本,樣本量小于30的樣本稱為小樣本。

一個總體參數的大樣本(n≥30)假設檢驗方法:

假設形式:

雙側檢驗:H0 :μ=μ0, H1 :μ≠μ0;

左側檢驗:H0:μ≥μ0, H1 :μ<μ0;

右側檢驗:H0:μ≤μ0, H1:μ>μ0;

檢驗統計量:

sigma已知 :z=frac{bar{x}-mu0}{sigma/sqrt{n}}

sigma未知 :z = frac{bar{x}-mu0}{s/sqrt{n}}

bar{x}:樣本均值

mu:假設的總體均值

s:樣本標準差

sigma:總體標準差

當總體標準差已知時,用 σ 參與計算更精準。

n:樣本量

alpha與拒絕域

雙側檢驗:

left| Z right| > Zalpha/2

左側檢驗:

Z < -Zalpha

右側檢驗:

Z > Zalpha

P值決策:P<α ,拒絕H0

假設檢驗——這一篇文章就夠了

假設檢驗——這一篇文章就夠了

一個總體參數的小樣本(n<30)假設檢驗方法:

假設形式:

雙側檢驗:H0 :μ=μ0, H1:μ≠μ0;

左側檢驗:H0:μ≥μ0, H1:μ<μ0;

右側檢驗:H0:μ≤μ0, H1:μ>μ0;

檢驗統計量:

sigma已知 :t=frac{bar{x}-mu0}{sigma/sqrt{n}}

sigma未知 :t = frac{bar{x}-mu0}{s/sqrt{n}}

bar{x}:樣本均值

mu:假設的總體均值

s:樣本標準差

sigma:總體標準差

當總體標準差已知時,用 σ 參與計算更精準。

n:樣本量

alpha與拒絕域

雙側檢驗:

left| t right| > talpha/2(n-1)

左側檢驗:

t < -talpha(n-1)

右側檢驗:

t > talpha(n-1)

t值怎么看:n 是樣本量=10、自由度=n-1。當α=0.05時,臨界值-雙側檢驗:t0.025(9) 單側檢驗t0.05(9)

P值決策:P<α,拒絕H0

假設檢驗——這一篇文章就夠了

假設檢驗——這一篇文章就夠了

一個總體成數的假設檢驗

定義:

  • 樣本成數:它是指樣本中具有某一相同標志表現的單位數占樣本容量的比重,記為p。
  • 總體成數:它是指總體中具有某一相同標志表現的單位數占全部總體單位數的比重,一般用π表示。

假設形式:

雙側檢驗:

H0 : pi = pi0 , H1 : pinepi0

左側檢驗:

H0 : pigeqpi0 , H1 : pi<pi0

右側檢驗:

H0 : pi leqpi0 , H1 : pi >pi0

檢驗統計量:

z=frac{P-pi0}{sqrt{frac{pi0(1-pi0)}{n}}}

P:樣本成數π0

總體成數n:樣本量α與拒絕域:

雙側檢驗:

left| Z right| > Zalpha/2

左側檢驗:

Z < -Zalpha

右側檢驗:

Z > Zalpha

P值決策:P<α ,拒絕H0

假設檢驗——這一篇文章就夠了

兩個總體參數的假設檢驗

大小樣本:樣本量大于等于30的樣本稱為大樣本,樣本量小于30的樣本稱為小樣本。

兩個總體參數的大樣本(n≥30)假設檢驗方法:

假設形式:

雙側檢驗:

H0 : mu1-mu2 = 0 , H1 :mu1 - mu2 ne 0

左側檢驗:

H0 : mu1 - mu2 geq 0 , H1 : mu1 - mu2 < 0

右側檢驗:

H0 : mu1 - mu2 leq 0 ,H1 : mu1 - mu2 >0

檢驗統計量:

t=frac{(bar{x1} - bar{x2})-(mu1-mu2)}{sqrt{s1^{2}/n1+s2^{2}/n2}}

mu:兩個總體均值

bar{x}:樣本均值

s:樣本標準差

sigma:總體標準差

當總體標準差已知時,用 σ?參與計算更精準。

n:兩個樣本量

α與拒絕域:

雙側檢驗:

left| Z right| > Zalpha/2

左側檢驗:

Z < -Zalpha

右側檢驗:

Z > Zalpha

P值決策:P<α,拒絕H0

假設檢驗——這一篇文章就夠了

兩個總體成數的假設檢驗

當n1*P1、n1*(1-P1)、n2*P2、n2*(1-p2)都大于或等于5時,就可以稱為大樣本。

假設形式:

雙側檢驗:H0 : π1-π2 =0 ,H1 : π1-π2≠0

左側檢驗:H0 : π1-π2 ≥0 ,H1 : π1-π2<0

右側檢驗:H0 : π1-π2 ≤0 ,H1 : π1-π2>0

檢驗統計量:

(1)原假設為H0 : π1=π2或 π1-π2 ≥0 、π1-π2 ≤0情況下。

檢驗統計量:

z=frac{p1-p2}{sqrt{p(1-p)(1/n1+1/n2)}}

p1、p2:兩個樣本成數

p:兩個樣本的合并成數 p=frac{p1*n1+p2*n2}{n1+n2}

n1、n2:兩個樣本量

(2)原假設為H0 : π1-π2=d0(d0≠0)

檢驗統計量:

z= frac{(p1-p2)-d0}{sqrt{p1(1-p1)/n1+p2(1-p2)/n2}}

α與拒絕域:

雙側檢驗:

left| Z right| > Zalpha/2

左側檢驗:

Z < -Zalpha

右側檢驗:

Z > Zalpha

P值決策:P<α ,拒絕H0

假設檢驗——這一篇文章就夠了

R語言實現假設檢驗

z.test():BSDA包,調用格式

z.test(x, y = NULL, alternative = "two.sided,less,right", mu = 0, sigma.x = NULL,
 sigma.y = NULL, conf.level = 0.95)

x,y為樣本數據,單樣本時忽略y;alternative選擇檢驗類型,two.sided 雙側檢驗,less左側檢驗,greater右側檢驗 ;mu為原假設的均值;sigma.x,sigma.y為標準差;conf.level為置信水平,var.equal是邏輯變量,var.equal=TRUE表示兩樣品方差相同,var.equal=FALSE(缺?。┍硎緝蓸颖痉讲畈煌?/p>

t.test():調用格式

t.test(x, y = NULL, alternative=c("two sided","less","greater"), mu = 0,paired = TRUE, 
var.equal = FALSE, conf.level = 0.95,...)

x,y為樣本數據,單樣本時忽略y;alternative選擇檢驗類型,two.sided 雙側檢驗,less左側檢驗,greater右側檢驗 ;mu為原假設的均值;sigma.x,sigma.y為標準差;conf.level為置信水平,var.equal是邏輯變量,var.equal=TRUE表示兩樣品方差相同,var.equal=FALSE(缺?。┍硎緝蓸颖痉讲畈煌?/p>

binom.test():調用格式

binom.test(x, n, p = 0.5,alternative = c("two.sided", "less", "greater"),conf.level = 0.95)

其中,x是成功的次數;n是試驗總數,P是原假設的概率,也是總體成數的公式

 

本文由 @斑馬 原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 看起來成數和參數的計算本質是一樣的吼

    來自廣東 回復
  2. 哈哈哈,一文沒讀懂

    來自廣東 回復
  3. 好厲害

    來自北京 回復
    1. ??

      來自北京 回復
  4. 666

    回復
    1. 666

      來自廣東 回復