A/B測試算法揭秘第二篇:如何分析試驗數據(上)

2 評論 17714 瀏覽 94 收藏 8 分鐘

希望通過我們的幾篇文章,能夠幫助你更好的了解A/B測試和置信區間,一起實現用A/B測試驅動產品優化。

A/B測試的實質是對照試驗,即通過對幾個不同的版本進行對比,從而選出最優版本。在這個過程中,需要分析處理在試驗中收集到的數據,并應用統計學上的方法對數據進行驗證,看它是否符合我們最初的設計目標,或分析它的結果效應如何。這一章我們就將跟大家談談這種方法——假設檢驗。

假設檢驗的定義

假設檢驗是先對總體的參數提出某種假設(比如說轉化率的平均值),然后利用樣本數據判斷假設是否成立的過程。在邏輯上,假設檢驗采用了反證法,即先提出假設,再通過適當的統計學方法來計算這個假設可能性的大小。

由于統計得出的結果來自于隨機樣本的數據,結論不可能為絕對的,所以我們只能根據概率上的一些依據進行相關的判斷。這里依據的是小概率思想(即顯著性水平 p<0.05的小概率事件在一次試驗中基本上不會發生),也就是說當原假設的可能性小于認定的某一標準的話,則拒絕原假設(認為這個假設是不成立的),反之則接受原假設。

具體到A/B測試里的假設檢驗,就是指假設試驗版本的總體參數(優化指標均值)等于對照版本的總體參數,然后利用這兩個版本的樣本數據來判斷這個假設是否成立。

如果樣本數據拒絕原假設,我們說檢驗的結果是顯著的;反之,我們則說結果是不顯著的。一項檢驗在統計上是“顯著的”,意思是指這樣的樣本數據不是偶然得到的,即不是抽樣的隨機波動造成的,而是由內在的影響因素導致的。

假設檢驗的基本概念

為了更好地理解假設檢驗,我們在下面列出了一些與之有關的基本概念。

  • 統計假設:是對總體參數(包括總體均值μ等)的具體數值所作的陳述。
  • 原假設:是試驗者想收集證據予以反對的假設,又稱“零假設”,記為H0;對比試驗中的原假設就是試驗版本的總體均值等于對照版本的總體均值。
  • 備擇假設:也稱“研究假設”,是試驗者想收集證據予以支持的假設,記為H1;對比試驗中的備擇假設就是試驗版本的總體均值不等于對照版本的總體均值。
  • 雙側檢驗與單側檢驗:如果備擇假設沒有特定的方向性,并含有符號“=?”,這樣的稱為雙側檢驗。如果備擇假設具有特定的方向性,并含有符號“>”或“<”的假設檢驗,稱為單側檢驗。

原假設和備擇假設是一個完備事件組,而且相互對立。在一項假設檢驗中,原假設和備擇假設必有一個成立,而且只有一個成立。在對比試驗中,因為我們試驗的目的是通過反證法證明試驗版本和對照版本有明顯的不同(提升),所以我們的原假設是試驗版本的總體均值等于對照版本的總體均值。

假設檢驗的兩類錯誤

假設檢驗中有兩類錯誤,需要我們在試驗過程中加以避免。

4dd051bba151b3273fb1711c31abb9d7_b

  • 第 I 類錯誤(棄真錯誤):原假設為真時拒絕原假設;第 I 類錯誤的概率記為 α(alpha)。
  • 第 II 類錯誤(取偽錯誤):原假設為假時未拒絕原假設。第 II 類錯誤的概率記為 β(Beta)。

其中,α 是一個概率值,表示原假設為真時, 拒絕原假設的概率,也稱為抽樣分布的拒絕域。在這兩類錯誤中,相對更加嚴重的是第 I 類錯誤,為了盡量避免第一類錯誤的發生,α 的取值應盡可能小。α 值由試驗者事先確定,常見的有 0.01,0.05和0.10 。對比試驗中使用的 α 值是 0.05(5%),這是顯著性檢驗中最常用的小概率標準值。

假設檢驗的決策標準

因為假設檢驗主要是通過觀察樣本結果,再計算總體假設的可能性,最后判斷出假設的正確與否。那么可能性的標準是什么呢?需要根據顯著性水平 P-Value 進行計算。

在這里簡要說明一下顯著性水平 p(p-value),是指在原假設為真的條件下,樣本數據拒絕原假設這樣一個事件發生的概率。例如,我們根據某次假設檢驗的樣本數據計算得出顯著性水平p=0.04;這個值意味著如果原假設為真,我們通過抽樣得到這樣一個樣本數據的可能性只有 4%。

那么,0.04 這個概率或者說顯著性水平到底是大還是小,夠不夠用來拒絕原假設呢?這就需要把 p 和我們采用的第 I 類錯誤的小概率標準 α 來比較確定。假設檢驗的決策規則:

若 p ≤ α,那么拒絕原假設;

若 p > α,那么不能拒絕原假設。

8f3a9a0d33181a91974fe7a609978709_b

如果 α 取 0.05 而 p = 0.04,說明如果原假設為真,則此次試驗發生了小概率事件。根據小概率事件不會發生的判斷依據,我們可以反證認為原假設不成立。

顯著性水平 p 的計算公式取決于假設檢驗的具體方式,在這里就不具體展開了。

關于假設檢驗的基礎知識就介紹到這里,在之后的內容中,我們將分別對顯著性水平的P-Value、T檢驗等進行詳細的介紹。

 

作者:吆喝科技,微信公眾號(appadhoc)。

本文由 @吆喝科技 原創發布于人人都是產品經理。未經許可,禁止轉載。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 枯燥無味,隨便帶上個例子就能說明很多事情

    來自廣東 回復
  2. 測試用例

    來自河北 回復