A/B測試算法大揭秘 | 一切都從這個定理開始

2 評論 12915 瀏覽 61 收藏 5 分鐘

對于通過A/B測試來優化產品的用戶而言,置信區間無疑是最關注的元素之一,它可以反映出試驗版本與對照版本之間的真實提升范圍。但是置信區間背后的原理,以及具體的計算方法是怎樣的?從今日起,我們將為你逐步揭開置信區間的神秘面紗,解答你的疑惑。本文是第一章,一切先從奠基性的定理——中心極限定理說起。

關于正態分布

在正式介紹中心極限定理之前,需要先了解一下什么是“正態分布”。

以擲2顆骰子為例,對所擲的點數求和并將數值在坐標軸上標記出來,當擲出次數增大到無限時,坐標軸上的散點就會呈現出“正態分布”的形式。

因其曲線形態呈現出兩頭低、中間高、左右對稱的樣式,正態分布又被稱為鐘形曲線。它是概率分布函數里最重要的一個分布類型,體現了隨機性的最基本規律。

在正態分布的表達式中,有幾個比較重要的參數:樣本均值x、總體均值μ、方差σ。縱軸表示概率密度,橫軸表現隨機變量的值,曲線與橫軸間構成的面積求和為1,表示所有可能的取值加起來的概率是100%。

其實,正態分布在生活中有著相當廣泛的應用:如根據考生成績的正態分布規律來判斷本次試卷的命題難度,憑借同質群體的身體機能狀況來界定醫學參考值范圍等。

兩種青年對中心極限定理的兩種表達

那我們今天的主角——中心極限定理,與正態分布有什么聯系嗎?

關于中心極限定理的表達方式其實有很多種,在這里,我們選取了和A/B測試較為相關的兩種表達,供大家參考:

普通青年:從總體中隨機抽取一個樣本量為n的樣本,當n充分大時,樣本均值的抽樣分布近似服從正態分布。

普通青年對于中心極限定理的理解較為直觀,但對于某些隨機變量來說,簡單的樣本均值分布并不滿足正態分布的形態。

針對隨機變量的具體分布情況,文藝青年有著更為科學的見解:

多個相互獨立的隨機變量,他的均值(和)的分布是以正態分布為極限,也就是逼近正態分布,與隨機變量的具體分布無關。

也就是說,無論現有的樣本數據是什么樣的分布,只要通過均值或者和的方式對變量數據進行組合轉換,最終得到的具體分布類型肯定是正態分布狀態。所以我們在處理相關數據時,并不需要這個數據一定是正態分布的表現。

1656dc8e348025a380adf1b48b032b02_b

中心極限定理在A/B測試中的應用

中心極限定理是概率論中最重要的一類定理,它支撐著和置信區間相關的T檢驗和假設檢驗的計算公式和相關理論。如果沒有這個定理,之后的推導公式都是不成立的。

事實上,以上對于中心極限定理的兩種解讀,在不同的場景下都可以對A/B測試的指標置信區間判定起到一定作用。

對于屬于正態分布的指標數據,我們可以很快捷地對它進行下一步假設檢驗,并推算出對應的置信區間;而對于那些不屬于正態分布的數據,根據中心極限定理,在樣本容量很大時,總體參數的抽樣分布是趨向于正態分布的,最終都可以依據正態分布的檢驗公式對它進行下一步分析。

不過,了解了中心極限定理,只是完成了最基礎的部分。要想真正了解A/B測試和置信區間,還需要走很長一段路。第二章,我們將向你講述假設檢驗。

 

作者:王曄,吆喝科技創始人兼 CEO

本文由 @王曄 原創發布于人人都是產品經理。未經許可,禁止轉載。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 測試用例

    來自河北 回復
  2. 好多統計學的知識~~~能不能寫分享一篇統計的理論呢? ?? ?? ??

    來自廣東 回復