狠狠综合久久久久综合网小蛇,99精品国产一区二区三区2021,中文字幕一精品亚洲无线一区

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

如何七周成為數據分析師15：讀了本文，你就懂了概率分布

秦路

2017-08-09

4 評論 21617 瀏覽 77 收藏

18 分鐘

本文是《如何七周成為數據分析師》的第十五篇教程，如果想要了解寫作初衷，可以先行閱讀七周指南。溫馨提示：如果您已經熟悉概率分布，大可不必再看這篇文章，或只挑選部分。

我們已經了解概率的基礎，概率中通常將試驗的結果稱為隨機變量。隨機變量將每一個可能出現的試驗結果賦予了一個數值，包含離散型隨機變量和連續型隨機變量。

擲硬幣就是一個典型的離散型隨機變量，離散隨機變量可以取無限個但可數的數值。而連續變量相反，它在某一個區間內能取任意的數值。時間就是一個典型的連續變量，1.25分鐘、1.251分鐘，1.2512分鐘，它能無限分割。

既然隨機變量可以取不同的值，統計學家就用概率分布描述隨機變量取不同值的概率。相對應的，有離散型概率分布和連續型概率分布。

對于離散型隨機變量x，定義一個概率函數叫f(x)，它給出了隨機變量取每一個值的概率。

拿出一個骰子，擲到6的概率是f(6) = 1/6，擲到1和6的概率則是f(1)+f(6) = 1/3。

數學期望和方差

現在有一個運營活動，兩套抽獎概率方案，如下：

作為運營人員，應該怎么衡量兩種抽獎方法的好壞呢？

數學期望是對隨機變量中心位置的一種度量。是試驗中每次可能結果的乘以其結果的總和。簡單說，它是概率中的平均值，可以用期望對比兩套方案。

假設一等獎成本1000元，二等獎成本500元，三等獎成本100元，歡迎下次再來當然沒錢，而用戶參加一次抽獎需要5元。我們將概率問題轉換成運營方的收益和成本計算期望（下面的盈虧是公司角度的）。

于是E(x) = (-990*5%)+(-490*10%)+(-90*20%)+(10*65%) = -110。也就是說，A方案能夠期望每次抽獎運營方虧損110元。計算一下B方案，則是虧損150元。如果從用戶的角度看，每一次抽獎的期望則反過來，即一等獎能受益990元，二等獎能受益490元…A方案玩一次平均收益110元。

想必大家已經知道了如何設計活動的盈虧機制，感興趣可以自行調節中獎概率和成本。

期望值衡量概率的平均值，可是抽獎本來就是很激動人心的事情，哪怕明知道會賠錢，人們還樂此不疲，為什么？因為風險，因為以小搏大。

方差就是這種風險的度量，即隨機變量的變異性。它和描述統計學的方差是一個含義。

方差越大，隨機變量的結果越不穩定，計算A方案的方差如下：

方差最后為62600，說明期望的波動很大。標準差為sqrt(62600) = 250.19，代表每一次的抽獎，與期望收益-110的距離是250.19元。

到這里，概率和期望方差的基本玩法已經講完了。

二項概率分布

二項分布是一種離散型的概率分布。故明思義，二項代表它有兩種可能的結果，把一種稱為成功，另外一種稱為失敗。

除了結果的規定，它還需要滿足其他性質：每次試驗成功的概率均是相同的，記錄為p；失敗的概率也相同，為1-p。每次試驗必須相互獨立，該試驗也叫做伯努利試驗，重復n次即二項概率。

擲硬幣就是一個典型的二項分布。當我們要計算拋硬幣n次，恰巧有x次正面朝上的概率，可以使用二項分布的公式：

假設拋硬幣5次，恰巧有3次正面朝上，則其概率為31.25%?？梢允褂肊xcel中的BINOM.DIST函數計算。

不妨把題目變化一下，變成計算硬幣至少有三次正面朝上的概率是多少？有一種簡單的方法是累加，將恰巧有3次，恰巧有4次，恰巧有5次的概率相加，結果便是至少3次，為50%。

回到運營活動的例子，上面一個運營活動公司虧慘了，現在運營需要重新做一個抽獎活動，每位用戶擁有10次抽獎機會，中獎概率是5%。老板準備先考慮成本問題，想知道至少有3次以上中獎機會的概率是多少？

按照上題的思路，可以拿恰巧3次，恰巧4次直到恰巧10次累加求和，但是這樣太麻煩了。此時可以換一個思路，先計算最多2次的概率是多少。那么便是f(0)+f(1)+f(2)，結果是92.98%，利用概率公式1-92.98%，就是至少3次的概率了，為7.02%?？磥砝习暹€是能松口氣的。

二項概率的數學期望為E(x) = np，方差Var(x) = np(1-p)。抽獎10次，那么抽獎的期望值就是1，方差為0.9。

運營學會二項分布，在涉及概率的各種活動中，將變得游刃有余。它的原理甚至能用到AB測試。大學考試中二項概率需要查專門的概率表計算，不過現在各類工具層出不窮，Python、R、Excel都能直接計算。

泊松概率分布

泊松概率是另外一個常用的離散型隨機變量，它主要用于估計某事件在特定時間或空間中發生的次數。比如一天內中獎的個數，一個月內某機器損壞的次數等。

泊松概率的成立條件是在任意兩個長度相等的區間中，時間發生的概率是相同的，并且事件是否發生都是相互獨立的。

泊松概率既然表示事件在一個區間發生的次數，這里的次數就不會有上限，x取值可以無限大，只是可能性無限接近0，f(x)的最終值很小。

x代表發生x次，u代表發生次數的數學期望，概率函數為：

現在又舉辦了一個新的運營活動，這次的中獎概率未知，只知24小時內中獎的平均個數為5個，老板異想天開地想知道24小時內恰巧中獎次數為7的概率是多少？

此時x=7，u=5（區間內發生的平均次數就是期望），代入公式求出概率為10.44%。Excel中的函數為POISSON.DIST。

接下來繼續加大問題難度，求中獎次數至少7次的概率。此時f(0)+f(1)+f(2)+f(3)+f(4)+f(5)+f(6)=86.66%，那么至少七次的概率為13.33%。

如果問題變成12小時內呢？老板希望知道12小時內中獎次數為3次的概率是多少？

24小時內中獎概率的期望數是5，那么12小時內的中獎概率期望數是2.5，于是令u=2.5，求出12小時內中獎次數為3的概率是79.99%。

泊松概率還有一個重要性質，它的數學期望和方差相等，所以上題的方差為2.5，標準差為根號2.5，即1.58。

正態分布

上述分布都是離散概率分布，當隨機變量是連續型時，情況就完全不一樣了。因為離散概率的本質是求x取某個特定值的概率，而連續隨機變量不行，它的取值是可以無限分割的，它取某個值時概率近似于0。連續變量是隨機變量在某個區間內取值的概率，此時的概率函數叫做概率密度函數。

正態概率分布是連續型隨機變量中最重要的分布。世界上絕大部分的分布都屬于正態分布，人的身高體重、考試成績、降雨量等都近似服從。

正態分布如同一條鐘形曲線。中間高，兩邊低，左右對稱。想象身高體重、考試成績，是否都呈現這一類分布態勢：大部分數據集中在某處，小部分往兩端傾斜。

正態概率密度函數為：

是不是看得頭暈了？u代表均值，σ代表標準差，兩者不同的取值將會造成不同形狀的正態分布。均值表示正態分布的左右偏移，標準差決定曲線的寬度和平坦，標準差越大曲線越平坦。

以前介紹過一個正態分布的經驗法則：

正態隨機變量有69.3%的值在均值加減一個標準差的范圍內，95.4%的值在兩個標準差內，99.7%的值在三個標準差內。這條經驗法則可以幫助我們快速計算數據的大體分布。

均值u=0，標準差σ=1的正態分布叫做標準正態分布。它的隨機變量用z表示，它是推斷統計的基礎。將均值和標準差代入正態概率密度函數，得到一個簡化的公式：

現在可以用簡化的公式計算概率密度了。首先學習一個新的函數叫累計分布函數，它是概率密度函數的積分。用P(X<=x)表示隨機變量小于或者等于某個數值的概率，F(x) = P(X<=x)。

曲線就是概率密度函數，當x取某個值時，曲線上f(x)點的數值即表示隨機變量在對應的x點值的取值概率，曲線與X軸相交的陰影面積就是累計分布函數。我們不妨把概率密度函數按其名字簡單理解成「密度」，畢竟連續變量只有在區間中才有計算的意義，于是密度函數充當了輔助計算的角色。分析中我們更多實用累計分布函數。

標準正態分布中，給定一個值z，可以計算隨機變量z小于等于某一個值的概率；z在兩個值之間的概率；以及z大于等于一個值的概率。這三種計算都用到累計分布函數，分別記作P(z<=x)，P(x1<=z<=x2)，P(z>=x)。

首先計算z小于等于1的概率，即P(z<=1)。由excel 的函數NORM.DIST(1,0,1,TRUE)求得值為0.8413。于是P(z<=1)=0.8413。同理，P(z>1) = 1-P(z<=1) = 0.1586。

若要計算z在區間-1～1.25的概率，即P(-1<=z<=1.25)?？梢詫⑵洳鸾鉃楣剑篜(-1<=z<=1.25) = P(z<=1.25) – P(z<=-1) = 0.735。

如果大家在公式轉換中有困惑，不妨結合上面的陰影圖看?？孔蟮年幱凹磟小于等于0.8時(目測)的概率，如果我們要算0～0.8之間的概率呢？就是把z<=0的那一半給挖掉，非常粗暴的算法。

到了這里大家可能發覺，在正態分布的計算中，不論求哪一類區間，我們都是先轉換成z小于等于某個值先計算。這是一個潛移默化的規則，因為早期正態概率的計算都要用到標準正態概率表，它以z小于等于作查詢標準。現在雖然計算資源已經大大豐富，但是這個習慣還是保留了下來。

之所以強調標準正態分布，是因為所有的正態分布概率都可以利用標準正態分布計算。當我們具有一個任意均值的u和標準差σ，都能將其轉換成標準狀態分布。

現在有一個u=10和σ=2的正態隨機變量，求x在10與14之間的概率是多少？

當x=10時，z=(10-10)/2=2。當x=14時，z=(14-10)/2=2。于是x在10和14之間的概率等價于標準正態分布中0和2之間的概率。計算P(0<=z<=2) =P(z<=2) – P(z<=0) =0.4772。

現在是最后一個運營活動了，不再是抽獎，而是最終贈送獎品的環節。已知獎品的保質期滿足正態分布，均值90天，標準差5天。為了考慮用戶體驗，想知道獎品70天以內就壞的概率是多少？

當x=70時，有z=(70-90)/5 = -4。p(z<=-4)=0.003%。概率非常小，可以忽略不計，所以產品質量杠杠的。經歷了那么多活動，老板終于可以松一口氣了。

在概率分布中還有一個概念叫正態近似。當試驗次數很大時，二項分布可以近似于正態分布，泊松分布也有相似的情況，大家有興趣可以去了解，這是一種簡便方法，不過工作中現在都是計算機了，這點反而不重要了。

了解完各類分布后，我們將進入最后的環節，假設檢驗，它是基于概率的理論，數據分析中的AB測試，就是其最常見的應用。

#專欄作家#

秦路，微信公眾號ID：tracykanc，人人都是產品經理專欄作家。

本文由 @秦路?原創發布于人人都是產品經理。未經許可，禁止轉載。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

秦路

小角色，公眾號:tracykanc

47篇作品 2489154總閱讀量

為什么消費者對“辦卡”不感冒了？

04-193028 瀏覽

專訪蘋果高級副總裁Craig和副總裁Alan：iPhone誕生16年，交互設計走向何方？

10-213867 瀏覽

將人工智能應用到軟件開發中？那你需要了解這些

10-252485 瀏覽

用戶體驗設計：為神經多樣性而設計

11-172654 瀏覽

現場參加了OpenAI的大會，我感覺屬于上個時代的開發者被干掉了

11-091893 瀏覽

評論

MrTeng

最多兩次中獎的概率應該是63.2%吧

最近來自江蘇回復
大白鯨

泊松分布那一段，“24小時內中獎概率的期望數是5，那么12小時內的中獎概率期望數是2.5，于是令u=2.5，求出12小時內中獎次數為3的概率是79.99%?！睂戝e了。小于等于3次的概率是78.62%，大于等于3次是21.37%。謝謝。

最近來自江蘇回復
低調叔叔

那個抽獎時10元每次吧，文中寫了5元。

最近來自廣東回復
猴哥

以前都是小學初中學的內容，現在尼瑪居然看不懂了，我還是我么

最近來自廣東回復