100種分析思維模型之:泊松分布
本文作者介紹了分析思維模型:泊松分布。泊松分布是概率分布模型的一種,可以幫助我們選擇符合實際情況的概率分布去更好的預測未來。讓我們來學習一下吧~
你好,我是林驥。
在前面的 100 種分析思維模型系列文章中,曾經(jīng)介紹過正態(tài)分布、冪律分布,下面再介紹另外一種應用廣泛的概率分布模型:泊松分布。
一、為什么學習泊松分布?
概率分布就像一個工具箱,泊松分布就是工具箱里的一種工具。當我們研究一個現(xiàn)象的時候,不妨運用假設思維,先大膽假設服從某種概率分布,然后再小心求證這個假設,以便從工具箱中找適合的工具。
你只有選擇符合實際情況的概率分布,才能更好地預測未來,否則就有可能會出錯。這就好比你在釘釘子的時候,選擇的工具最好是錘子,而不是菜刀,否則就容易傷到手。
學習泊松分布的原理和運用方法,可以幫助我們從整體上把握隨機事件發(fā)生的規(guī)律,完善我們對隨機性的認識,以便做出更加準確的預測和決策,特別是提高風險防范的意識,更好地解決一些現(xiàn)實世界的問題。
比如,在購買保險的時候,很多人覺得小公司服務好,而且承諾同樣的賠償,于是選擇小的保險公司,但事實上,萬一遇到需要大額索賠的時候,有些小的保險公司是賠不出來的,其實就沒能真正起到保險的作用。
在管理水平和效率差不多的情況下,保險公司的規(guī)模越大,風險往往就越小。因此,運用概率思維,我們應該優(yōu)先考慮選擇大的保險公司進行投保,避免花冤枉錢。
二、什么是泊松分布?
泊松分布最初是由法國數(shù)學家西莫恩·德尼·泊松(Siméon-Denis Poisson)在 1838 年提出來的,用于描述小概率事件的分布規(guī)律,比如機器故障、自然災害等,事件的發(fā)生是相互獨立的,且概率在時間或空間上是均勻分布的。
假設隨機事件發(fā)生的概率是 p,進行 n 次獨立的試驗,發(fā)生 k 次的概率為:
這個公式看起來比較復雜,但是相當優(yōu)美,而且用計算機算起來還是比較簡單的。
其中 e 是自然常數(shù),約等于 2.718。k 為事件發(fā)生的次數(shù),等于 0, 1, 2 ……
其中 λ 是單位時間內(nèi)平均發(fā)生的次數(shù),當 n 很大而 p 很小時,泊松分布可作為二項分布的近似,λ = n*p。
其中 ! 是數(shù)學中的階乘符號,定義 0! = 1,n! = n*(n-1)!,以此類推。比如,3! = 3*2*1 = 6。
假設一臺機器平均每小時出故障的概率是 0.03%,如果想知道接下來 10000 小時發(fā)生故障的概率,那 λ 就等于 10000*0.03% = 3 次。
當 k = 0 時,P(X = 0) 就代表接下來 10000 小時不發(fā)生故障的概率,運用上面的計算公式,計算結果約等于 5%。也就是說,這臺機器在 10000 小時內(nèi)至少發(fā)生 1 次故障的概率高達 95%。
有些機器一旦發(fā)生故障,可能事關重大,甚至涉及生命安全。比如,在高速上行駛的汽車,剎車系統(tǒng)一旦失靈,就有可能造成嚴重的交通事故。
不怕一萬,就怕萬一。所以,對于一些非常重要的機器,務必要定期進行檢查,提前預防意外事件的發(fā)生。
三、怎么運用泊松分布?
為了簡化計算的過程,我們可以借助 GPT 來計算泊松分布的概率,給 ChatGPT 發(fā)送以下指令:
對于泊松分布,假設隨機事件發(fā)生的概率是 0.03%,進行 10000 次獨立的試驗,至少發(fā)生 1 次的概率是多少?
考慮到 GPT 不擅長數(shù)學計算,所以我接著讓它寫一段 Python 代碼來實現(xiàn)快速計算,并檢驗上面回答的正確性。
運用上面的 Python 代碼,得到的結果確實是 0.9502,即 95.02%,驗證了 ChatGPT 回答的正確性。
有了 Python 代碼之后,我們還可以舉一反三,修改事件發(fā)生的概率和獨立試驗的次數(shù),這樣就能快速計算不同條件下的概率分布。
為了更加清晰地展現(xiàn)泊松分布的變化,我們繼續(xù)讓 GPT 用 Python 繪制概率分布的曲線,稍加修改之后的代碼如下:
import numpy as np
import matplotlib.pyplot as plt
from scipy.special import factorial# 設置中文顯示字體
plt.rcParams[‘font.sans-serif’] = [‘SimHei’]# 定義泊松分布的概率質(zhì)量函數(shù)
def poisson_pmf(k, lamb):
return (lamb**k * np.exp(-lamb)) / factorial(k)# 定義參數(shù)
p = 0.0003 # 事件發(fā)生的概率
n = 10000 # 獨立試驗的次數(shù)
lamb = n * p# 生成 x 坐標軸的取值范圍
x = np.arange(0, 11)# 計算對應的泊松分布的概率質(zhì)量函數(shù)值
pmf = poisson_pmf(x, lamb)# 放大圖表
plt.figure(figsize=(12, 6))# 繪制概率分布曲線
plt.plot(x, pmf)
plt.xlabel(‘次數(shù)’, fontdict={‘fontsize’: 16})
plt.ylabel(‘概率’, fontdict={‘fontsize’: 16})
plt.title(“進行 %d 次獨立試驗的概率分布” % n, fontdict={‘fontsize’: 20})
plt.grid(True)# 調(diào)整刻度數(shù)字的字體大小
plt.xticks(fontsize=15)
plt.yticks(fontsize=15)plt.show()
修改其中的 n 值,運行得到不同的概率分布曲線,從圖中可以看出,隨著試驗次數(shù)的增加,泊松分布曲線越來越接近于正態(tài)分布曲線。
泊松分布特別適用于預測事件發(fā)生的概率。比如,通過對歷史數(shù)據(jù)進行分析,我們可以預測某個時間段內(nèi)到達某個地點的乘客數(shù)量,也可以檢驗某個機器的故障率是否符合預期,還可以估計某個地區(qū)在特定時間內(nèi)發(fā)生車輛事故的概率,從而為保險費率的制定提供依據(jù)。
四、最后的話
在泊松分布出現(xiàn)之前,概率論與數(shù)理統(tǒng)計其實是兩個互不相關的學科。概率論主要研究未發(fā)生的隨機事件,也就是根據(jù)已知的模型和參數(shù),預測未來的數(shù)據(jù);而數(shù)理統(tǒng)計則主要是用來描述已經(jīng)發(fā)生的現(xiàn)實。
自從泊松分布出現(xiàn)之后,概率論與數(shù)理統(tǒng)計產(chǎn)生了緊密的聯(lián)系,這讓統(tǒng)計學變得更加強大,我們可以根據(jù)已知的數(shù)據(jù),去推測未知的世界,還原世界本來的樣子,而且可以被驗證。
很多人判定一件事發(fā)生的概率總是存在很大的誤差,導致決策失誤,損失慘重,其中一個重要的原因就是靠直覺,而不是靠嚴密的數(shù)學邏輯和推導。
通過學習和運用泊松分布,我們可以改變看待世界的方式,改變自己做決策的方式,甚至改變自己的心性,用更加理性的思維去解決問題。
比如,由于世界的不確定性和隨機事件的存在,我們在準備資源時,只達到平均值是遠遠不夠的,還需要準備一些冗余量。如果一個人忙得沒有時間進行思考和休息,就難以擺脫「窮忙」的狀態(tài)。
在《稀缺》這本書中,作者指出,當一個人處于稀缺的狀態(tài)時,會產(chǎn)生很多危害,包括:認知能力下降、只關注眼前緊急的事、忽視真正重要的事、透支未來的資源、做出錯誤的決策、陷入惡性的循環(huán)等。
記?。悍彩露家浀媒o自己留有余地,因為生活中難免會發(fā)生一些意外的隨機事件。只有預留一定的機動時間,才能避免打亂正常的生活節(jié)奏,讓自己的生活多一份從容。就好比在開車的時候,與前車保持一定的距離,這樣才能更加安全地到達目的地。
總之,泊松分布是一種重要的概率分布模型,具有廣泛的應用領域。通過學習和運用泊松分布,我們可以更好地理解和分析隨機事件發(fā)生的規(guī)律,并用來預測未來發(fā)生的概率,進而幫助我們更好地用數(shù)據(jù)化解難題,讓分析更加有效。
公眾號:林驥,《數(shù)據(jù)化分析》作者
本文由 @林驥 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!