如何七周成為數據分析師14:概率論的入門指南
本文是《如何七周成為數據分析師》的第十四篇教程,如果想要了解寫作初衷,可以先行閱讀七周指南。溫馨提示:如果您已經熟悉概率,大可不必再看這篇文章,或只挑選部分。
概率是度量一件事發生的可能性,它是介于0到1之間的數值。
我們拋一枚硬幣,它有正面朝上和反面朝上兩種結果,通常用樣本空間S表示,S={正面,反面}。
如果把硬幣拋兩次呢?它擁有四種結果,S={(正面,正面),(反面,反面),(正面,反面),(反面,正面)}。拋三次則是六種。
現實中的概率事件更復雜,比如六合彩,它會有多少種可能性?這時不能再像硬幣一樣心算了,要用到組合的知識。
組合和排列
組合是高中課本的內容,當需要從N個物體中選取n個物體,可以通過組合公式計算出可能的結果數量。
公式或許和大家印象中的有差異,因為中國國內的數學教材以蘇聯為主,N和n的上下位置與歐美教材是相反的。我這里以歐美規范為主。
從五個顏色各異的小球中隨機抽取兩個時,將數值帶入到公式,得出答案為10種。
排列是組合的特殊情況,當要考慮選取的順序時,相同的n個物體,因為不同的順序會有不同的結果,公式變為:
依舊是五種顏色的小球,這時需要考慮選取的小球顏色先后次序,代入求出答案變為20種。
在Excel的函數中,COMBIN和PERMUT函數分別對應組合和排列。
事件及概率
前面我們已經定義了樣本空間S,稱事件為樣本空間的一個子集,它是概率論的基礎。
硬幣正面朝上是一個事件,反面朝上也是一個事件。當硬幣扔兩次時,也可以定義一個事件叫至少有一次正面朝上,此時事件為{(正面,正面),(正面,反面),(反面,正面)}。
單純的事件沒有意義,要結合概率來思考。比如至少有一次正面朝上,它由(正面,正面),(正面,反面),(反面,正面)三個事件求和得出,概率為75%。
通常,如果能確定一個試驗的所有樣本點并且能夠知曉每個樣本點的概率,那么我們就能求出事件的概率。
雖然大量的樣本點會造成計算的繁瑣,但是通過一些基本公式和定理能快速計算。
事件A的補指所有不屬于事件A的樣本點組成的事件。概率中有一個可視化技巧叫文氏圖/維恩圖。
事件的補可以定義為P(A-),有P(A-)+P(A)=1。針對拋兩次硬幣至少有一次朝上的概率為75%,它的補集為一次朝上都沒有,其概率為1-75%=25%。
概率的公式
事件的組合有兩個概念:并和交。事件A和B的并,可以用SQL中的Full join理解,即包含了事件A和事件B的所有樣本點。記作A∪B。
兩個圓形區域所在的部分就是事件A和B的并,其中重疊的部分說明有一些樣本點即屬于A又屬于B,它可以稱之為交,可以用SQL中的Inner Join理解。記作A∩B。
通過交和并,引申出概率中的加法公式:
P(A∪B) = P(A)+P(B) – P(A∩B)。P(A∪B) 是兩個圓形面積,P(A)是藍色圓面積,P(B)是橙色圓面積,當兩者相加時,會多出一塊重疊區域,于是減去P(A∩B)進行修正,得出正確的結果。
再來考慮事件中的一種特殊情況,互斥事件。事件A和事件B中,當一個發生另外一個肯定不發生,則稱為互斥事件。此時,P(A∪B) = P(A)+P(B) 。
生活中很多概率處處相互關聯和影響。某個事件A發生的可能性受到另外一個事件B的影響,此時A發生的可能性叫做條件概率,記作P(A|B)。表明我們是在B條件已經發生的條件下考慮A發生的可能性,統計學中稱為給定條件B下事件A的概率。
對于任何條件概率,存在:
這個公式依舊可以用文氏圖解釋。橙色圓表示事件B已經發生,如果想要知道B已經發生的情況下事件A發生的概率,則只能考慮橙色圓和藍色元的交集部分即P(A∩B)。此時P(A∩B) 除以P(B)即給定條件B下事件A發生的概率。
當某一事件受另外事件的影響,我們稱其為條件概率。相反,某一事件完全不受另外事件的影響則為獨立事件。如果事件A和事件B相互獨立,則P(A|B)=P(A)。
互斥事件和獨立事件不是一回事,獨立事件是完全不相關的情況,而互斥是某一事件發生另外一個事件必然不發生,它們是相關的。
貝葉斯公式
條件概率既然是通過一個事件發生了來計算另外一件事發生的可能性,那么如何計算呢?不妨先看一個經典案例。
如果某種疾病的發病率為千分之一。現在有一種試紙,它在患者得病的情況下,有99%的準確率判斷患者得病,在患者沒有得病的情況下,有5%的可能誤判患者得病?,F在試紙說一個患者得了病,那么患者真的得病的概率是多少?
在下意識的判斷中,我們可能認為是50%左右的數據,或者更高。然而實際并不是。
將求解策略轉換為樹形圖的方式。按照患病率為千分之一,將人群劃分成健康人群和患者,分別是99900個和100個。然后再根據試紙對不同人群的概率求解。
最終健康人群中誤測出有病的是4995個,而真正患者中測出來是99個。所以當遇到一個患者被測出來有病,實際上真正得病的概率是99/(4995+99)=1.9%。
這個概率非常低,試紙絕大部分的判斷都是誤診,它產生的原因在于患病率千分之一這個前提條件。在統計學中把它稱為先驗概率,即事件發生的因,根據先驗概率的變化,得到所謂的后驗概率,即事件發生的果,貝葉斯定理就是其中的一種計算方法。數據推導過程大家有興趣可以自行查閱,都是基礎上文公式的簡單應用
P(A1)代表是真實患者的概率,P(A2)代表是健康人群的概率,P(B)代表試紙查出患者的概率。于是得出:
P(B|A1)為真實患者條件下試紙查出患者的概率,即99%。
P(B|A2)為健康人群條件下試紙誤判為患者的概率,即5%。
P(A1)為真實患病率千分之一,P(A2)為健康率千分之九九九。
P(A1|B)是在B發生的情況下A發生的可能性。應用在上文的例子中,就是試紙查出其為患者的情況下,他是真的患者的概率。將數字都代入公式計算。
和我們用樹形圖計算出的答案一樣。不妨思考一下,如果試紙獲得了改進,對真實患者的判斷準確率優化到99.9%,對健康人群的誤判率降低到0.1%。此時P(A1|B)為多少?其實還是不到50%,大家有興趣可以計算一下。
上文列舉的公式是兩事件模型,當先驗概率A是多個時,正式表達為:
貝葉斯在Excel中并沒有簡化的函數,需要手動處理,新手可能對概念還是有些模糊,多做幾次練習就好了??梢越柚鷺湫螆D輔助判斷。
再來做一道練習題:中國五百位富豪,其中,讀過大學的只有30%,是否能說明讀書無用論?
并不能,因為它涉及了一個先驗概率即所有中國人中讀大學的比例,更準確地說,是富豪們讀大學年代的讀大學比例。不妨大家自己查閱資料作出解答。
上文談及的都是理論,數據的應用場景呢?比如拼寫檢查,我輸入了一個字典中沒有的英文單詞:thi,這時候機器就要猜測是the,還是this?這個問題就轉換成概率中的P(機器猜測的單詞 | thi ),當單詞為thi時,機器所猜測的單詞準確率是多少?
應用貝葉斯公式轉換:P( this | thi ) = P( this )P( thi | this ),以及P( the | thi ) = P( the )P( thi | the )。因為分母是樣本空間常數所以可以略去,P( this )代表的是this這個單詞在全體文本中出現的概率,P( thi | this )代表的是this這個單詞打錯為thi的概率,結果為這兩個概率的乘積,以此類推。
P輸出的都是概率,假設計算后the的概率為80%,this的概率為75%,此時輸入法糾正就把the排在第一,this排在第二。
貝葉斯定理在數據分析中是一種常用的手段,除了對日常生活中違背經驗主義的各種數據陷阱,它也能廣泛應用在機器學習諸如郵件識別、文本分詞、拼寫檢查等場景中。
上半部分的內容比較簡單,下半部分跨越大了些,而它又是不少機器學習的基礎,大家配合其他資料加深學習。下一章講解概率中的離散和連續隨機變量。
相關閱讀
如何七周成為數據分析師01:常見的Excel函數全部涵蓋在這里了
如何七周成為數據分析師:Excel技巧之甘特圖繪制(項目管理)
#專欄作家#
秦路,微信公眾號ID:tracykanc,人人都是產品經理專欄作家。
本文由 @秦路?原創發布于人人都是產品經理。未經許可,禁止轉載。
硬幣拋三次是八種吧
正解
貝葉斯看著賊親切,都是之前大學里面學的
互斥事件里邊事件A和事件B是沒有相交的部分的 ??
大學數理統計學過啊,看著好親切