聚類算法簡析(一):樸素貝葉斯算法的場景案例
本文作者通過一些場景案例,帶領大家了解一下樸素貝葉斯算法作為聚類算法中的一員,如何來區分各類數組。
通過一組參數模型來區分互斥群組中的個體十分常見,我們可以使用樸素貝葉斯分析來應用于這種場景,取決于模型的相似矩陣算法常常運用在估算決策論框架的矩陣中。
一些已經存在的聚類分析技巧是從一些特定的有限制的場景中提取出來的,這些結論很好地應用于區分兩類不同數組之間的比較關系。
本文我們通過一些場景案例,來了解一下樸素貝葉斯算法作為聚類算法中的一員,如何來區分各類數組。
簡介
最近幾年,各種各樣的分類算法在統計學著作中被提出。
回溯近代理論中涉及的各類著作,1971年科馬克、1973年安德伯、1974年埃弗里特、1975年哈迪更均有涉獵。然后,大部分的算法均有限制,因為這些算法只能在某些特定場景中才能應用。
烏爾夫(1970)提出假設,觀察到密度函數中具有一個有限的參數矩陣。然而,一旦參數矩陣中的組件數量不確定,則會出現問題。
沃爾夫認為這個矩陣很有可能存在一種概率,這種假說即為:當一個組件和另外兩個組件矩陣出現互斥時會產生分離。
由此我們可以將聚類分析重新構建一種模型,觀察對象的參數形成互斥群組,并且在樸素貝葉斯的場景中,我們是允許存在未定義組件的。
常用理論模型
定義X1……Xn為p維空間觀察物。
我們定義“真群組”向量,定義為:g=(g1……gn),gk=i表示系數k由系數i的群組產生。
這樣就會出現m種可能群組,并且m可能是未知數,主要的問題就是定義特殊值g。
如已知m,g和一個參數向量θ,我們假定X組是獨立于密度函數Xk,設為hg(xk|θ),這里的x和θ是已知函數。這個模型在1971年由斯科特和西蒙斯提出。
我們采用先驗密度的模型來定義未知數量:
PM,G,θ(m,g,θ)=pM(m)pG|M(g|m)pθ|G.M(θ|g,m)
模型兩選一的特性,讓我們來引入一個參數向量λ
0<λ1……λm<1,Σλi=1。在某些應用中,針對這些參數我們需要估算g,于是演變為方程:
通過這類分析模型的演變,算法的遞推,我們采用概率論結合分布矩陣來區分數據聚類的不同分布中心。
技術應用
貝葉斯算法主要運用于兩個經典案例:由英國統計學家/生物學家Ronald Fisher在1936年所收集鳶尾花案例,以及鄧肯1955年提出的大麥數據。
Iris數據集是常用的分類實驗數據集,由Fisher,1936收集整理。Iris也稱鳶尾花卉數據集,是一類多重變量分析的數據集。
數據集包含150個數據樣本,分為3類,每類50個數據,每個數據包含4個屬性??赏ㄟ^花萼長度,花萼寬度,花瓣長度,花瓣寬度4個屬性預測鳶尾花卉屬于(Setosa,Versicolour,Virginica)三個種類中的哪一類。
數據集主要包括如下三個種類鳶尾花的數據,每種50條數據:
每條數據都從鳶尾花的如下四個特征進行描述:
我們使用nij矩陣來作為實例,最小值min|W|。
當協方差不同,協方差矩陣的斜率就不同,這樣每個相似的節點就會形成一個聚類。
我們采用貝葉斯聚類方法進行繪圖:
混淆矩陣
散點圖
通過圖譜我們可以看出,利用樸素貝葉斯算法,可以將同類中的互斥數據分解出來,形成一種聚類,這些算法可以廣泛運用在生活中。例如,垃圾郵件問題中,做貝葉斯公式計算過濾方法識別出類似特性郵件并歸集。
所以,了解貝葉斯算法的概念和使用貝葉斯算法正在計算機領域逐步推廣成為一種應用領域。
本文由 @手心的太陽 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自 Unsplash,基于CC0協議
這是算法內容吧,不屬于產品工作范疇吧
做調研的時候提取關鍵變量的方法