機(jī)器學(xué)習(xí)之邏輯回歸算法

0 評論 728 瀏覽 3 收藏 7 分鐘

邏輯回歸算法是機(jī)器學(xué)習(xí)中的一個二分類問題的方法,有著實(shí)現(xiàn)簡單、高效率和解釋性較強(qiáng)的有點(diǎn),在預(yù)測分析上有著比較廣泛的應(yīng)用。這篇文章,我們就來介紹下其算法原理。

一、什么叫邏輯回歸算法?

邏輯回歸是一種用于二分類問題的機(jī)器學(xué)習(xí)方法,它通過一個名為sigmoid的函數(shù)(平滑函數(shù))將線性回歸的輸出映射到0到1之間的概率值,從而進(jìn)行分類。

盡管名字中包含“回歸”,但實(shí)際上它是一種分類方法,主要用于二分類問題,同時也推廣到了解決多分類問題。

邏輯回歸模型的輸出是一個概率值,通常,我們會設(shè)定一個閾值,當(dāng)模型輸出的概率大于這個閾值時,我們將樣本判定為正類,否則判定為負(fù)類。

二、邏輯回歸算法的原理

邏輯回歸的原理就是將線性回歸的輸出結(jié)果通過平滑函數(shù)(Sigmoid函數(shù))轉(zhuǎn)換成0-1間的一個概率值。這個概率值為正分類的概率值。

平滑函數(shù)的示意圖如下:

上面提到邏輯回歸一定是在線性回歸的基礎(chǔ)上。線性回歸的Y值分布,正常情況下屬于二項(xiàng)分布,在出現(xiàn)樣本數(shù)據(jù)極其不規(guī)則時我們認(rèn)為Y值仍屬二項(xiàng)分布。(二項(xiàng)分布的概念可自行了解)

Y值屬于正態(tài)分布

Y值屬于二項(xiàng)分布

對于二項(xiàng)分布問題,如果某個事件發(fā)生的概率為 P ,那么該事件不發(fā)生的概率為 1?P,該事件的幾率定義為發(fā)生概率與不發(fā)生概率的比值。我們?nèi)茁实淖匀粚?shù)(值可為負(fù)無窮大與正無窮大)映射為線性分布的y值。

ln(P/(1-P))=y 可得出平滑函數(shù)公式

三、邏輯回歸算法的應(yīng)用步驟

1. 數(shù)據(jù)預(yù)處理

2. 確定線性回歸模型的參數(shù)及Y值

定義一個線性回歸模型,使用梯度下降法(GD)(或用最小二乘法)求得線性回歸方程參數(shù),然后計算出Y值。

3. 使用平滑函數(shù)計算出正類概率

4. 定義概率閾值

根據(jù)業(yè)務(wù)需求,設(shè)定一個概率閾值。

5. 預(yù)測結(jié)果

四、邏輯回歸算法的適用邊界和優(yōu)缺點(diǎn)

1. 適用邊界

邏輯回歸算法適用于二分類問題,即數(shù)據(jù)只有兩個類別。

對于多分類問題,我們可以使用多個邏輯回歸模型來解決。此外,邏輯回歸算法還要求數(shù)據(jù)滿足一定的假設(shè)條件,比如特征之間是線性可分的,數(shù)據(jù)服從伯努利分布等。

2. 優(yōu)點(diǎn)

  1. 簡單容易實(shí)現(xiàn)。
  2. 運(yùn)算效率比較高,適合處理大規(guī)模數(shù)據(jù)。
  3. 結(jié)果可解釋性比較強(qiáng)。邏輯回歸模型的結(jié)果可以轉(zhuǎn)化為概率值,方便我們進(jìn)行解釋和分析。

3. 缺點(diǎn)

  1. 線性可分性:邏輯回歸只能處理線性可分的問題,對于非線性可分的數(shù)據(jù),邏輯回歸的效果會很差。
  2. 處理多分類問題困難:邏輯回歸通常只能處理二分類問題,對于多分類問題,需要進(jìn)行一些額外的處理。
  3. 容易過擬合:如果樣本量不足或特征過于復(fù)雜,邏輯回歸容易過擬合。
  4. 對異常值敏感:邏輯回歸對異常值較為敏感,特別是在特征空間較小的情況下,異常值可能對模型的性能產(chǎn)生較大影響。、

五、應(yīng)用場景

線性回歸模型主要是用來預(yù)測分析,邏輯回歸模型是在線性回歸基礎(chǔ)上進(jìn)行的,因此它也主要是用來預(yù)測,不過邏輯回歸更多用來預(yù)測二分類而非具體的值。比如預(yù)測房價漲跌問題、預(yù)測用戶性別、預(yù)測用戶是否點(diǎn)擊商品(頁面)、預(yù)測用戶是否購買指定商品等。更多場景如下:

  1. 信用評估:預(yù)測個人或企業(yè)的信用風(fēng)險,幫助銀行和金融機(jī)構(gòu)進(jìn)行信貸決策。
  2. 疾病預(yù)測:根據(jù)患者的臨床特征和醫(yī)學(xué)檢測結(jié)果,預(yù)測患者是否患有某種疾病,如糖尿病、高血壓等。
  3. 市場預(yù)測:預(yù)測市場趨勢或產(chǎn)品銷售量,幫助企業(yè)制定營銷策略和業(yè)務(wù)決策。
  4. 欺詐檢測:識別信用卡欺詐、網(wǎng)絡(luò)詐騙等欺詐行為,幫助金融機(jī)構(gòu)和電商平臺提高安全性。
  5. 用戶行為分析:預(yù)測用戶的行為,如購買意愿、流失風(fēng)險等,以優(yōu)化個性化推薦和用戶體驗(yàn)。
  6. 市場調(diào)研:分析市場調(diào)研數(shù)據(jù),預(yù)測消費(fèi)者對產(chǎn)品或服務(wù)的偏好和購買意愿。
  7. 網(wǎng)絡(luò)點(diǎn)擊率預(yù)測:預(yù)測廣告或推廣內(nèi)容的點(diǎn)擊率,幫助廣告主優(yōu)化廣告投放策略。
  8. 人口統(tǒng)計學(xué)研究:分析人口統(tǒng)計數(shù)據(jù),預(yù)測人口群體的行為和趨勢,如選民投票行為、購買決策等。

作者:厚謙,公眾號:小王子與月季

本文由@厚謙 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!