線性回歸算法:用“線性外推”的思路做預(yù)測
線性回歸可以理解為一個回歸算法,我們可以結(jié)合線性回歸算法來做預(yù)測值。這篇文章里,作者就總結(jié)了線性回歸算法的基本原理、應(yīng)用場景、優(yōu)劣勢等方面,一起來看看吧。
前兩篇文章我們介紹了兩個解決分類問題的算法:K近鄰和樸素貝葉斯,今天我們一起來學(xué)習(xí)回歸問題中最經(jīng)典的線性回歸(Linear Regression)算法。
一、基本原理
生活中,大家都排過隊,我印象最深的應(yīng)該是排隊做核酸的隊伍,前后間隔一米,隨著做核酸的人越來越多,新來的人看到隊伍,都會自動排到隊伍的末尾,同樣間隔一米,大家“齊心協(xié)力”排出了一條長線。
有了這條長線之后,我們就可以對新來的人排隊的位置做出預(yù)測,這就是線性回歸的基本邏輯。
所以線性回歸算法的思路就是:根據(jù)已有的數(shù)據(jù)去尋找一條“直線”,讓它盡可能的接近這些數(shù)據(jù),再根據(jù)這條直線去預(yù)測新數(shù)據(jù)的結(jié)果。
那么具體要怎么找這條“直線”呢?初中數(shù)學(xué)里描述一條直線時,用的是一元一次方程:y=ax+b,這里的a表示直線的斜率,b表示截距,如下圖所示:
以排隊為例,我們已知x是人的順序,y是排的位置,將已有的x和y數(shù)據(jù)代入到公式中,可以得到一組合適a和b的值來描述這條直線,也就是我們找到了這條直線的分布。
排隊的例子比較簡單,只有一個x變量,在實際的應(yīng)用中,會有很多個影響結(jié)果的變量,比如預(yù)測貸款額度時,會有工資、是否有房等變量,用線性回歸的思路解決類似的問題,就要構(gòu)建多元回歸方程了,公式也就變成了 y = a1x1 + a2x2 + … + b。
當有兩個變量時,線性回歸的分布也就不是一條簡單的直線了,而是一個平面,如下圖所示:
如果有更多的變量,分布就是一個超平面,找到它的分布也會變得更復(fù)雜。
二、如何計算最優(yōu)解
如果每個人的站位(實際值)距離理想站位(預(yù)測值)的距離(誤差)最小,那就說明我們得到的線性回歸分布是最優(yōu)解。
機器學(xué)習(xí)中,評價模型的預(yù)測值和實際值差異的公式叫做損失函數(shù),損失函數(shù)值越小,模型性能越好。
平方殘差和就是一種場景的損失函數(shù),其計算公式為 loss=SUM(真實值-預(yù)測值)2,就是把每個節(jié)點的預(yù)測差求平方再求和,前面回歸模型評估的文章里提到的MSE就是平方殘差和除以樣本數(shù)量。
三、應(yīng)用場景
線性回歸的應(yīng)用場景非常廣泛,只要數(shù)據(jù)是符合線性分布的,理論上都可以用線性回歸來進行預(yù)測:
- 預(yù)測房價:通過分析房屋特征(如面積、位置、房間數(shù)量等)與價格之間的關(guān)系。
- 預(yù)測員工績效:通過分析員工的教育背景、工作經(jīng)驗、培訓(xùn)等因素與績效之間的關(guān)系。
- 營銷分析:分析市場調(diào)研數(shù)據(jù),預(yù)測產(chǎn)品銷售量,并確定哪些因素對銷售量有顯著影響。
- 交通規(guī)劃:預(yù)測交通流量,通過分析道路特征、人口密度等因素與交通流量之間的關(guān)系。
- 環(huán)境科學(xué):分析環(huán)境數(shù)據(jù),如氣候變化、污染物排放等因素與生態(tài)系統(tǒng)的影響。
四、優(yōu)缺點
線性回歸算法的優(yōu)點:
- 簡單而直觀:易于理解和解釋,適用于初學(xué)者入門。
- 計算效率高:計算速度較快,適用于大規(guī)模數(shù)據(jù)集。
- 可解釋性強:可以提供每個特征對目標變量的影響程度,有助于理解變量之間的關(guān)系。
- 可擴展性強:可以通過添加交互項、多項式特征等進行擴展,以適應(yīng)更復(fù)雜的數(shù)據(jù)模式。
線性回歸算法的缺點:
- 僅適用于線性關(guān)系:線性回歸假設(shè)自變量與因變量之間存在線性關(guān)系,對于非線性關(guān)系的數(shù)據(jù)擬合效果較差。
- 對異常值敏感:線性回歸對異常值較為敏感,異常值的存在可能會對模型的擬合產(chǎn)生較大影響。
- 忽略了特征之間的復(fù)雜關(guān)系:線性回歸無法捕捉到特征之間的非線性、交互作用等復(fù)雜關(guān)系。
- 對多重共線性敏感:當自變量之間存在高度相關(guān)性時,線性回歸模型的穩(wěn)定性和可靠性可能會受到影響。
五、總結(jié)
本文我們介紹了線性回歸算法的原理、應(yīng)用場景和優(yōu)缺點,線性回歸是一個回歸算法,常用來做預(yù)測值,和之前介紹的分類模型的輸出是有區(qū)別的,需要注意一下。
下篇文章,我們來聊一聊邏輯回歸算法,敬請期待。
本文由 @AI小當家 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!