精品日产一卡2卡三卡网站,日韩人妻无码精品—专区,中文人妻无码一区二区三区在线

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

七大機(jī)器學(xué)習(xí)常用算法精講：K近鄰算法（一）

火粒產(chǎn)品

2024-02-15

0 評(píng)論 3270 瀏覽 5 收藏

12 分鐘

本文將深入剖析K近鄰算法的核心原理、實(shí)現(xiàn)步驟，并結(jié)合實(shí)際應(yīng)用場(chǎng)景進(jìn)行探討，以此揭示其在現(xiàn)代機(jī)器學(xué)習(xí)中的魅力所在。

在機(jī)器學(xué)習(xí)的廣闊天地中，有一種簡(jiǎn)單卻實(shí)用的經(jīng)典算法——K近鄰（K-Nearest Neighbors, KNN）算法。

它以直觀易懂、無(wú)需假設(shè)數(shù)據(jù)分布以及對(duì)異常值敏感等特性，在分類和回歸問(wèn)題中發(fā)揮著重要作用。

一、K近鄰算法基礎(chǔ)概念

K近鄰（K-Nearest Neighbor, KNN）算法是一種基于實(shí)例的學(xué)習(xí)，或者稱為惰性學(xué)習(xí)方法，在機(jī)器學(xué)習(xí)中用于分類和回歸分析。

其基本概念也是相當(dāng)?shù)闹庇^：

原理

分類問(wèn)題

給定一個(gè)新樣本點(diǎn)，KNN算法通常是通過(guò)找出訓(xùn)練集中與其最近的k個(gè)鄰居（根據(jù)某種距離度量），然后基于這k個(gè)鄰居中最常見(jiàn)的類別來(lái)預(yù)測(cè)新樣本的類別。

回歸問(wèn)題

如果是回歸任務(wù)，則是通過(guò)計(jì)算k個(gè)鄰居的平均值或其他統(tǒng)計(jì)量（如中位數(shù)）來(lái)預(yù)測(cè)連續(xù)數(shù)值。

步驟

1）距離度量

選擇一個(gè)合適的距離度量函數(shù)（如歐氏距離、曼哈頓距離、馬氏距離等），用于計(jì)算測(cè)試樣本與每個(gè)訓(xùn)練樣本之間的差異程度。

2）確定k值

k是算法中的一個(gè)重要參數(shù)，表示需要考慮的最近鄰居的數(shù)量。k值的選擇對(duì)模型性能有直接影響，較小的k可能導(dǎo)致模型對(duì)噪聲敏感，較大的k則可能使模型過(guò)于保守，傾向于平均結(jié)果。

3）搜索k近鄰

對(duì)于新的測(cè)試樣本，遍歷整個(gè)訓(xùn)練數(shù)據(jù)集，計(jì)算它與每個(gè)訓(xùn)練樣本的距離，并按升序排列，選取距離最近的k個(gè)樣本作為鄰居。

4）決策規(guī)則

分類任務(wù)：采用多數(shù)表決法，統(tǒng)計(jì)k個(gè)鄰居中出現(xiàn)最多的類別，將該類別作為新樣本的預(yù)測(cè)類別。

回歸任務(wù)：計(jì)算k個(gè)鄰居的目標(biāo)變量（連續(xù)數(shù)值）的平均值，將其作為新樣本的預(yù)測(cè)值。

5）邊界情況

在分類任務(wù)中，如果多個(gè)類別的數(shù)量相等，則可以設(shè)置額外的規(guī)則來(lái)打破平局（例如使用加權(quán)距離、考慮距離遠(yuǎn)近等）。

優(yōu)缺點(diǎn)

優(yōu)點(diǎn)：

算法簡(jiǎn)單易理解，實(shí)現(xiàn)起來(lái)相對(duì)直接。
不需要假設(shè)數(shù)據(jù)分布，適用于非線性數(shù)據(jù)集。
對(duì)異常值不敏感，可以處理多分類任務(wù)。

缺點(diǎn)：

計(jì)算復(fù)雜度高，尤其是隨著樣本數(shù)量增加時(shí)，每次預(yù)測(cè)都需要計(jì)算新樣本與所有訓(xùn)練樣本的距離。
空間復(fù)雜度也較高，因?yàn)樾枰鎯?chǔ)所有訓(xùn)練數(shù)據(jù)。
對(duì)于大規(guī)模數(shù)據(jù)集和高維數(shù)據(jù)，效果可能會(huì)下降，因?yàn)椤熬S度災(zāi)難”問(wèn)題可能導(dǎo)致距離度量失去意義。
可解釋性差，無(wú)法提供決策規(guī)則或變量重要性信息。

適用場(chǎng)景

KNN適用于中小規(guī)模、低至中等維度的數(shù)據(jù)集，在特征空間相對(duì)簡(jiǎn)單或者沒(méi)有明顯規(guī)律的情形下效果較好。對(duì)于大規(guī)模數(shù)據(jù)集，一般會(huì)結(jié)合其他技術(shù)（如降維、索引優(yōu)化等）來(lái)提高效率。此外，由于其直觀性和易于理解性，KNN常被用作教學(xué)和快速原型設(shè)計(jì)的工具。

二、K近鄰算法應(yīng)用關(guān)鍵要素

K近鄰（K-Nearest Neighbor, KNN）算法的關(guān)鍵要素包括以下幾個(gè)方面：

距離度量：

在KNN中，選擇一個(gè)有效的距離度量方法是至關(guān)重要的。常用的距離度量有歐氏距離、曼哈頓距離、切比雪夫距離等。

歐氏距離是最常見(jiàn)的選擇，計(jì)算公式為：

其中，X1i是點(diǎn)A的第i個(gè)坐標(biāo)，X2i是點(diǎn)B的第i個(gè)坐標(biāo)。

簡(jiǎn)而言之，歐式距離就是將各維度上的坐標(biāo)差值平方后求和，然后取平方根。它是許多機(jī)器學(xué)習(xí)算法和數(shù)據(jù)分析中常用的距離度量方式。

k值的選擇：

k值代表了在進(jìn)行預(yù)測(cè)時(shí)考慮的最近鄰居的數(shù)量。k值的選擇對(duì)模型性能有很大影響：

較小的k值可能會(huì)導(dǎo)致模型過(guò)于敏感于局部樣本，容易過(guò)擬合；
較大的k值則可能平滑掉數(shù)據(jù)中的細(xì)節(jié)，使模型偏向全局趨勢(shì)，從而可能導(dǎo)致欠擬合。

理想的k值應(yīng)當(dāng)通過(guò)交叉驗(yàn)證等方式確定，以達(dá)到最優(yōu)的泛化能力。

分類決策規(guī)則：

對(duì)于分類任務(wù)，通常采用多數(shù)表決法，即新樣本被歸類到其k個(gè)最近鄰中最頻繁出現(xiàn)的類別；
有時(shí)也會(huì)采用加權(quán)投票的方式，根據(jù)每個(gè)鄰居與新樣本之間的距離賦予不同的權(quán)重，距離越近的鄰居權(quán)重越高。

異常處理：

在實(shí)際應(yīng)用中，需要考慮如何處理異常值或噪聲數(shù)據(jù)，因?yàn)樗鼈兛赡軐?duì)k個(gè)最近鄰的結(jié)果產(chǎn)生較大影響。

數(shù)據(jù)預(yù)處理：

數(shù)據(jù)標(biāo)準(zhǔn)化或歸一化，確保不同特征具有可比性，這對(duì)于基于距離的算法尤為重要；
特征選擇或降維，減少無(wú)關(guān)或冗余特征，可以改善KNN的效果，并降低計(jì)算復(fù)雜度。

效率優(yōu)化：

針對(duì)大規(guī)模數(shù)據(jù)集，傳統(tǒng)的KNN算法搜索效率較低，因此引入KD樹(shù)、球樹(shù)、哈希表等數(shù)據(jù)結(jié)構(gòu)和算法來(lái)加速最近鄰搜索過(guò)程是非常關(guān)鍵的優(yōu)化手段。

KNN算法的成功應(yīng)用依賴于合適距離度量的選擇、合理k值的確立、有效的分類策略以及對(duì)數(shù)據(jù)質(zhì)量和計(jì)算效率的綜合考量。

三、K近鄰算法應(yīng)用場(chǎng)景舉例

K近鄰算法憑借其靈活性和直觀性，在多個(gè)領(lǐng)域展現(xiàn)出了強(qiáng)大的適用性和有效性：

推薦系統(tǒng)：在個(gè)性化推薦場(chǎng)景中，KNN被用于用戶偏好預(yù)測(cè)。例如，根據(jù)用戶的瀏覽歷史、購(gòu)買(mǎi)記錄等信息，計(jì)算新用戶與已有用戶之間的相似度，然后找出K個(gè)最相似的鄰居用戶。這些鄰居用戶喜歡的商品或內(nèi)容將被推薦給新用戶，從而實(shí)現(xiàn)個(gè)性化推薦。另外，KNN還可用于協(xié)同過(guò)濾技術(shù)中，通過(guò)分析用戶-物品矩陣，找出具有相似行為模式的用戶群體，以實(shí)現(xiàn)基于鄰域的推薦。
圖像識(shí)別：在計(jì)算機(jī)視覺(jué)任務(wù)中，KNN常應(yīng)用于手寫(xiě)數(shù)字識(shí)別、物體分類等問(wèn)題。首先，對(duì)圖像進(jìn)行預(yù)處理并提取特征（如像素直方圖、邊緣檢測(cè)特征、紋理特征等），然后利用KNN算法比較待識(shí)別圖像特征與訓(xùn)練集中各類別圖像特征的距離，最終確定圖像屬于哪一類別。這種方法尤其適用于小型數(shù)據(jù)集或簡(jiǎn)單識(shí)別任務(wù)，而在大規(guī)模圖像識(shí)別任務(wù)中，通常會(huì)結(jié)合深度學(xué)習(xí)等更復(fù)雜的方法。
醫(yī)學(xué)診斷與預(yù)測(cè)：在醫(yī)療健康領(lǐng)域，KNN可用于疾病診斷、病情嚴(yán)重程度評(píng)估及預(yù)后判斷等。比如，在腫瘤類型判斷上，通過(guò)對(duì)病理切片的細(xì)胞形態(tài)學(xué)特征、基因表達(dá)譜等多種生物標(biāo)志物進(jìn)行量化，采用KNN算法對(duì)比相似病例，來(lái)推測(cè)未知樣本所屬的腫瘤亞型或者預(yù)測(cè)其惡性程度。此外，對(duì)于病人的治療反應(yīng)預(yù)測(cè)，也可以通過(guò)比較病史、生理指標(biāo)等因素相近的病例，利用KNN得出最佳治療方案。
金融市場(chǎng)預(yù)測(cè)：在金融領(lǐng)域，KNN可以用來(lái)預(yù)測(cè)股票價(jià)格走勢(shì)、評(píng)估信用風(fēng)險(xiǎn)等。通過(guò)對(duì)歷史交易數(shù)據(jù)、財(cái)務(wù)報(bào)表、市場(chǎng)情緒等多個(gè)維度的數(shù)據(jù)進(jìn)行分析，利用KNN算法尋找與當(dāng)前市場(chǎng)狀況相似的歷史時(shí)期，并參考當(dāng)時(shí)市場(chǎng)的表現(xiàn)作為未來(lái)趨勢(shì)預(yù)測(cè)的依據(jù)。
社交網(wǎng)絡(luò)分析：在社交網(wǎng)絡(luò)研究中，KNN有助于發(fā)現(xiàn)用戶間的隱含關(guān)系，實(shí)現(xiàn)社區(qū)發(fā)現(xiàn)或用戶興趣定位。通過(guò)衡量用戶間的行為相似度（如共同關(guān)注的話題、互動(dòng)頻率等），KNN可為每個(gè)用戶找到社交網(wǎng)絡(luò)中的“近鄰”，進(jìn)而揭示用戶群體的興趣分布以及社交影響力。
物聯(lián)網(wǎng)(IoT)設(shè)備故障診斷：在工業(yè)物聯(lián)網(wǎng)場(chǎng)景下，KNN可用于設(shè)備狀態(tài)監(jiān)測(cè)和故障預(yù)警。通過(guò)收集設(shè)備運(yùn)行時(shí)的各項(xiàng)參數(shù)指標(biāo)，利用KNN對(duì)比類似設(shè)備的歷史故障案例，快速定位當(dāng)前設(shè)備可能出現(xiàn)的問(wèn)題。
電商網(wǎng)站商品推薦：除了上述提到的個(gè)性化推薦外，在電商平臺(tái)中，KNN還可用于關(guān)聯(lián)規(guī)則挖掘，根據(jù)用戶的購(gòu)物行為和其他用戶的行為模式，發(fā)現(xiàn)商品之間的關(guān)聯(lián)性，從而推薦相關(guān)聯(lián)的商品。

總之，K近鄰算法憑借其直觀易用、無(wú)需假設(shè)數(shù)據(jù)分布的特點(diǎn)，在眾多實(shí)際問(wèn)題中找到了廣泛應(yīng)用的可能性，無(wú)論是傳統(tǒng)的圖像識(shí)別、醫(yī)學(xué)診斷，還是新興的物聯(lián)網(wǎng)、大數(shù)據(jù)分析等領(lǐng)域，都能看到KNN的身影。盡管面臨挑戰(zhàn)，但隨著算法優(yōu)化和技術(shù)進(jìn)步，KNN的應(yīng)用前景將持續(xù)拓展。

本文由 @火粒產(chǎn)品原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載

題圖來(lái)自Unsplash，基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App