久久久久精品国产亚洲av麻豆,综合自拍亚洲综合图区高清

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

現(xiàn)在入門(mén)“AI無(wú)監(jiān)督學(xué)習(xí)”還來(lái)得及（9000字干貨）

果釀

2024-02-23

0 評(píng)論 2966 瀏覽 40 收藏

36 分鐘

人工智能和機(jī)器學(xué)習(xí)之間存在著什么樣的關(guān)系，機(jī)器學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)又是指什么？本文將重點(diǎn)介紹無(wú)監(jiān)督學(xué)習(xí)，并分析與監(jiān)督學(xué)習(xí)的區(qū)別，一起來(lái)看看吧。

在人工智能領(lǐng)域，我們經(jīng)常會(huì)聽(tīng)到“無(wú)監(jiān)督學(xué)習(xí)”這個(gè)詞。但是，很多人對(duì)于無(wú)監(jiān)督學(xué)習(xí)的概念和原理并不太了解，甚至有些人可能會(huì)覺(jué)得這個(gè)概念有些高深莫測(cè)。

確實(shí)，看一些專業(yè)書(shū)籍是有些燒腦，我自己也是硬啃了一些內(nèi)容，又看了一些相關(guān)課程視頻之后，才有了比較清晰的了解，所以，寫(xiě)下本篇的我，希望以更容易理解的方式來(lái)介紹無(wú)監(jiān)督學(xué)習(xí)。

Now let’s start！

我先說(shuō)一下人工智能和機(jī)器學(xué)習(xí)之間的關(guān)系，再延伸到機(jī)器學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)。

人工智能（AI) 指的是使機(jī)器能夠執(zhí)行人類智能活動(dòng)的一類技術(shù)。這包括了解語(yǔ)言、感知環(huán)境、學(xué)習(xí)和解決問(wèn)題等任務(wù)。也就是說(shuō)，人工智能的目標(biāo)是使機(jī)器系統(tǒng)能夠模擬人類的智能行為，以執(zhí)行復(fù)雜的任務(wù)。

而機(jī)器學(xué)習(xí)（ML）是人工智能的一個(gè)特定分支，是一種通過(guò)從數(shù)據(jù)中學(xué)習(xí)并進(jìn)行自動(dòng)優(yōu)化的方法，而不是通過(guò)明確的編程規(guī)則來(lái)實(shí)現(xiàn)任務(wù)。其目標(biāo)是讓機(jī)器分析大量數(shù)據(jù)并識(shí)別數(shù)據(jù)中的模式，并生成具有相關(guān)正確概率或可信度的結(jié)果。

換句話說(shuō)，人工智能是一個(gè)更寬泛的概念，可讓機(jī)器或系統(tǒng)像人類一樣感知、推理、行動(dòng)等，而機(jī)器學(xué)習(xí)是人工智能的一個(gè)子集，可讓機(jī)器從數(shù)據(jù)中提取知識(shí)并自主學(xué)習(xí)，機(jī)器學(xué)習(xí)就像是實(shí)現(xiàn)人工智能目標(biāo)的一種手段。

機(jī)器學(xué)習(xí)有不同類型，主要分為監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)及強(qiáng)化學(xué)習(xí)。其中，無(wú)監(jiān)督學(xué)習(xí)（Unsupervised learning）就是機(jī)器學(xué)習(xí)中的一種核心學(xué)習(xí)方式，也是數(shù)據(jù)科學(xué)的一個(gè)重要分支。也是我們本篇要重點(diǎn)介紹的內(nèi)容。

全文9000字左右，預(yù)計(jì)閱讀時(shí)間15分鐘，若是碎片時(shí)間不夠，建議先收藏后看，便于找回。

照例，開(kāi)篇提供本篇文章的目錄大綱，方便大家在閱讀前總攬全局，對(duì)內(nèi)容框架有預(yù)先了解。

一、什么是無(wú)監(jiān)督學(xué)習(xí)？

無(wú)監(jiān)督學(xué)習(xí)很像人類的自學(xué)過(guò)程，我們?nèi)祟愔饕ㄟ^(guò)觀察、感知和互動(dòng)，從而形成對(duì)世界的認(rèn)知和理解，我們的學(xué)習(xí)方式有分類，歸納，推理等，我們從大量的信息中去找到規(guī)則、規(guī)律、結(jié)構(gòu)、關(guān)系等模式來(lái)完成學(xué)習(xí)，這和無(wú)監(jiān)督學(xué)習(xí)有異曲同工之處。

當(dāng)我們類比人類的學(xué)習(xí)，來(lái)看無(wú)監(jiān)督學(xué)習(xí)時(shí)，可以理解成這就是AI的自我學(xué)習(xí)。他們不像監(jiān)督學(xué)習(xí)那樣被“送進(jìn)學(xué)校”進(jìn)行全面的訓(xùn)練。在無(wú)監(jiān)督學(xué)習(xí)中，我們向人工智能提供數(shù)據(jù)，然后它必須自己學(xué)習(xí)如何理解這些數(shù)據(jù)。

也正是因?yàn)檫@個(gè)特點(diǎn)，無(wú)監(jiān)督學(xué)習(xí)常用于數(shù)據(jù)挖掘領(lǐng)域，通過(guò)構(gòu)建模型來(lái)為業(yè)務(wù)決策提供依據(jù)。或用于尋找隱藏在數(shù)據(jù)中的重要變量或特征，或用于識(shí)別模式或?qū)W習(xí)聚類，有些甚至可以教會(huì)自己一套行為策略，又或者可以自我監(jiān)督。

為了更好地理解無(wú)監(jiān)督學(xué)習(xí)，我們來(lái)打個(gè)比方。

我們讓AI扮演一位圖書(shū)管理員，讓它發(fā)揮“無(wú)監(jiān)督學(xué)習(xí)”的技能，負(fù)責(zé)整理圖書(shū)館里的書(shū)籍。

但這個(gè)圖書(shū)館非常特別，它沒(méi)有書(shū)籍的分類標(biāo)簽，也沒(méi)有任何指示告訴AI哪些書(shū)應(yīng)該放在一起。AI的任務(wù)就是找出書(shū)籍之間的潛在聯(lián)系，并將它們分組成類似的主題或類別。

在這個(gè)場(chǎng)景中，書(shū)籍就是數(shù)據(jù)，而找出書(shū)籍之間的潛在聯(lián)系的過(guò)程就是無(wú)監(jiān)督學(xué)習(xí)。這個(gè)過(guò)程中沒(méi)有明確的指導(dǎo)，只能通過(guò)觀察書(shū)籍的內(nèi)容、封面、出版年份等特征，來(lái)推斷它們可能的關(guān)聯(lián)，并據(jù)此進(jìn)行分類。

也正因如此，研究無(wú)監(jiān)督學(xué)習(xí)就變成一件很有意思的事情，不知道你是否也會(huì)好奇，在沒(méi)有所謂的“標(biāo)準(zhǔn)答案”的前提下，無(wú)監(jiān)督學(xué)習(xí)是如何完成任務(wù)的呢？

我們可以從無(wú)監(jiān)督學(xué)習(xí)的亮點(diǎn)，局限，以及它和監(jiān)督學(xué)習(xí)的區(qū)別中，找到一些答案。

二、無(wú)監(jiān)督學(xué)習(xí)有哪些亮點(diǎn)？

在無(wú)監(jiān)督學(xué)習(xí)中，AI不再依賴已知的標(biāo)簽信息來(lái)指導(dǎo)學(xué)習(xí)過(guò)程，而是借助算法自行探索數(shù)據(jù)中的內(nèi)在結(jié)構(gòu)和模式。在此基礎(chǔ)原理上，我們可以發(fā)現(xiàn)無(wú)監(jiān)督學(xué)習(xí)的很多亮點(diǎn)。

1. 無(wú)標(biāo)簽指導(dǎo)

無(wú)監(jiān)督學(xué)習(xí)的主要特點(diǎn)是在訓(xùn)練階段缺乏標(biāo)簽或類別信息的指導(dǎo)，AI無(wú)法依賴已有的“答案”來(lái)完成學(xué)習(xí)，它需要從大量未標(biāo)記的數(shù)據(jù)中，找出潛在的模式和關(guān)聯(lián)。

也正是因?yàn)檫@個(gè)特點(diǎn)，在處理大量的、復(fù)雜的、高維的數(shù)據(jù)時(shí)，無(wú)監(jiān)督學(xué)習(xí)就能發(fā)揮很大的作用。因?yàn)樵诂F(xiàn)實(shí)世界中，大量的數(shù)據(jù)都是未標(biāo)記的，比如互聯(lián)網(wǎng)上的文本、圖片、視頻等。如果我們僅僅依賴于監(jiān)督學(xué)習(xí)，那么這些數(shù)據(jù)的價(jià)值就無(wú)法得到充分的挖掘。

2. 發(fā)現(xiàn)數(shù)據(jù)內(nèi)在結(jié)構(gòu)

無(wú)監(jiān)督學(xué)習(xí)通過(guò)對(duì)數(shù)據(jù)進(jìn)行建模，來(lái)發(fā)現(xiàn)數(shù)據(jù)中的內(nèi)在結(jié)構(gòu)和關(guān)系，這個(gè)過(guò)程可以借助不同的算法來(lái)實(shí)現(xiàn)，比如聚類算法，降維算法，異常檢測(cè)等。

聚類算法可以將相似的數(shù)據(jù)點(diǎn)分到同一個(gè)類別中，從而發(fā)現(xiàn)數(shù)據(jù)中的潛在結(jié)構(gòu)。降維算法可以減少數(shù)據(jù)的維度，同時(shí)保留數(shù)據(jù)中的有用信息，從而幫助我們發(fā)現(xiàn)數(shù)據(jù)中的潛在模式。異常檢測(cè)可以識(shí)別數(shù)據(jù)中的異常或離群點(diǎn)，從而幫助我們更好地理解數(shù)據(jù)的分布情況。

在許多應(yīng)用場(chǎng)景中，獲取標(biāo)注數(shù)據(jù)需要大量的時(shí)間和金錢(qián)。無(wú)監(jiān)督學(xué)習(xí)可以在未標(biāo)注的數(shù)據(jù)中發(fā)現(xiàn)規(guī)律和模式，還有利于降低標(biāo)注成本。

目前，AI的無(wú)監(jiān)督學(xué)習(xí)水平還是很讓人驚艷的，最新上市的Sora視頻生成模型技術(shù)，就引起了較大的市場(chǎng)關(guān)注。

3. 自主學(xué)習(xí)

無(wú)監(jiān)督學(xué)習(xí)得以不依賴數(shù)據(jù)標(biāo)簽的情況下，從大量的數(shù)據(jù)中發(fā)現(xiàn)模式和關(guān)系，這就凸顯出了“自主學(xué)習(xí)”的亮點(diǎn)。

憑借著這個(gè)亮點(diǎn)，無(wú)監(jiān)督學(xué)習(xí)就像是一個(gè)人掌握了對(duì)未知世界的探索和學(xué)習(xí)能力一樣，放眼大千世界，都是無(wú)標(biāo)簽數(shù)據(jù)，無(wú)監(jiān)督學(xué)習(xí)具備了很強(qiáng)的靈活性和適應(yīng)性來(lái)學(xué)習(xí)一切。

自主學(xué)習(xí)注重模型對(duì)數(shù)據(jù)的主動(dòng)探索，強(qiáng)調(diào)模型對(duì)數(shù)據(jù)內(nèi)在關(guān)系的學(xué)習(xí)，還強(qiáng)調(diào)AI對(duì)數(shù)據(jù)整體性的理解，就像人類在遇到一些問(wèn)題時(shí)，要有探索精神，會(huì)鉆研學(xué)習(xí)并分析規(guī)律，先縱觀全局后再逐步突破的模式很像。

就拿數(shù)據(jù)整體性來(lái)說(shuō)吧，模型通過(guò)對(duì)整體數(shù)據(jù)的學(xué)習(xí)，能夠更好地理解數(shù)據(jù)的整體布局。模型產(chǎn)生的學(xué)習(xí)結(jié)果就可以更一致和準(zhǔn)確，很顯然，就會(huì)提高模型的泛化能力。

4. 應(yīng)用場(chǎng)景廣泛

無(wú)監(jiān)督學(xué)習(xí)的應(yīng)用范圍極為廣泛，涵蓋了眾多領(lǐng)域和場(chǎng)景。

在商業(yè)領(lǐng)域，無(wú)監(jiān)督學(xué)習(xí)被廣泛應(yīng)用于客戶細(xì)分。通過(guò)分析消費(fèi)者的購(gòu)買歷史、瀏覽行為和偏好，無(wú)監(jiān)督學(xué)習(xí)可以幫助企業(yè)識(shí)別出不同的客戶群體，從而實(shí)現(xiàn)更加精準(zhǔn)的市場(chǎng)營(yíng)銷策略。

例如，通過(guò)聚類算法，企業(yè)可以將客戶分為高價(jià)值客戶、潛在客戶和流失客戶等不同群體，并根據(jù)這些群體的特征制定個(gè)性化的促銷活動(dòng)。

而市場(chǎng)分析，則是另一個(gè)無(wú)監(jiān)督學(xué)習(xí)的用武之地。

通過(guò)對(duì)大量市場(chǎng)數(shù)據(jù)進(jìn)行分析，無(wú)監(jiān)督學(xué)習(xí)可以幫助企業(yè)和研究人員發(fā)現(xiàn)市場(chǎng)趨勢(shì)、消費(fèi)者行為模式和市場(chǎng)細(xì)分。這種分析可以幫助企業(yè)更好地理解市場(chǎng)需求，預(yù)測(cè)市場(chǎng)變化，并據(jù)此調(diào)整產(chǎn)品策略和營(yíng)銷計(jì)劃。

在圖像處理領(lǐng)域，無(wú)監(jiān)督學(xué)習(xí)被用于圖像分割和特征提取。（圖像分割是指將圖像劃分為多個(gè)部分或?qū)ο?，每個(gè)部分代表一個(gè)特定的區(qū)域或?qū)ο螅?。無(wú)監(jiān)督學(xué)習(xí)可以通過(guò)分析圖像中的像素強(qiáng)度、顏色和紋理等特征，自動(dòng)識(shí)別和分割圖像中的對(duì)象。

特征提取則是指從圖像中提取出對(duì)后續(xù)任務(wù)有用的信息。無(wú)監(jiān)督學(xué)習(xí)可以通過(guò)降維和特征選擇等技術(shù)，從高維的圖像數(shù)據(jù)中提取出關(guān)鍵特征，用于圖像識(shí)別、分類和檢索等任務(wù)。

不僅如此，無(wú)監(jiān)督學(xué)習(xí)幾乎沒(méi)有行業(yè)邊界。在生物信息學(xué)中，無(wú)監(jiān)督學(xué)習(xí)可以幫助研究人員分析基因表達(dá)數(shù)據(jù)，識(shí)別出不同的基因模式和功能模塊。

到了文本挖掘領(lǐng)域，無(wú)監(jiān)督學(xué)習(xí)可以通過(guò)主題模型等技術(shù)，發(fā)現(xiàn)文本數(shù)據(jù)中的隱藏主題和語(yǔ)義結(jié)構(gòu)。

再到社交網(wǎng)絡(luò)分析中，無(wú)監(jiān)督學(xué)習(xí)可以幫助識(shí)別社區(qū)結(jié)構(gòu)、關(guān)鍵影響者和信息傳播路徑。

如果是在推薦系統(tǒng)中，無(wú)監(jiān)督學(xué)習(xí)可以通過(guò)分析用戶行為和偏好，提供個(gè)性化的推薦。

簡(jiǎn)單地說(shuō)，無(wú)監(jiān)督學(xué)習(xí)的應(yīng)用場(chǎng)景廣泛的亮點(diǎn)將給AI帶來(lái)廣闊的市場(chǎng)空間，在各行各業(yè)都有它的用武之地。

三、無(wú)監(jiān)督學(xué)習(xí)有哪些局限？

當(dāng)人工智能自學(xué)時(shí)，它們并不能保證完全能理解所學(xué)的內(nèi)容。在無(wú)監(jiān)督學(xué)習(xí)中，當(dāng)沒(méi)有正確和錯(cuò)誤的例子作為“參考答案”時(shí)，人工智能的準(zhǔn)確性可能更難提高。

“人類和動(dòng)物的大部分學(xué)習(xí)都是無(wú)監(jiān)督學(xué)習(xí)，”臉書(shū)的首席人工智能科學(xué)家楊立昆說(shuō)，“如果智能是一塊蛋糕，無(wú)監(jiān)督學(xué)習(xí)就是蛋糕體，監(jiān)督學(xué)習(xí)就是蛋糕上的糖衣，而強(qiáng)化學(xué)習(xí)就是蛋糕上的櫻桃。我們知道如何制作糖衣和櫻桃，但我們還不知道如何制作蛋糕體。”

由此可見(jiàn)，無(wú)監(jiān)督學(xué)習(xí)除了具備諸多亮點(diǎn)以外，也同時(shí)存在著一些局限性，這些局限性也是AI領(lǐng)域的研究人員需要去突破，去克服的挑戰(zhàn)。

1. 學(xué)習(xí)過(guò)程不透明

無(wú)監(jiān)督學(xué)習(xí)可以發(fā)現(xiàn)和利用數(shù)據(jù)中的內(nèi)在結(jié)構(gòu)，這種特點(diǎn)很好，但也同樣帶來(lái)了局限，就是模型的學(xué)習(xí)過(guò)程不透明。這意味著無(wú)監(jiān)督學(xué)習(xí)模型通常難以提供對(duì)學(xué)習(xí)過(guò)程的清晰解釋，這也導(dǎo)致我們難以理解模型是如何對(duì)數(shù)據(jù)進(jìn)行學(xué)習(xí)和做出預(yù)測(cè)的。

也正因如此，我們對(duì)模型就無(wú)法形成絕對(duì)的信任。在許多應(yīng)用場(chǎng)景中，尤其是在需要高度責(zé)任和透明度的領(lǐng)域（如醫(yī)療、金融等），模型的不透明性可能導(dǎo)致人們對(duì)其結(jié)果持懷疑態(tài)度。

同時(shí)，它也限制了模型的可用性。當(dāng)我們無(wú)法理解模型的工作原理時(shí)，我們就難以對(duì)其進(jìn)行改進(jìn)或調(diào)整，也難以將其與其他模型或方法結(jié)合使用。

我們就看市面上諸多的聊天對(duì)話AI產(chǎn)品，它們會(huì)根據(jù)我們提供的問(wèn)題給我們不同的反饋，但是用戶通常是不清楚AI模型是經(jīng)過(guò)了什么樣的數(shù)據(jù)處理過(guò)程后，給出了回答。

回答的質(zhì)量也不穩(wěn)定，有時(shí)候回答得很專業(yè)、全面。有時(shí)候又回答得牛頭不對(duì)馬嘴，或者都是一些空泛的廢話，甚至有時(shí)候還會(huì)一本正經(jīng)地胡說(shuō)八道，如果沒(méi)有一定的判斷能力，被AI的信息誤導(dǎo)也是很有可能的。

如果我們想要得到一些精準(zhǔn)有效的答案，就需要嘗試和摸索出一些Prompt來(lái)調(diào)控AI的回答質(zhì)量。這一切的一切，都是因?yàn)锳I模型的學(xué)習(xí)過(guò)程不透明，我們不清楚從輸入到輸出的這個(gè)過(guò)程中，AI的神經(jīng)網(wǎng)絡(luò)內(nèi)部具體發(fā)生了什么。

為了克服這些挑戰(zhàn)，研究人員正在努力提高無(wú)監(jiān)督學(xué)習(xí)模型的可解釋性。一種方法是開(kāi)發(fā)新的算法和技術(shù)，讓模型在學(xué)習(xí)過(guò)程中能夠提供更多的解釋信息。另一種方法是結(jié)合其他領(lǐng)域的技術(shù)和方法，如可視化、人機(jī)交互等，來(lái)幫助人們更好地理解模型的工作原理。

2. 對(duì)異常數(shù)據(jù)敏感

由于不依賴于外部提供的標(biāo)簽信息，無(wú)監(jiān)督學(xué)習(xí)算法必須直接從數(shù)據(jù)本身中提取信息，這意味著數(shù)據(jù)中的每一個(gè)細(xì)節(jié)都可能對(duì)學(xué)習(xí)結(jié)果產(chǎn)生重大影響。

如果數(shù)據(jù)集中存在著異常數(shù)據(jù)，就像畫(huà)布上有污點(diǎn)或者顏色不均勻一樣，最終的作品多少都會(huì)受到影響。在無(wú)監(jiān)督學(xué)習(xí)中，數(shù)據(jù)中的噪聲和異常值就像畫(huà)布上的“污點(diǎn)”，可能會(huì)扭曲算法對(duì)數(shù)據(jù)內(nèi)在結(jié)構(gòu)的理解，導(dǎo)致學(xué)習(xí)結(jié)果的不準(zhǔn)確。

BTW，補(bǔ)充解釋一下知識(shí)點(diǎn)：噪聲和異常值。

噪聲是指數(shù)據(jù)中的隨機(jī)誤差，它們可能是由于測(cè)量不準(zhǔn)確、數(shù)據(jù)傳輸錯(cuò)誤或者數(shù)據(jù)本身的隨機(jī)波動(dòng)所造成。在無(wú)監(jiān)督學(xué)習(xí)中，噪聲可能會(huì)導(dǎo)致算法錯(cuò)誤地將某些模式識(shí)別為重要的結(jié)構(gòu)，或者忽視了真正的模式。這就好比在嘈雜的環(huán)境中嘗試聆聽(tīng)一個(gè)微弱的聲音時(shí)，噪聲可能會(huì)讓你誤解或者錯(cuò)過(guò)重要的信息。

異常值則是指那些與大多數(shù)數(shù)據(jù)顯著不同的數(shù)據(jù)點(diǎn)。在無(wú)監(jiān)督學(xué)習(xí)中，異常值可能會(huì)對(duì)聚類結(jié)果產(chǎn)生顯著影響，導(dǎo)致算法創(chuàng)建出不符合數(shù)據(jù)真實(shí)分布的簇。這就像是在一群人中，有幾個(gè)人的身高異常高大或者矮小，如果你僅僅根據(jù)身高來(lái)分組，這些異常值可能會(huì)導(dǎo)致你的分組策略失效。

由于這些敏感性，無(wú)監(jiān)督學(xué)習(xí)算法在應(yīng)用時(shí)需要對(duì)數(shù)據(jù)進(jìn)行嚴(yán)格的預(yù)處理，包括數(shù)據(jù)清洗、去除噪聲和異常值、特征選擇和縮放等。這些步驟可以幫助提高數(shù)據(jù)的質(zhì)量，減少對(duì)學(xué)習(xí)結(jié)果的不利影響。

3. 難以準(zhǔn)確評(píng)估模型性能

無(wú)監(jiān)督學(xué)習(xí)作為一種重要的機(jī)器學(xué)習(xí)方法，由于其不依賴外部標(biāo)簽的特性，在某些場(chǎng)景下，我們難以通過(guò)一些量化指標(biāo)來(lái)評(píng)估模型性能，這就意味著，之前我們提到的例如準(zhǔn)確率、召回率、F1分?jǐn)?shù)等指標(biāo)，用來(lái)評(píng)估監(jiān)督學(xué)習(xí)模型的準(zhǔn)確性有用，但評(píng)估無(wú)監(jiān)督學(xué)習(xí)的模型性能就不再適用了。

插一嘴，關(guān)于評(píng)估監(jiān)督學(xué)習(xí)中AI模型性能的數(shù)據(jù)指標(biāo)，我在這篇《產(chǎn)品經(jīng)理的獨(dú)門(mén)技能—AI監(jiān)督學(xué)習(xí)（6000字干貨）》中有詳細(xì)介紹，感興趣的可以看看。

也正因如此，無(wú)監(jiān)督學(xué)習(xí)模型的評(píng)估往往更加復(fù)雜和主觀。在評(píng)估無(wú)監(jiān)督學(xué)習(xí)模型的性能時(shí)，需要綜合考慮多種方法，比如內(nèi)部評(píng)估法、比較法、可視化方法等，并結(jié)合領(lǐng)域?qū)＜业膮⑴c和判斷，才能得到較為可靠和全面的評(píng)估結(jié)果。

不過(guò)，我相信這只是暫時(shí)的，隨著無(wú)監(jiān)督學(xué)習(xí)研究的深入和應(yīng)用的拓展，未來(lái)會(huì)出現(xiàn)更多有效的評(píng)估方法和指標(biāo)，以促進(jìn)無(wú)監(jiān)督學(xué)習(xí)技術(shù)的發(fā)展和應(yīng)用。

4. 難以選擇合適的模型

無(wú)監(jiān)督學(xué)習(xí)領(lǐng)域包含了多種算法，如聚類、降維、自編碼器、生成對(duì)抗網(wǎng)絡(luò)（GANs）等。每種算法都有其特定的適用場(chǎng)景和假設(shè)條件。這些算法不僅多樣還復(fù)雜，我們需要對(duì)算法有深入的了解，才能選擇一個(gè)適合特定數(shù)據(jù)集和問(wèn)題的模型來(lái)應(yīng)對(duì)具體的場(chǎng)景。

場(chǎng)景多樣，算法復(fù)雜，又沒(méi)有可量化的評(píng)估指標(biāo)，還有許多超參數(shù)需要調(diào)整，這些因素都導(dǎo)致了我們?cè)趯?shí)際應(yīng)用中，難以選擇合適的模型，拿著不合適的模型去參與訓(xùn)練，自然也無(wú)法達(dá)到理想的訓(xùn)練結(jié)果。

四、監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的區(qū)別

監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)都是機(jī)器學(xué)習(xí)領(lǐng)域的核心方法，監(jiān)督學(xué)習(xí)是一種基于有標(biāo)簽數(shù)據(jù)的機(jī)器學(xué)習(xí)方法，需要通過(guò)給定樣本集目標(biāo)和規(guī)則參數(shù)來(lái)進(jìn)行學(xué)習(xí)。無(wú)監(jiān)督學(xué)習(xí)是一種基于無(wú)標(biāo)簽數(shù)據(jù)的機(jī)器學(xué)習(xí)方法，基于海量數(shù)據(jù)尋找相似性和內(nèi)在關(guān)聯(lián)。

在實(shí)際應(yīng)用中，監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)各展所長(zhǎng)，監(jiān)督學(xué)習(xí)在圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域給我們的生活帶來(lái)新的便利。而無(wú)監(jiān)督學(xué)習(xí)則在數(shù)據(jù)挖掘、推薦系統(tǒng)、社交網(wǎng)絡(luò)分析等領(lǐng)域嶄露頭角，為大數(shù)據(jù)時(shí)代提供了全新的視角，如客戶細(xì)分、異常檢測(cè)等。

“兩儀生四象，四象生八卦”，監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)這兩大高手配合，我們的未來(lái)充滿了新的可能。

接下來(lái)，我們就來(lái)一起看看監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)有哪些區(qū)別？

1. 數(shù)據(jù)標(biāo)注不同

監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)在數(shù)據(jù)標(biāo)注的要求和方式上不同。前者使用有標(biāo)簽的數(shù)據(jù)集，而后者使用無(wú)標(biāo)簽的數(shù)據(jù)集，我們分別展開(kāi)說(shuō)一下。

【監(jiān)督學(xué)習(xí)】：

監(jiān)督學(xué)習(xí)使用的是有標(biāo)注的數(shù)據(jù)集進(jìn)行訓(xùn)練。依賴于有標(biāo)簽的數(shù)據(jù)就意味著每個(gè)訓(xùn)練樣本都有一個(gè)對(duì)應(yīng)的輸出標(biāo)簽或目標(biāo)，這些標(biāo)簽或目標(biāo)通常由專家或通過(guò)其他方法預(yù)先標(biāo)注好。

例如，在圖像識(shí)別任務(wù)中，如果要識(shí)別出不同動(dòng)物，訓(xùn)練集中的每張圖片都已經(jīng)標(biāo)注了它所代表的動(dòng)物類別。監(jiān)督學(xué)習(xí)算法會(huì)學(xué)習(xí)圖像的像素特征與對(duì)應(yīng)的類別標(biāo)簽之間的關(guān)系，以便對(duì)未知圖像進(jìn)行分類。

【無(wú)監(jiān)督學(xué)習(xí)】：

無(wú)監(jiān)督學(xué)習(xí)使用的是未標(biāo)注的數(shù)據(jù)集進(jìn)行訓(xùn)練。沒(méi)有明確的輸出目標(biāo)，模型需要自行發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu)或模式。

假設(shè)一家大型零售公司希望了解其客戶群體的結(jié)構(gòu)和購(gòu)買行為，以更好地定制營(yíng)銷策略。公司擁有大量的客戶交易數(shù)據(jù)，但這些數(shù)據(jù)沒(méi)有預(yù)先標(biāo)注的客戶類別或細(xì)分市場(chǎng)信息。

無(wú)監(jiān)督學(xué)習(xí)可以分析客戶的購(gòu)買歷史、消費(fèi)頻率、平均消費(fèi)額等特征，無(wú)需任何外部指導(dǎo)，自行識(shí)別出不同的客戶群體。

2. 學(xué)習(xí)目標(biāo)不同

監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)在學(xué)習(xí)目標(biāo)上也不同，前者關(guān)注于學(xué)習(xí)輸入與輸出之間的映射關(guān)系，而后者關(guān)注于發(fā)現(xiàn)數(shù)據(jù)中的潛在結(jié)構(gòu)和模式。

【監(jiān)督學(xué)習(xí)】：

監(jiān)督學(xué)習(xí)的目標(biāo)是學(xué)習(xí)一個(gè)函數(shù)，該函數(shù)能夠?qū)⑤斎胗成涞较鄳?yīng)的輸出。模型通過(guò)最小化預(yù)測(cè)值與實(shí)際標(biāo)簽之間的差異來(lái)進(jìn)行訓(xùn)練。

如果是在一個(gè)推薦系統(tǒng)中，監(jiān)督學(xué)習(xí)可以用于根據(jù)用戶的歷史行為數(shù)據(jù)預(yù)測(cè)用戶可能感興趣的商品

【無(wú)監(jiān)督學(xué)習(xí)】：

相比之下，無(wú)監(jiān)督學(xué)習(xí)的目標(biāo)更似霧里看花，它的目標(biāo)是發(fā)現(xiàn)數(shù)據(jù)中的隱藏結(jié)構(gòu)或模式，而不關(guān)注具體的輸出。AI模型需要自行捕捉出數(shù)據(jù)的內(nèi)在關(guān)系，如聚類、降維等。

同樣是在一個(gè)推薦系統(tǒng)中，無(wú)監(jiān)督學(xué)習(xí)可以用于發(fā)現(xiàn)用戶之間的相似性，從而實(shí)現(xiàn)個(gè)性化推薦。

3. 算法類型不同

監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)在算法類型上的差異主要體現(xiàn)在它們各自適用的任務(wù)和解決問(wèn)題的方法上。監(jiān)督學(xué)習(xí)算法主要用于解決分類和回歸問(wèn)題，而無(wú)監(jiān)督學(xué)習(xí)算法主要用于發(fā)現(xiàn)數(shù)據(jù)中的模式和結(jié)構(gòu)。

【監(jiān)督學(xué)習(xí)】

監(jiān)督學(xué)習(xí)算法主要包括那些用于解決分類和回歸問(wèn)題的算法。分類問(wèn)題涉及將數(shù)據(jù)點(diǎn)分配到不同的預(yù)定義類別中，而回歸問(wèn)題則涉及預(yù)測(cè)一個(gè)連續(xù)的數(shù)值。

常見(jiàn)的監(jiān)督學(xué)習(xí)算法包括：

線性回歸（Linear Regression）：用于預(yù)測(cè)連續(xù)數(shù)值輸出的算法，通過(guò)擬合線性模型來(lái)描述輸入和輸出之間的關(guān)系。

邏輯回歸（Logistic Regression）：用于二分類問(wèn)題的算法，通過(guò)邏輯函數(shù)建模，輸出為概率值。

決策樹(shù)（Decision Trees）：通過(guò)樹(shù)狀結(jié)構(gòu)進(jìn)行決策，適用于分類和回歸問(wèn)題。

支持向量機(jī)（Support Vector Machines，SVM）：用于分類和回歸問(wèn)題的算法，通過(guò)找到最大化類別間間隔的超平面。

K最近鄰（K-Nearest Neighbors，KNN）：基于實(shí)例的學(xué)習(xí)方法，通過(guò)測(cè)量輸入與訓(xùn)練集中最近鄰的距離進(jìn)行分類。

隨機(jī)森林（Random Forest）：集成學(xué)習(xí)算法，由多個(gè)決策樹(shù)組成，用于分類和回歸。

【無(wú)監(jiān)督學(xué)習(xí)】

無(wú)監(jiān)督學(xué)習(xí)算法不依賴于外部提供的標(biāo)簽信息，它們可以用于探索數(shù)據(jù)集的潛在特征、減少數(shù)據(jù)的維度、發(fā)現(xiàn)數(shù)據(jù)中的異常點(diǎn)或?qū)?shù)據(jù)進(jìn)行聚類。

常見(jiàn)的無(wú)監(jiān)督學(xué)習(xí)算法包括：

K均值聚類（K-Means Clustering）：將數(shù)據(jù)分為K個(gè)簇，每個(gè)簇包含相似的數(shù)據(jù)點(diǎn)。

層次聚類（Hierarchical Clustering）：基于層次結(jié)構(gòu)將數(shù)據(jù)點(diǎn)組織成樹(shù)狀圖，逐步合并或拆分簇。

主成分分析（Principal Component Analysis，PCA）：降維算法，通過(guò)找到數(shù)據(jù)中的主成分來(lái)減少特征的維度。

獨(dú)立成分分析（Independent Component Analysis，ICA）：尋找數(shù)據(jù)中相互獨(dú)立的成分，常用于信號(hào)處理。

自編碼器（Autoencoders）：一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，用于學(xué)習(xí)數(shù)據(jù)的壓縮表示，常用于降維和特征學(xué)習(xí)。

關(guān)聯(lián)規(guī)則學(xué)習(xí)（Association Rule Learning）：用于發(fā)現(xiàn)數(shù)據(jù)集中的關(guān)聯(lián)規(guī)則，例如Apriori算法。

高斯混合模型（Gaussian Mixture Model，GMM）：一種概率模型，可以用于聚類和密度估計(jì)。

流形學(xué)習(xí)（Manifold Learning）：用于學(xué)習(xí)數(shù)據(jù)的低維表示，以更好地捕捉數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。

4. 性能評(píng)估不同

因?yàn)閿?shù)據(jù)訓(xùn)練的方式和目標(biāo)都不一樣，所以對(duì)無(wú)監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)的性能評(píng)估方式也不同。

【監(jiān)督學(xué)習(xí)】

監(jiān)督學(xué)習(xí)的性能評(píng)估相對(duì)直接，通常通過(guò)與真實(shí)標(biāo)簽的比較來(lái)衡量。在這種情況下，評(píng)估指標(biāo)包括準(zhǔn)確率、召回率、F1分?jǐn)?shù)等。這些指標(biāo)用于衡量模型在不同方面的性能，例如正確分類的比例、模型對(duì)正例的捕獲能力等。

在《產(chǎn)品經(jīng)理的獨(dú)門(mén)技能—AI監(jiān)督學(xué)習(xí)（6000字干貨）》中有更多關(guān)于評(píng)估AI數(shù)據(jù)指標(biāo)的詳解，感興趣的可以看看。

結(jié)合數(shù)據(jù)集后，監(jiān)督學(xué)習(xí)通常將數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集，模型在訓(xùn)練集上學(xué)習(xí)，然后在測(cè)試集上評(píng)估性能。還可能使用驗(yàn)證集進(jìn)行模型調(diào)優(yōu)。

【無(wú)監(jiān)督學(xué)習(xí)】

相比之下，無(wú)監(jiān)督學(xué)習(xí)的性能評(píng)估會(huì)更復(fù)雜一些，這也是因?yàn)闊o(wú)標(biāo)簽數(shù)據(jù)來(lái)訓(xùn)練模型，量化評(píng)估的方式在無(wú)監(jiān)督學(xué)習(xí)身上就不起作用。

無(wú)監(jiān)督學(xué)習(xí)的評(píng)估通常依賴于內(nèi)部評(píng)估指標(biāo)或與多個(gè)算法進(jìn)行比較。例如，在聚類任務(wù)中，評(píng)估指標(biāo)可能包括簇內(nèi)相似性和簇間差異性，以及在聚類趨勢(shì)、數(shù)據(jù)簇?cái)?shù)和聚類質(zhì)量方面的考量。

我們先認(rèn)識(shí)一下“什么是簇”。在聚類分析中，簇是指具有相似特征的數(shù)據(jù)點(diǎn)的集合。聚類是一種無(wú)監(jiān)督學(xué)習(xí)方法，其目標(biāo)是將數(shù)據(jù)集中的樣本劃分為不同的簇，使得同一簇內(nèi)的樣本相似度較高，而不同簇之間的相似度較低。

我們?cè)倏础按貎?nèi)相似性”。簇內(nèi)相似性是指在聚類問(wèn)題中，同一簇內(nèi)的樣本彼此之間的相似程度或接近度。

對(duì)于一個(gè)包含多個(gè)樣本的簇，簇內(nèi)相似性的高低反映了這些樣本在特征空間中的緊密程度。如果同一簇內(nèi)的樣本足夠相似，即它們?cè)谔卣骺臻g中的距離較小，那么簇內(nèi)相似性就會(huì)較高。相反，如果簇內(nèi)的樣本相差較大，相似性就會(huì)較低。

知道了“簇內(nèi)相似性”，我們?cè)賮?lái)看“簇間差異性”。在聚類分析中，簇間差異性是指不同簇之間的差異程度。它是通過(guò)衡量不同簇之間樣本的分離程度來(lái)評(píng)估聚類質(zhì)量的一個(gè)指標(biāo)。

簇間差異性越大，表示不同簇之間的樣本差異越顯著，聚類效果越好。好的聚類應(yīng)該使得同一簇內(nèi)的樣本相似，而不同簇之間的樣本有較大的差異。

在實(shí)際應(yīng)用中，簇間差異性的評(píng)估有助于選擇合適的聚類數(shù)目，優(yōu)化聚類算法的參數(shù)，以及理解數(shù)據(jù)的聚類結(jié)構(gòu)。

此外，無(wú)監(jiān)督學(xué)習(xí)算法的性能評(píng)估還可能涉及到將無(wú)監(jiān)督學(xué)習(xí)轉(zhuǎn)化為監(jiān)督學(xué)習(xí)的方法。這種方法涉及生成偽標(biāo)簽，然后使用監(jiān)督學(xué)習(xí)中的評(píng)估指標(biāo)。

5. 應(yīng)用場(chǎng)景不同

監(jiān)督學(xué)習(xí)更適用于已知目標(biāo)和標(biāo)簽的應(yīng)用場(chǎng)景，而無(wú)監(jiān)督學(xué)習(xí)更適用于數(shù)據(jù)探索和結(jié)構(gòu)發(fā)現(xiàn)的應(yīng)用場(chǎng)景。在實(shí)際應(yīng)用中，它們的選擇依賴于問(wèn)題的性質(zhì)、數(shù)據(jù)的可用性以及建模的目標(biāo)。

【監(jiān)督學(xué)習(xí)】：

監(jiān)督學(xué)習(xí)適用于那些已知輸出情況下的問(wèn)題，包括圖像分類、語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域。應(yīng)用場(chǎng)景也比較比較廣泛，比如識(shí)別照片中的對(duì)象、檢測(cè)圖像中的異常（如疾病檢測(cè)）或?qū)D片進(jìn)行分類（如區(qū)分不同類型的花朵）。

在語(yǔ)音識(shí)別中，監(jiān)督學(xué)習(xí)算法能夠識(shí)別和轉(zhuǎn)錄語(yǔ)音信號(hào)，應(yīng)用于語(yǔ)音助手、自動(dòng)字幕生成和語(yǔ)音到文本轉(zhuǎn)換。

在自然語(yǔ)言處理（NLP）中，監(jiān)督學(xué)習(xí)用于文本分類（如垃圾郵件檢測(cè)）、情感分析（判斷文本表達(dá)的情感是正面還是負(fù)面）、機(jī)器翻譯（如將一種語(yǔ)言翻譯成另一種語(yǔ)言）和實(shí)體識(shí)別（識(shí)別文本中的特定實(shí)體，如人名、地點(diǎn)或組織）。

總之，這些應(yīng)用場(chǎng)景的共同特點(diǎn)是它們都涉及對(duì)輸入數(shù)據(jù)（如圖像、文本、聲音等）進(jìn)行分類、回歸或其他預(yù)測(cè)任務(wù)，并且都有足夠的標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練模型。其實(shí)，這也是對(duì)應(yīng)了監(jiān)督學(xué)習(xí)的自身特點(diǎn)。

【無(wú)監(jiān)督學(xué)習(xí)】：

與監(jiān)督學(xué)習(xí)相對(duì)應(yīng)的無(wú)監(jiān)督學(xué)習(xí)，主要用于發(fā)現(xiàn)數(shù)據(jù)的潛在結(jié)構(gòu)，而不需要預(yù)先知道輸出。因此，在數(shù)據(jù)探索、特征學(xué)習(xí)等場(chǎng)景中，無(wú)監(jiān)督學(xué)習(xí)能發(fā)揮較大的作用。

假設(shè)，我們有一個(gè)包含大量未標(biāo)注文本的數(shù)據(jù)集，我們希望找到其中的主題結(jié)構(gòu)。無(wú)監(jiān)督學(xué)習(xí)的主題建模算法可以幫助我們自動(dòng)識(shí)別文本中的主題，而無(wú)需預(yù)先定義每個(gè)文本的主題標(biāo)簽。

在我們?nèi)粘?huì)接觸到的工作和生活中，無(wú)監(jiān)督學(xué)習(xí)可以通過(guò)分析社交網(wǎng)絡(luò)中的用戶行為、互動(dòng)和內(nèi)容，幫助識(shí)別社區(qū)結(jié)構(gòu)、關(guān)鍵影響者和信息傳播路徑。

在圖像處理中，無(wú)監(jiān)督學(xué)習(xí)可以用于自動(dòng)分割圖像中的對(duì)象，這在醫(yī)學(xué)影像分析中尤其有用，如自動(dòng)識(shí)別和分割腫瘤組織。

無(wú)監(jiān)督學(xué)習(xí)還可以用于識(shí)別時(shí)間序列數(shù)據(jù)中的模式和趨勢(shì)，如股票價(jià)格走勢(shì)分析、天氣模式預(yù)測(cè)等。

看了多個(gè)場(chǎng)景后，我們就能發(fā)現(xiàn)無(wú)監(jiān)督學(xué)習(xí)的應(yīng)用場(chǎng)景共性，就是它們都需要處理大量未標(biāo)記的數(shù)據(jù)，并從中提取有用的信息和結(jié)構(gòu)。無(wú)監(jiān)督學(xué)習(xí)也正是現(xiàn)在的熱門(mén)研究領(lǐng)域，相信其未來(lái)一定會(huì)發(fā)揮更大的作用。

五、總結(jié)與預(yù)告

在最后，我們來(lái)總結(jié)一下，本篇首先介紹了無(wú)監(jiān)督學(xué)習(xí)的基本概念，它是一種機(jī)器學(xué)習(xí)方法，不需要外部標(biāo)簽或指導(dǎo)，能夠自主發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu)和模式。

第二段介紹了無(wú)監(jiān)督學(xué)習(xí)的亮點(diǎn)，無(wú)需人工標(biāo)注大量數(shù)據(jù)，能夠發(fā)現(xiàn)數(shù)據(jù)內(nèi)在結(jié)構(gòu)，能實(shí)現(xiàn)自主學(xué)習(xí)，也能適用于廣泛的場(chǎng)景。

在第三段，提到了無(wú)監(jiān)督學(xué)習(xí)的局限，如學(xué)習(xí)過(guò)程不透明，對(duì)異常數(shù)據(jù)敏感，難以準(zhǔn)確評(píng)估模型性能，以及難以選擇合適的模型。

最后，我將監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)進(jìn)行了對(duì)比，兩者在數(shù)據(jù)標(biāo)注、學(xué)習(xí)目標(biāo)、算法類型、性能評(píng)估和應(yīng)用場(chǎng)景等方面都有所不同，各有千秋。

關(guān)于無(wú)監(jiān)督學(xué)習(xí)的內(nèi)容不僅僅只有這些，我也會(huì)在此平臺(tái)持續(xù)更新關(guān)于無(wú)監(jiān)督學(xué)習(xí)和AI相關(guān)知識(shí)的更多內(nèi)容。

簡(jiǎn)單預(yù)告一下，后續(xù)的篇章我會(huì)繼續(xù)和大家聊聊無(wú)監(jiān)督學(xué)習(xí)，會(huì)涉及到無(wú)監(jiān)督學(xué)習(xí)的算法，無(wú)監(jiān)督學(xué)習(xí)的落地場(chǎng)景和產(chǎn)品案例等內(nèi)容。

AI的天空很廣，我們一起飛翔。

作者：果釀，公眾號(hào)：果釀產(chǎn)品說(shuō)

本文由 @果釀原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)作者許可，禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash，基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App