現(xiàn)在入門(mén)“AI無(wú)監(jiān)督學(xué)習(xí)”還來(lái)得及(9000字干貨)
人工智能和機(jī)器學(xué)習(xí)之間存在著什么樣的關(guān)系,機(jī)器學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)又是指什么?本文將重點(diǎn)介紹無(wú)監(jiān)督學(xué)習(xí),并分析與監(jiān)督學(xué)習(xí)的區(qū)別,一起來(lái)看看吧。
在人工智能領(lǐng)域,我們經(jīng)常會(huì)聽(tīng)到“無(wú)監(jiān)督學(xué)習(xí)”這個(gè)詞。但是,很多人對(duì)于無(wú)監(jiān)督學(xué)習(xí)的概念和原理并不太了解,甚至有些人可能會(huì)覺(jué)得這個(gè)概念有些高深莫測(cè)。
確實(shí),看一些專業(yè)書(shū)籍是有些燒腦,我自己也是硬啃了一些內(nèi)容,又看了一些相關(guān)課程視頻之后,才有了比較清晰的了解,所以,寫(xiě)下本篇的我,希望以更容易理解的方式來(lái)介紹無(wú)監(jiān)督學(xué)習(xí)。
Now let’s start!
我先說(shuō)一下人工智能和機(jī)器學(xué)習(xí)之間的關(guān)系,再延伸到機(jī)器學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)。
人工智能(AI) 指的是使機(jī)器能夠執(zhí)行人類智能活動(dòng)的一類技術(shù)。這包括了解語(yǔ)言、感知環(huán)境、學(xué)習(xí)和解決問(wèn)題等任務(wù)。也就是說(shuō),人工智能的目標(biāo)是使機(jī)器系統(tǒng)能夠模擬人類的智能行為,以執(zhí)行復(fù)雜的任務(wù)。
而機(jī)器學(xué)習(xí)(ML)是人工智能的一個(gè)特定分支,是一種通過(guò)從數(shù)據(jù)中學(xué)習(xí)并進(jìn)行自動(dòng)優(yōu)化的方法,而不是通過(guò)明確的編程規(guī)則來(lái)實(shí)現(xiàn)任務(wù)。其目標(biāo)是讓機(jī)器分析大量數(shù)據(jù)并識(shí)別數(shù)據(jù)中的模式,并生成具有相關(guān)正確概率或可信度的結(jié)果。
換句話說(shuō),人工智能是一個(gè)更寬泛的概念,可讓機(jī)器或系統(tǒng)像人類一樣感知、推理、行動(dòng)等,而機(jī)器學(xué)習(xí)是人工智能的一個(gè)子集,可讓機(jī)器從數(shù)據(jù)中提取知識(shí)并自主學(xué)習(xí),機(jī)器學(xué)習(xí)就像是實(shí)現(xiàn)人工智能目標(biāo)的一種手段。
機(jī)器學(xué)習(xí)有不同類型,主要分為監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)及強(qiáng)化學(xué)習(xí)。其中,無(wú)監(jiān)督學(xué)習(xí)(Unsupervised learning)就是機(jī)器學(xué)習(xí)中的一種核心學(xué)習(xí)方式,也是數(shù)據(jù)科學(xué)的一個(gè)重要分支。也是我們本篇要重點(diǎn)介紹的內(nèi)容。
全文9000字左右,預(yù)計(jì)閱讀時(shí)間15分鐘,若是碎片時(shí)間不夠,建議先收藏后看,便于找回。
照例,開(kāi)篇提供本篇文章的目錄大綱,方便大家在閱讀前總攬全局,對(duì)內(nèi)容框架有預(yù)先了解。
一、什么是無(wú)監(jiān)督學(xué)習(xí)?
無(wú)監(jiān)督學(xué)習(xí)很像人類的自學(xué)過(guò)程,我們?nèi)祟愔饕ㄟ^(guò)觀察、感知和互動(dòng),從而形成對(duì)世界的認(rèn)知和理解,我們的學(xué)習(xí)方式有分類,歸納,推理等,我們從大量的信息中去找到規(guī)則、規(guī)律、結(jié)構(gòu)、關(guān)系等模式來(lái)完成學(xué)習(xí),這和無(wú)監(jiān)督學(xué)習(xí)有異曲同工之處。
當(dāng)我們類比人類的學(xué)習(xí),來(lái)看無(wú)監(jiān)督學(xué)習(xí)時(shí),可以理解成這就是AI的自我學(xué)習(xí)。他們不像監(jiān)督學(xué)習(xí)那樣被“送進(jìn)學(xué)校”進(jìn)行全面的訓(xùn)練。在無(wú)監(jiān)督學(xué)習(xí)中,我們向人工智能提供數(shù)據(jù),然后它必須自己學(xué)習(xí)如何理解這些數(shù)據(jù)。
也正是因?yàn)檫@個(gè)特點(diǎn),無(wú)監(jiān)督學(xué)習(xí)常用于數(shù)據(jù)挖掘領(lǐng)域,通過(guò)構(gòu)建模型來(lái)為業(yè)務(wù)決策提供依據(jù)。或用于尋找隱藏在數(shù)據(jù)中的重要變量或特征,或用于識(shí)別模式或?qū)W習(xí)聚類,有些甚至可以教會(huì)自己一套行為策略,又或者可以自我監(jiān)督。
為了更好地理解無(wú)監(jiān)督學(xué)習(xí),我們來(lái)打個(gè)比方。
我們讓AI扮演一位圖書(shū)管理員,讓它發(fā)揮“無(wú)監(jiān)督學(xué)習(xí)”的技能,負(fù)責(zé)整理圖書(shū)館里的書(shū)籍。
但這個(gè)圖書(shū)館非常特別,它沒(méi)有書(shū)籍的分類標(biāo)簽,也沒(méi)有任何指示告訴AI哪些書(shū)應(yīng)該放在一起。AI的任務(wù)就是找出書(shū)籍之間的潛在聯(lián)系,并將它們分組成類似的主題或類別。
在這個(gè)場(chǎng)景中,書(shū)籍就是數(shù)據(jù),而找出書(shū)籍之間的潛在聯(lián)系的過(guò)程就是無(wú)監(jiān)督學(xué)習(xí)。這個(gè)過(guò)程中沒(méi)有明確的指導(dǎo),只能通過(guò)觀察書(shū)籍的內(nèi)容、封面、出版年份等特征,來(lái)推斷它們可能的關(guān)聯(lián),并據(jù)此進(jìn)行分類。
也正因如此,研究無(wú)監(jiān)督學(xué)習(xí)就變成一件很有意思的事情,不知道你是否也會(huì)好奇,在沒(méi)有所謂的“標(biāo)準(zhǔn)答案”的前提下,無(wú)監(jiān)督學(xué)習(xí)是如何完成任務(wù)的呢?
我們可以從無(wú)監(jiān)督學(xué)習(xí)的亮點(diǎn),局限,以及它和監(jiān)督學(xué)習(xí)的區(qū)別中,找到一些答案。
二、無(wú)監(jiān)督學(xué)習(xí)有哪些亮點(diǎn)?
在無(wú)監(jiān)督學(xué)習(xí)中,AI不再依賴已知的標(biāo)簽信息來(lái)指導(dǎo)學(xué)習(xí)過(guò)程,而是借助算法自行探索數(shù)據(jù)中的內(nèi)在結(jié)構(gòu)和模式。在此基礎(chǔ)原理上,我們可以發(fā)現(xiàn)無(wú)監(jiān)督學(xué)習(xí)的很多亮點(diǎn)。
1. 無(wú)標(biāo)簽指導(dǎo)
無(wú)監(jiān)督學(xué)習(xí)的主要特點(diǎn)是在訓(xùn)練階段缺乏標(biāo)簽或類別信息的指導(dǎo),AI無(wú)法依賴已有的“答案”來(lái)完成學(xué)習(xí),它需要從大量未標(biāo)記的數(shù)據(jù)中,找出潛在的模式和關(guān)聯(lián)。
也正是因?yàn)檫@個(gè)特點(diǎn),在處理大量的、復(fù)雜的、高維的數(shù)據(jù)時(shí),無(wú)監(jiān)督學(xué)習(xí)就能發(fā)揮很大的作用。因?yàn)樵诂F(xiàn)實(shí)世界中,大量的數(shù)據(jù)都是未標(biāo)記的,比如互聯(lián)網(wǎng)上的文本、圖片、視頻等。如果我們僅僅依賴于監(jiān)督學(xué)習(xí),那么這些數(shù)據(jù)的價(jià)值就無(wú)法得到充分的挖掘。
2. 發(fā)現(xiàn)數(shù)據(jù)內(nèi)在結(jié)構(gòu)
無(wú)監(jiān)督學(xué)習(xí)通過(guò)對(duì)數(shù)據(jù)進(jìn)行建模,來(lái)發(fā)現(xiàn)數(shù)據(jù)中的內(nèi)在結(jié)構(gòu)和關(guān)系,這個(gè)過(guò)程可以借助不同的算法來(lái)實(shí)現(xiàn),比如聚類算法,降維算法,異常檢測(cè)等。
聚類算法可以將相似的數(shù)據(jù)點(diǎn)分到同一個(gè)類別中,從而發(fā)現(xiàn)數(shù)據(jù)中的潛在結(jié)構(gòu)。降維算法可以減少數(shù)據(jù)的維度,同時(shí)保留數(shù)據(jù)中的有用信息,從而幫助我們發(fā)現(xiàn)數(shù)據(jù)中的潛在模式。異常檢測(cè)可以識(shí)別數(shù)據(jù)中的異常或離群點(diǎn),從而幫助我們更好地理解數(shù)據(jù)的分布情況。
在許多應(yīng)用場(chǎng)景中,獲取標(biāo)注數(shù)據(jù)需要大量的時(shí)間和金錢(qián)。無(wú)監(jiān)督學(xué)習(xí)可以在未標(biāo)注的數(shù)據(jù)中發(fā)現(xiàn)規(guī)律和模式,還有利于降低標(biāo)注成本。
目前,AI的無(wú)監(jiān)督學(xué)習(xí)水平還是很讓人驚艷的,最新上市的Sora視頻生成模型技術(shù),就引起了較大的市場(chǎng)關(guān)注。
3. 自主學(xué)習(xí)
無(wú)監(jiān)督學(xué)習(xí)得以不依賴數(shù)據(jù)標(biāo)簽的情況下,從大量的數(shù)據(jù)中發(fā)現(xiàn)模式和關(guān)系,這就凸顯出了“自主學(xué)習(xí)”的亮點(diǎn)。
憑借著這個(gè)亮點(diǎn),無(wú)監(jiān)督學(xué)習(xí)就像是一個(gè)人掌握了對(duì)未知世界的探索和學(xué)習(xí)能力一樣,放眼大千世界,都是無(wú)標(biāo)簽數(shù)據(jù),無(wú)監(jiān)督學(xué)習(xí)具備了很強(qiáng)的靈活性和適應(yīng)性來(lái)學(xué)習(xí)一切。
自主學(xué)習(xí)注重模型對(duì)數(shù)據(jù)的主動(dòng)探索,強(qiáng)調(diào)模型對(duì)數(shù)據(jù)內(nèi)在關(guān)系的學(xué)習(xí),還強(qiáng)調(diào)AI對(duì)數(shù)據(jù)整體性的理解,就像人類在遇到一些問(wèn)題時(shí),要有探索精神,會(huì)鉆研學(xué)習(xí)并分析規(guī)律,先縱觀全局后再逐步突破的模式很像。
就拿數(shù)據(jù)整體性來(lái)說(shuō)吧,模型通過(guò)對(duì)整體數(shù)據(jù)的學(xué)習(xí),能夠更好地理解數(shù)據(jù)的整體布局。模型產(chǎn)生的學(xué)習(xí)結(jié)果就可以更一致和準(zhǔn)確,很顯然,就會(huì)提高模型的泛化能力。
4. 應(yīng)用場(chǎng)景廣泛
無(wú)監(jiān)督學(xué)習(xí)的應(yīng)用范圍極為廣泛,涵蓋了眾多領(lǐng)域和場(chǎng)景。
在商業(yè)領(lǐng)域,無(wú)監(jiān)督學(xué)習(xí)被廣泛應(yīng)用于客戶細(xì)分。通過(guò)分析消費(fèi)者的購(gòu)買歷史、瀏覽行為和偏好,無(wú)監(jiān)督學(xué)習(xí)可以幫助企業(yè)識(shí)別出不同的客戶群體,從而實(shí)現(xiàn)更加精準(zhǔn)的市場(chǎng)營(yíng)銷策略。
例如,通過(guò)聚類算法,企業(yè)可以將客戶分為高價(jià)值客戶、潛在客戶和流失客戶等不同群體,并根據(jù)這些群體的特征制定個(gè)性化的促銷活動(dòng)。
而市場(chǎng)分析,則是另一個(gè)無(wú)監(jiān)督學(xué)習(xí)的用武之地。
通過(guò)對(duì)大量市場(chǎng)數(shù)據(jù)進(jìn)行分析,無(wú)監(jiān)督學(xué)習(xí)可以幫助企業(yè)和研究人員發(fā)現(xiàn)市場(chǎng)趨勢(shì)、消費(fèi)者行為模式和市場(chǎng)細(xì)分。這種分析可以幫助企業(yè)更好地理解市場(chǎng)需求,預(yù)測(cè)市場(chǎng)變化,并據(jù)此調(diào)整產(chǎn)品策略和營(yíng)銷計(jì)劃。
在圖像處理領(lǐng)域,無(wú)監(jiān)督學(xué)習(xí)被用于圖像分割和特征提取。(圖像分割是指將圖像劃分為多個(gè)部分或?qū)ο?,每個(gè)部分代表一個(gè)特定的區(qū)域或?qū)ο螅?。無(wú)監(jiān)督學(xué)習(xí)可以通過(guò)分析圖像中的像素強(qiáng)度、顏色和紋理等特征,自動(dòng)識(shí)別和分割圖像中的對(duì)象。
特征提取則是指從圖像中提取出對(duì)后續(xù)任務(wù)有用的信息。無(wú)監(jiān)督學(xué)習(xí)可以通過(guò)降維和特征選擇等技術(shù),從高維的圖像數(shù)據(jù)中提取出關(guān)鍵特征,用于圖像識(shí)別、分類和檢索等任務(wù)。
不僅如此,無(wú)監(jiān)督學(xué)習(xí)幾乎沒(méi)有行業(yè)邊界。在生物信息學(xué)中,無(wú)監(jiān)督學(xué)習(xí)可以幫助研究人員分析基因表達(dá)數(shù)據(jù),識(shí)別出不同的基因模式和功能模塊。
到了文本挖掘領(lǐng)域,無(wú)監(jiān)督學(xué)習(xí)可以通過(guò)主題模型等技術(shù),發(fā)現(xiàn)文本數(shù)據(jù)中的隱藏主題和語(yǔ)義結(jié)構(gòu)。
再到社交網(wǎng)絡(luò)分析中,無(wú)監(jiān)督學(xué)習(xí)可以幫助識(shí)別社區(qū)結(jié)構(gòu)、關(guān)鍵影響者和信息傳播路徑。
如果是在推薦系統(tǒng)中,無(wú)監(jiān)督學(xué)習(xí)可以通過(guò)分析用戶行為和偏好,提供個(gè)性化的推薦。
簡(jiǎn)單地說(shuō),無(wú)監(jiān)督學(xué)習(xí)的應(yīng)用場(chǎng)景廣泛的亮點(diǎn)將給AI帶來(lái)廣闊的市場(chǎng)空間,在各行各業(yè)都有它的用武之地。
三、無(wú)監(jiān)督學(xué)習(xí)有哪些局限?
當(dāng)人工智能自學(xué)時(shí),它們并不能保證完全能理解所學(xué)的內(nèi)容。在無(wú)監(jiān)督學(xué)習(xí)中,當(dāng)沒(méi)有正確和錯(cuò)誤的例子作為“參考答案”時(shí),人工智能的準(zhǔn)確性可能更難提高。
“人類和動(dòng)物的大部分學(xué)習(xí)都是無(wú)監(jiān)督學(xué)習(xí),”臉書(shū)的首席人工智能科學(xué)家楊立昆說(shuō),“如果智能是一塊蛋糕,無(wú)監(jiān)督學(xué)習(xí)就是蛋糕體,監(jiān)督學(xué)習(xí)就是蛋糕上的糖衣,而強(qiáng)化學(xué)習(xí)就是蛋糕上的櫻桃。我們知道如何制作糖衣和櫻桃,但我們還不知道如何制作蛋糕體。”
由此可見(jiàn),無(wú)監(jiān)督學(xué)習(xí)除了具備諸多亮點(diǎn)以外,也同時(shí)存在著一些局限性,這些局限性也是AI領(lǐng)域的研究人員需要去突破,去克服的挑戰(zhàn)。
1. 學(xué)習(xí)過(guò)程不透明
無(wú)監(jiān)督學(xué)習(xí)可以發(fā)現(xiàn)和利用數(shù)據(jù)中的內(nèi)在結(jié)構(gòu),這種特點(diǎn)很好,但也同樣帶來(lái)了局限,就是模型的學(xué)習(xí)過(guò)程不透明。這意味著無(wú)監(jiān)督學(xué)習(xí)模型通常難以提供對(duì)學(xué)習(xí)過(guò)程的清晰解釋,這也導(dǎo)致我們難以理解模型是如何對(duì)數(shù)據(jù)進(jìn)行學(xué)習(xí)和做出預(yù)測(cè)的。
也正因如此,我們對(duì)模型就無(wú)法形成絕對(duì)的信任。在許多應(yīng)用場(chǎng)景中,尤其是在需要高度責(zé)任和透明度的領(lǐng)域(如醫(yī)療、金融等),模型的不透明性可能導(dǎo)致人們對(duì)其結(jié)果持懷疑態(tài)度。
同時(shí),它也限制了模型的可用性。當(dāng)我們無(wú)法理解模型的工作原理時(shí),我們就難以對(duì)其進(jìn)行改進(jìn)或調(diào)整,也難以將其與其他模型或方法結(jié)合使用。
我們就看市面上諸多的聊天對(duì)話AI產(chǎn)品,它們會(huì)根據(jù)我們提供的問(wèn)題給我們不同的反饋,但是用戶通常是不清楚AI模型是經(jīng)過(guò)了什么樣的數(shù)據(jù)處理過(guò)程后,給出了回答。
回答的質(zhì)量也不穩(wěn)定,有時(shí)候回答得很專業(yè)、全面。有時(shí)候又回答得牛頭不對(duì)馬嘴,或者都是一些空泛的廢話,甚至有時(shí)候還會(huì)一本正經(jīng)地胡說(shuō)八道,如果沒(méi)有一定的判斷能力,被AI的信息誤導(dǎo)也是很有可能的。
如果我們想要得到一些精準(zhǔn)有效的答案,就需要嘗試和摸索出一些Prompt來(lái)調(diào)控AI的回答質(zhì)量。這一切的一切,都是因?yàn)锳I模型的學(xué)習(xí)過(guò)程不透明,我們不清楚從輸入到輸出的這個(gè)過(guò)程中,AI的神經(jīng)網(wǎng)絡(luò)內(nèi)部具體發(fā)生了什么。
為了克服這些挑戰(zhàn),研究人員正在努力提高無(wú)監(jiān)督學(xué)習(xí)模型的可解釋性。一種方法是開(kāi)發(fā)新的算法和技術(shù),讓模型在學(xué)習(xí)過(guò)程中能夠提供更多的解釋信息。另一種方法是結(jié)合其他領(lǐng)域的技術(shù)和方法,如可視化、人機(jī)交互等,來(lái)幫助人們更好地理解模型的工作原理。
2. 對(duì)異常數(shù)據(jù)敏感
由于不依賴于外部提供的標(biāo)簽信息,無(wú)監(jiān)督學(xué)習(xí)算法必須直接從數(shù)據(jù)本身中提取信息,這意味著數(shù)據(jù)中的每一個(gè)細(xì)節(jié)都可能對(duì)學(xué)習(xí)結(jié)果產(chǎn)生重大影響。
如果數(shù)據(jù)集中存在著異常數(shù)據(jù),就像畫(huà)布上有污點(diǎn)或者顏色不均勻一樣,最終的作品多少都會(huì)受到影響。在無(wú)監(jiān)督學(xué)習(xí)中,數(shù)據(jù)中的噪聲和異常值就像畫(huà)布上的“污點(diǎn)”,可能會(huì)扭曲算法對(duì)數(shù)據(jù)內(nèi)在結(jié)構(gòu)的理解,導(dǎo)致學(xué)習(xí)結(jié)果的不準(zhǔn)確。
BTW,補(bǔ)充解釋一下知識(shí)點(diǎn):噪聲和異常值。
噪聲是指數(shù)據(jù)中的隨機(jī)誤差,它們可能是由于測(cè)量不準(zhǔn)確、數(shù)據(jù)傳輸錯(cuò)誤或者數(shù)據(jù)本身的隨機(jī)波動(dòng)所造成。在無(wú)監(jiān)督學(xué)習(xí)中,噪聲可能會(huì)導(dǎo)致算法錯(cuò)誤地將某些模式識(shí)別為重要的結(jié)構(gòu),或者忽視了真正的模式。這就好比在嘈雜的環(huán)境中嘗試聆聽(tīng)一個(gè)微弱的聲音時(shí),噪聲可能會(huì)讓你誤解或者錯(cuò)過(guò)重要的信息。
異常值則是指那些與大多數(shù)數(shù)據(jù)顯著不同的數(shù)據(jù)點(diǎn)。在無(wú)監(jiān)督學(xué)習(xí)中,異常值可能會(huì)對(duì)聚類結(jié)果產(chǎn)生顯著影響,導(dǎo)致算法創(chuàng)建出不符合數(shù)據(jù)真實(shí)分布的簇。這就像是在一群人中,有幾個(gè)人的身高異常高大或者矮小,如果你僅僅根據(jù)身高來(lái)分組,這些異常值可能會(huì)導(dǎo)致你的分組策略失效。
由于這些敏感性,無(wú)監(jiān)督學(xué)習(xí)算法在應(yīng)用時(shí)需要對(duì)數(shù)據(jù)進(jìn)行嚴(yán)格的預(yù)處理,包括數(shù)據(jù)清洗、去除噪聲和異常值、特征選擇和縮放等。這些步驟可以幫助提高數(shù)據(jù)的質(zhì)量,減少對(duì)學(xué)習(xí)結(jié)果的不利影響。
3. 難以準(zhǔn)確評(píng)估模型性能
無(wú)監(jiān)督學(xué)習(xí)作為一種重要的機(jī)器學(xué)習(xí)方法,由于其不依賴外部標(biāo)簽的特性,在某些場(chǎng)景下,我們難以通過(guò)一些量化指標(biāo)來(lái)評(píng)估模型性能,這就意味著,之前我們提到的例如準(zhǔn)確率、召回率、F1分?jǐn)?shù)等指標(biāo),用來(lái)評(píng)估監(jiān)督學(xué)習(xí)模型的準(zhǔn)確性有用,但評(píng)估無(wú)監(jiān)督學(xué)習(xí)的模型性能就不再適用了。
插一嘴,關(guān)于評(píng)估監(jiān)督學(xué)習(xí)中AI模型性能的數(shù)據(jù)指標(biāo),我在這篇《產(chǎn)品經(jīng)理的獨(dú)門(mén)技能—AI監(jiān)督學(xué)習(xí)(6000字干貨)》中有詳細(xì)介紹,感興趣的可以看看。
也正因如此,無(wú)監(jiān)督學(xué)習(xí)模型的評(píng)估往往更加復(fù)雜和主觀。在評(píng)估無(wú)監(jiān)督學(xué)習(xí)模型的性能時(shí),需要綜合考慮多種方法,比如內(nèi)部評(píng)估法、比較法、可視化方法等,并結(jié)合領(lǐng)域?qū)<业膮⑴c和判斷,才能得到較為可靠和全面的評(píng)估結(jié)果。
不過(guò),我相信這只是暫時(shí)的,隨著無(wú)監(jiān)督學(xué)習(xí)研究的深入和應(yīng)用的拓展,未來(lái)會(huì)出現(xiàn)更多有效的評(píng)估方法和指標(biāo),以促進(jìn)無(wú)監(jiān)督學(xué)習(xí)技術(shù)的發(fā)展和應(yīng)用。
4. 難以選擇合適的模型
無(wú)監(jiān)督學(xué)習(xí)領(lǐng)域包含了多種算法,如聚類、降維、自編碼器、生成對(duì)抗網(wǎng)絡(luò)(GANs)等。每種算法都有其特定的適用場(chǎng)景和假設(shè)條件。這些算法不僅多樣還復(fù)雜,我們需要對(duì)算法有深入的了解,才能選擇一個(gè)適合特定數(shù)據(jù)集和問(wèn)題的模型來(lái)應(yīng)對(duì)具體的場(chǎng)景。
場(chǎng)景多樣,算法復(fù)雜,又沒(méi)有可量化的評(píng)估指標(biāo),還有許多超參數(shù)需要調(diào)整,這些因素都導(dǎo)致了我們?cè)趯?shí)際應(yīng)用中,難以選擇合適的模型,拿著不合適的模型去參與訓(xùn)練,自然也無(wú)法達(dá)到理想的訓(xùn)練結(jié)果。
四、監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的區(qū)別
監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)都是機(jī)器學(xué)習(xí)領(lǐng)域的核心方法,監(jiān)督學(xué)習(xí)是一種基于有標(biāo)簽數(shù)據(jù)的機(jī)器學(xué)習(xí)方法,需要通過(guò)給定樣本集目標(biāo)和規(guī)則參數(shù)來(lái)進(jìn)行學(xué)習(xí)。無(wú)監(jiān)督學(xué)習(xí)是一種基于無(wú)標(biāo)簽數(shù)據(jù)的機(jī)器學(xué)習(xí)方法,基于海量數(shù)據(jù)尋找相似性和內(nèi)在關(guān)聯(lián)。
在實(shí)際應(yīng)用中,監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)各展所長(zhǎng),監(jiān)督學(xué)習(xí)在圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域給我們的生活帶來(lái)新的便利。而無(wú)監(jiān)督學(xué)習(xí)則在數(shù)據(jù)挖掘、推薦系統(tǒng)、社交網(wǎng)絡(luò)分析等領(lǐng)域嶄露頭角,為大數(shù)據(jù)時(shí)代提供了全新的視角,如客戶細(xì)分、異常檢測(cè)等。
“兩儀生四象,四象生八卦”,監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)這兩大高手配合,我們的未來(lái)充滿了新的可能。
接下來(lái),我們就來(lái)一起看看監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)有哪些區(qū)別?
1. 數(shù)據(jù)標(biāo)注不同
監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)在數(shù)據(jù)標(biāo)注的要求和方式上不同。前者使用有標(biāo)簽的數(shù)據(jù)集,而后者使用無(wú)標(biāo)簽的數(shù)據(jù)集,我們分別展開(kāi)說(shuō)一下。
【監(jiān)督學(xué)習(xí)】:
監(jiān)督學(xué)習(xí)使用的是有標(biāo)注的數(shù)據(jù)集進(jìn)行訓(xùn)練。依賴于有標(biāo)簽的數(shù)據(jù)就意味著每個(gè)訓(xùn)練樣本都有一個(gè)對(duì)應(yīng)的輸出標(biāo)簽或目標(biāo),這些標(biāo)簽或目標(biāo)通常由專家或通過(guò)其他方法預(yù)先標(biāo)注好。
例如,在圖像識(shí)別任務(wù)中,如果要識(shí)別出不同動(dòng)物,訓(xùn)練集中的每張圖片都已經(jīng)標(biāo)注了它所代表的動(dòng)物類別。監(jiān)督學(xué)習(xí)算法會(huì)學(xué)習(xí)圖像的像素特征與對(duì)應(yīng)的類別標(biāo)簽之間的關(guān)系,以便對(duì)未知圖像進(jìn)行分類。
【無(wú)監(jiān)督學(xué)習(xí)】:
無(wú)監(jiān)督學(xué)習(xí)使用的是未標(biāo)注的數(shù)據(jù)集進(jìn)行訓(xùn)練。沒(méi)有明確的輸出目標(biāo),模型需要自行發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu)或模式。
假設(shè)一家大型零售公司希望了解其客戶群體的結(jié)構(gòu)和購(gòu)買行為,以更好地定制營(yíng)銷策略。公司擁有大量的客戶交易數(shù)據(jù),但這些數(shù)據(jù)沒(méi)有預(yù)先標(biāo)注的客戶類別或細(xì)分市場(chǎng)信息。
無(wú)監(jiān)督學(xué)習(xí)可以分析客戶的購(gòu)買歷史、消費(fèi)頻率、平均消費(fèi)額等特征,無(wú)需任何外部指導(dǎo),自行識(shí)別出不同的客戶群體。
2. 學(xué)習(xí)目標(biāo)不同
監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)在學(xué)習(xí)目標(biāo)上也不同,前者關(guān)注于學(xué)習(xí)輸入與輸出之間的映射關(guān)系,而后者關(guān)注于發(fā)現(xiàn)數(shù)據(jù)中的潛在結(jié)構(gòu)和模式。
【監(jiān)督學(xué)習(xí)】:
監(jiān)督學(xué)習(xí)的目標(biāo)是學(xué)習(xí)一個(gè)函數(shù),該函數(shù)能夠?qū)⑤斎胗成涞较鄳?yīng)的輸出。模型通過(guò)最小化預(yù)測(cè)值與實(shí)際標(biāo)簽之間的差異來(lái)進(jìn)行訓(xùn)練。
如果是在一個(gè)推薦系統(tǒng)中,監(jiān)督學(xué)習(xí)可以用于根據(jù)用戶的歷史行為數(shù)據(jù)預(yù)測(cè)用戶可能感興趣的商品
【無(wú)監(jiān)督學(xué)習(xí)】:
相比之下,無(wú)監(jiān)督學(xué)習(xí)的目標(biāo)更似霧里看花,它的目標(biāo)是發(fā)現(xiàn)數(shù)據(jù)中的隱藏結(jié)構(gòu)或模式,而不關(guān)注具體的輸出。AI模型需要自行捕捉出數(shù)據(jù)的內(nèi)在關(guān)系,如聚類、降維等。
同樣是在一個(gè)推薦系統(tǒng)中,無(wú)監(jiān)督學(xué)習(xí)可以用于發(fā)現(xiàn)用戶之間的相似性,從而實(shí)現(xiàn)個(gè)性化推薦。
3. 算法類型不同
監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)在算法類型上的差異主要體現(xiàn)在它們各自適用的任務(wù)和解決問(wèn)題的方法上。監(jiān)督學(xué)習(xí)算法主要用于解決分類和回歸問(wèn)題,而無(wú)監(jiān)督學(xué)習(xí)算法主要用于發(fā)現(xiàn)數(shù)據(jù)中的模式和結(jié)構(gòu)。
【監(jiān)督學(xué)習(xí)】
監(jiān)督學(xué)習(xí)算法主要包括那些用于解決分類和回歸問(wèn)題的算法。分類問(wèn)題涉及將數(shù)據(jù)點(diǎn)分配到不同的預(yù)定義類別中,而回歸問(wèn)題則涉及預(yù)測(cè)一個(gè)連續(xù)的數(shù)值。
常見(jiàn)的監(jiān)督學(xué)習(xí)算法包括:
線性回歸(Linear Regression):用于預(yù)測(cè)連續(xù)數(shù)值輸出的算法,通過(guò)擬合線性模型來(lái)描述輸入和輸出之間的關(guān)系。
邏輯回歸(Logistic Regression):用于二分類問(wèn)題的算法,通過(guò)邏輯函數(shù)建模,輸出為概率值。
決策樹(shù)(Decision Trees):通過(guò)樹(shù)狀結(jié)構(gòu)進(jìn)行決策,適用于分類和回歸問(wèn)題。
支持向量機(jī)(Support Vector Machines,SVM):用于分類和回歸問(wèn)題的算法,通過(guò)找到最大化類別間間隔的超平面。
K最近鄰(K-Nearest Neighbors,KNN):基于實(shí)例的學(xué)習(xí)方法,通過(guò)測(cè)量輸入與訓(xùn)練集中最近鄰的距離進(jìn)行分類。
隨機(jī)森林(Random Forest):集成學(xué)習(xí)算法,由多個(gè)決策樹(shù)組成,用于分類和回歸。
【無(wú)監(jiān)督學(xué)習(xí)】
無(wú)監(jiān)督學(xué)習(xí)算法不依賴于外部提供的標(biāo)簽信息,它們可以用于探索數(shù)據(jù)集的潛在特征、減少數(shù)據(jù)的維度、發(fā)現(xiàn)數(shù)據(jù)中的異常點(diǎn)或?qū)?shù)據(jù)進(jìn)行聚類。
常見(jiàn)的無(wú)監(jiān)督學(xué)習(xí)算法包括:
K均值聚類(K-Means Clustering):將數(shù)據(jù)分為K個(gè)簇,每個(gè)簇包含相似的數(shù)據(jù)點(diǎn)。
層次聚類(Hierarchical Clustering):基于層次結(jié)構(gòu)將數(shù)據(jù)點(diǎn)組織成樹(shù)狀圖,逐步合并或拆分簇。
主成分分析(Principal Component Analysis,PCA):降維算法,通過(guò)找到數(shù)據(jù)中的主成分來(lái)減少特征的維度。
獨(dú)立成分分析(Independent Component Analysis,ICA):尋找數(shù)據(jù)中相互獨(dú)立的成分,常用于信號(hào)處理。
自編碼器(Autoencoders):一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),用于學(xué)習(xí)數(shù)據(jù)的壓縮表示,常用于降維和特征學(xué)習(xí)。
關(guān)聯(lián)規(guī)則學(xué)習(xí)(Association Rule Learning):用于發(fā)現(xiàn)數(shù)據(jù)集中的關(guān)聯(lián)規(guī)則,例如Apriori算法。
高斯混合模型(Gaussian Mixture Model,GMM):一種概率模型,可以用于聚類和密度估計(jì)。
流形學(xué)習(xí)(Manifold Learning):用于學(xué)習(xí)數(shù)據(jù)的低維表示,以更好地捕捉數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。
4. 性能評(píng)估不同
因?yàn)閿?shù)據(jù)訓(xùn)練的方式和目標(biāo)都不一樣,所以對(duì)無(wú)監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)的性能評(píng)估方式也不同。
【監(jiān)督學(xué)習(xí)】
監(jiān)督學(xué)習(xí)的性能評(píng)估相對(duì)直接,通常通過(guò)與真實(shí)標(biāo)簽的比較來(lái)衡量。在這種情況下,評(píng)估指標(biāo)包括準(zhǔn)確率、召回率、F1分?jǐn)?shù)等。這些指標(biāo)用于衡量模型在不同方面的性能,例如正確分類的比例、模型對(duì)正例的捕獲能力等。
在《產(chǎn)品經(jīng)理的獨(dú)門(mén)技能—AI監(jiān)督學(xué)習(xí)(6000字干貨)》中有更多關(guān)于評(píng)估AI數(shù)據(jù)指標(biāo)的詳解,感興趣的可以看看。
結(jié)合數(shù)據(jù)集后,監(jiān)督學(xué)習(xí)通常將數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集,模型在訓(xùn)練集上學(xué)習(xí),然后在測(cè)試集上評(píng)估性能。還可能使用驗(yàn)證集進(jìn)行模型調(diào)優(yōu)。
【無(wú)監(jiān)督學(xué)習(xí)】
相比之下,無(wú)監(jiān)督學(xué)習(xí)的性能評(píng)估會(huì)更復(fù)雜一些,這也是因?yàn)闊o(wú)標(biāo)簽數(shù)據(jù)來(lái)訓(xùn)練模型,量化評(píng)估的方式在無(wú)監(jiān)督學(xué)習(xí)身上就不起作用。
無(wú)監(jiān)督學(xué)習(xí)的評(píng)估通常依賴于內(nèi)部評(píng)估指標(biāo)或與多個(gè)算法進(jìn)行比較。例如,在聚類任務(wù)中,評(píng)估指標(biāo)可能包括簇內(nèi)相似性和簇間差異性,以及在聚類趨勢(shì)、數(shù)據(jù)簇?cái)?shù)和聚類質(zhì)量方面的考量。
我們先認(rèn)識(shí)一下“什么是簇”。在聚類分析中,簇是指具有相似特征的數(shù)據(jù)點(diǎn)的集合。聚類是一種無(wú)監(jiān)督學(xué)習(xí)方法,其目標(biāo)是將數(shù)據(jù)集中的樣本劃分為不同的簇,使得同一簇內(nèi)的樣本相似度較高,而不同簇之間的相似度較低。
我們?cè)倏础按貎?nèi)相似性”。簇內(nèi)相似性是指在聚類問(wèn)題中,同一簇內(nèi)的樣本彼此之間的相似程度或接近度。
對(duì)于一個(gè)包含多個(gè)樣本的簇,簇內(nèi)相似性的高低反映了這些樣本在特征空間中的緊密程度。如果同一簇內(nèi)的樣本足夠相似,即它們?cè)谔卣骺臻g中的距離較小,那么簇內(nèi)相似性就會(huì)較高。相反,如果簇內(nèi)的樣本相差較大,相似性就會(huì)較低。
知道了“簇內(nèi)相似性”,我們?cè)賮?lái)看“簇間差異性”。在聚類分析中,簇間差異性是指不同簇之間的差異程度。它是通過(guò)衡量不同簇之間樣本的分離程度來(lái)評(píng)估聚類質(zhì)量的一個(gè)指標(biāo)。
簇間差異性越大,表示不同簇之間的樣本差異越顯著,聚類效果越好。好的聚類應(yīng)該使得同一簇內(nèi)的樣本相似,而不同簇之間的樣本有較大的差異。
在實(shí)際應(yīng)用中,簇間差異性的評(píng)估有助于選擇合適的聚類數(shù)目,優(yōu)化聚類算法的參數(shù),以及理解數(shù)據(jù)的聚類結(jié)構(gòu)。
此外,無(wú)監(jiān)督學(xué)習(xí)算法的性能評(píng)估還可能涉及到將無(wú)監(jiān)督學(xué)習(xí)轉(zhuǎn)化為監(jiān)督學(xué)習(xí)的方法。這種方法涉及生成偽標(biāo)簽,然后使用監(jiān)督學(xué)習(xí)中的評(píng)估指標(biāo)。
5. 應(yīng)用場(chǎng)景不同
監(jiān)督學(xué)習(xí)更適用于已知目標(biāo)和標(biāo)簽的應(yīng)用場(chǎng)景 ,而無(wú)監(jiān)督學(xué)習(xí)更適用于數(shù)據(jù)探索和結(jié)構(gòu)發(fā)現(xiàn)的應(yīng)用場(chǎng)景。在實(shí)際應(yīng)用中,它們的選擇依賴于問(wèn)題的性質(zhì)、數(shù)據(jù)的可用性以及建模的目標(biāo)。
【監(jiān)督學(xué)習(xí)】:
監(jiān)督學(xué)習(xí)適用于那些已知輸出情況下的問(wèn)題,包括圖像分類、語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域。應(yīng)用場(chǎng)景也比較比較廣泛,比如識(shí)別照片中的對(duì)象、檢測(cè)圖像中的異常(如疾病檢測(cè))或?qū)D片進(jìn)行分類(如區(qū)分不同類型的花朵)。
在語(yǔ)音識(shí)別中,監(jiān)督學(xué)習(xí)算法能夠識(shí)別和轉(zhuǎn)錄語(yǔ)音信號(hào),應(yīng)用于語(yǔ)音助手、自動(dòng)字幕生成和語(yǔ)音到文本轉(zhuǎn)換。
在自然語(yǔ)言處理(NLP)中,監(jiān)督學(xué)習(xí)用于文本分類(如垃圾郵件檢測(cè))、情感分析(判斷文本表達(dá)的情感是正面還是負(fù)面)、機(jī)器翻譯(如將一種語(yǔ)言翻譯成另一種語(yǔ)言)和實(shí)體識(shí)別(識(shí)別文本中的特定實(shí)體,如人名、地點(diǎn)或組織)。
總之,這些應(yīng)用場(chǎng)景的共同特點(diǎn)是它們都涉及對(duì)輸入數(shù)據(jù)(如圖像、文本、聲音等)進(jìn)行分類、回歸或其他預(yù)測(cè)任務(wù),并且都有足夠的標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練模型。其實(shí),這也是對(duì)應(yīng)了監(jiān)督學(xué)習(xí)的自身特點(diǎn)。
【無(wú)監(jiān)督學(xué)習(xí)】:
與監(jiān)督學(xué)習(xí)相對(duì)應(yīng)的無(wú)監(jiān)督學(xué)習(xí),主要用于發(fā)現(xiàn)數(shù)據(jù)的潛在結(jié)構(gòu),而不需要預(yù)先知道輸出。因此,在數(shù)據(jù)探索、特征學(xué)習(xí)等場(chǎng)景中,無(wú)監(jiān)督學(xué)習(xí)能發(fā)揮較大的作用。
假設(shè),我們有一個(gè)包含大量未標(biāo)注文本的數(shù)據(jù)集,我們希望找到其中的主題結(jié)構(gòu)。無(wú)監(jiān)督學(xué)習(xí)的主題建模算法可以幫助我們自動(dòng)識(shí)別文本中的主題,而無(wú)需預(yù)先定義每個(gè)文本的主題標(biāo)簽。
在我們?nèi)粘?huì)接觸到的工作和生活中,無(wú)監(jiān)督學(xué)習(xí)可以通過(guò)分析社交網(wǎng)絡(luò)中的用戶行為、互動(dòng)和內(nèi)容,幫助識(shí)別社區(qū)結(jié)構(gòu)、關(guān)鍵影響者和信息傳播路徑。
在圖像處理中,無(wú)監(jiān)督學(xué)習(xí)可以用于自動(dòng)分割圖像中的對(duì)象,這在醫(yī)學(xué)影像分析中尤其有用,如自動(dòng)識(shí)別和分割腫瘤組織。
無(wú)監(jiān)督學(xué)習(xí)還可以用于識(shí)別時(shí)間序列數(shù)據(jù)中的模式和趨勢(shì),如股票價(jià)格走勢(shì)分析、天氣模式預(yù)測(cè)等。
看了多個(gè)場(chǎng)景后,我們就能發(fā)現(xiàn)無(wú)監(jiān)督學(xué)習(xí)的應(yīng)用場(chǎng)景共性,就是它們都需要處理大量未標(biāo)記的數(shù)據(jù),并從中提取有用的信息和結(jié)構(gòu)。無(wú)監(jiān)督學(xué)習(xí)也正是現(xiàn)在的熱門(mén)研究領(lǐng)域,相信其未來(lái)一定會(huì)發(fā)揮更大的作用。
五、總結(jié)與預(yù)告
在最后,我們來(lái)總結(jié)一下,本篇首先介紹了無(wú)監(jiān)督學(xué)習(xí)的基本概念,它是一種機(jī)器學(xué)習(xí)方法,不需要外部標(biāo)簽或指導(dǎo),能夠自主發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu)和模式。
第二段介紹了無(wú)監(jiān)督學(xué)習(xí)的亮點(diǎn),無(wú)需人工標(biāo)注大量數(shù)據(jù),能夠發(fā)現(xiàn)數(shù)據(jù)內(nèi)在結(jié)構(gòu),能實(shí)現(xiàn)自主學(xué)習(xí),也能適用于廣泛的場(chǎng)景。
在第三段,提到了無(wú)監(jiān)督學(xué)習(xí)的局限,如學(xué)習(xí)過(guò)程不透明,對(duì)異常數(shù)據(jù)敏感,難以準(zhǔn)確評(píng)估模型性能,以及難以選擇合適的模型。
最后,我將監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)進(jìn)行了對(duì)比,兩者在數(shù)據(jù)標(biāo)注、學(xué)習(xí)目標(biāo)、算法類型、性能評(píng)估和應(yīng)用場(chǎng)景等方面都有所不同,各有千秋。
關(guān)于無(wú)監(jiān)督學(xué)習(xí)的內(nèi)容不僅僅只有這些,我也會(huì)在此平臺(tái)持續(xù)更新關(guān)于無(wú)監(jiān)督學(xué)習(xí)和AI相關(guān)知識(shí)的更多內(nèi)容。
簡(jiǎn)單預(yù)告一下,后續(xù)的篇章我會(huì)繼續(xù)和大家聊聊無(wú)監(jiān)督學(xué)習(xí),會(huì)涉及到無(wú)監(jiān)督學(xué)習(xí)的算法,無(wú)監(jiān)督學(xué)習(xí)的落地場(chǎng)景和產(chǎn)品案例等內(nèi)容。
AI的天空很廣,我們一起飛翔。
作者:果釀,公眾號(hào):果釀產(chǎn)品說(shuō)
本文由 @果釀 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!