如何用數(shù)學(xué)函數(shù)去理解機器學(xué)習(xí)?
本文主要分享了如何基于數(shù)學(xué)函數(shù)原理去理解機器學(xué)習(xí)的本質(zhì),并簡要介紹了機器學(xué)習(xí)的過程。
近期也是在做項目的過程中發(fā)現(xiàn),其實AI產(chǎn)品經(jīng)理不需要深入研究每一種算法,能了解機器學(xué)習(xí)的過程,這其中用到哪些常用算法,分別使用與解決哪些問題和應(yīng)用場景,并基于了解的知識,去更好的建立AI產(chǎn)品落地流程、把控項目進(jìn)度、風(fēng)險評估,這個才是最關(guān)鍵的地方,算法研究交給專業(yè)的算法工程師,各司其職,相互配合。
基于最近看的一些文章和書籍,本文將重點分享,如何用數(shù)學(xué)函數(shù)去理解機器學(xué)習(xí)的過程,以及用數(shù)學(xué)原理指導(dǎo)產(chǎn)品工作的一些思考。
一、機器學(xué)習(xí)的本質(zhì)
機器學(xué)習(xí),即學(xué)習(xí)人類的分析、判斷、解決問題的能力。人的能力如何得來?通過長期的信息輸入,再經(jīng)過大腦思考,最后輸出對事物的判斷。
那么機器如何學(xué)習(xí)?通過大量的訓(xùn)練數(shù)據(jù),學(xué)習(xí)找規(guī)律,找到問題的理想最優(yōu)解。所以,機器學(xué)習(xí)的本質(zhì)其實是函數(shù)預(yù)測,即f:x->y。
圖片來源:網(wǎng)絡(luò)
中學(xué)時期,我們常解的數(shù)據(jù)問題之一便是:求解方程。已知坐標(biāo)(x1,y1),(x2,y2)…(xn,yn)求解n元n次方程,再將新的x帶入方程對應(yīng)的y。機器學(xué)習(xí)的過程可以類比方程求解過程:
- 樣本數(shù)據(jù):已知的坐標(biāo)集D:(x1,y1),(x2,y2)…(xn,yn);
- 算法:即求解函數(shù)的方法;
- 模型訓(xùn)練:最后求解的方程或函數(shù);
- 評估方法:將新的x帶入方程驗證函數(shù)“預(yù)測”是否正確。
與普通的函數(shù)不同的是,機器學(xué)習(xí)往往很難求解出完整的方程,通過各種手段求最接近理想情況下的未知項取值。以人臉識別為例,預(yù)測函數(shù)為:f:X(圖片臉部特征)—>Y(身份),其中f則是通過機器學(xué)習(xí)后,具有人臉識別能力的模型。使用不同的機器學(xué)習(xí)方法訓(xùn)練的模型不同,即對應(yīng)的函數(shù)形式也不同。
機器學(xué)習(xí)解決的常見四類問題:分類、聚類、排序和推薦。
(1)分類問題:一般包括二分類和多分類的問題,二分類即非黑即白,比如垃圾郵件過濾;多分類問題,即有多種類別的輸出結(jié)果,比如圖像識別。
(2)聚類問題:在一個集合中,將相似度高的對象組成多個類的過程叫聚類。比如一些新聞類的應(yīng)用,將未標(biāo)注的數(shù)據(jù)通過聚類算法來構(gòu)建主題。
(3)排序問題:根據(jù)相關(guān)度、重要度、匹配度等,讓用戶在海量的信息中找到想要的信息,常見的應(yīng)用場景,如搜索引擎。
(4)推薦問題:典型的應(yīng)用場景,電商行業(yè)的千人千面,根據(jù)用戶的購買、收藏等行為,分析用戶的喜好,實現(xiàn)精準(zhǔn)營銷。
在理解了機器學(xué)習(xí)的本質(zhì)以及常見的問題類型后,下面將介紹機器學(xué)習(xí)的過程。
二、機器學(xué)習(xí)的過程
機器學(xué)習(xí)的過程主要分為三個步驟:樣本準(zhǔn)備、算法選取、模型評估。
1. 樣本準(zhǔn)備
機器學(xué)習(xí),需要先學(xué)習(xí)才能預(yù)測判斷,樣本則是機器學(xué)習(xí)的信息輸入,樣本的質(zhì)量很大程度上決定了機器學(xué)習(xí)的效果。以人臉識別為例,其樣本是大量的人臉圖片。那么,大量的樣本如何獲???按數(shù)據(jù)來源分類,可分為內(nèi)部樣本和外部樣本。
(1)內(nèi)部樣本
內(nèi)部樣本數(shù)據(jù),一般可基于內(nèi)部已積累的樣本數(shù)據(jù),或通過對產(chǎn)品進(jìn)行數(shù)據(jù)標(biāo)注或者埋點,來收集更多維度的樣本數(shù)據(jù)。
(2)外部樣本
若數(shù)據(jù)的量級或豐富度不夠,則可能需要獲取一些外部樣本。比如通過搜索典型的大型公開數(shù)據(jù)集,或者數(shù)據(jù)爬取等方式,來獲取一些指定場景的新樣本。
2. 算法選取
在機器學(xué)習(xí)的過程中,找到接近理想模型(函數(shù))的方法即算法。機器學(xué)習(xí)的常用算法很多,不同的算法,解決的問題不同,適用的場景也不同。
如下圖,比如解決聚類問題,一般使用無監(jiān)督學(xué)習(xí)算法,分類問題,一般使用有監(jiān)督學(xué)習(xí)算法:支持向量機SVM、神經(jīng)網(wǎng)絡(luò)等,目前神經(jīng)網(wǎng)絡(luò)依然是研究熱點之一。
(1)神經(jīng)網(wǎng)絡(luò)原理
神經(jīng)網(wǎng)絡(luò)是一種模仿人類思考方式的模型,就像飛機模仿鳥的形態(tài)一樣,神經(jīng)網(wǎng)絡(luò)也借鑒了生物學(xué)的神經(jīng)元結(jié)構(gòu)。神經(jīng)元細(xì)胞主要由樹突、軸突和細(xì)胞體構(gòu)成,樹突用于接收信號并傳遞給細(xì)胞體,細(xì)胞體處理信號,軸突輸出信號。神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與此類似,一個典型的單隱含層神經(jīng)網(wǎng)絡(luò)架構(gòu)如下圖:
圖片來源:網(wǎng)絡(luò)
- 輸入層:接收輸入數(shù)據(jù),如圖片、語音特征等;
- 隱藏層:承載數(shù)據(jù)特征運算;
- 輸出層:輸出計算的結(jié)果;
其本質(zhì)是,通過調(diào)整內(nèi)部大量處理單元的連接關(guān)系、激勵函數(shù)和權(quán)重值,實現(xiàn)對理想函數(shù)的逼近。
(2)深度學(xué)習(xí)
深度學(xué)習(xí)是神經(jīng)網(wǎng)絡(luò)的一種算法,目前在計算機視覺等領(lǐng)域應(yīng)用十分廣泛,相比單隱藏層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)是一種多隱藏層、多層感知器的學(xué)習(xí)結(jié)構(gòu)。如下圖所示,增加更多的隱藏層后,網(wǎng)絡(luò)能更深入得表示特征,以及具有更強的函數(shù)模擬能力,能獲得更好的分類能力。
圖片來源:網(wǎng)絡(luò)
深度學(xué)習(xí)三類經(jīng)典的神經(jīng)網(wǎng)絡(luò)分別是:深度神經(jīng)網(wǎng)絡(luò)DNN、卷積神經(jīng)網(wǎng)絡(luò)CNN、和循環(huán)神經(jīng)網(wǎng)絡(luò)RNN。其中DNN、CNN一般解決計算機視覺、圖像識別等分類問題,RNN適用于自然語言處理等問題。
基于大量的樣本、選取合適的算法進(jìn)行模型訓(xùn)練后,下一步則是對模型的預(yù)測效果進(jìn)行評估。
3. 模型評估
模型評估一般可分為兩個階段:實驗階段和上線階段,在實驗階段能達(dá)到一定的使用標(biāo)準(zhǔn)指標(biāo),才能進(jìn)入實際上線使用階段。
(1)實驗階段
為了評估模型的可用性,需要對模型的預(yù)測能力進(jìn)行評價,其中很重要的一個評價指標(biāo)就是準(zhǔn)確率,即模型預(yù)測和標(biāo)簽一致的樣本占所有樣本的比例。即選擇不同于訓(xùn)練數(shù)據(jù)的,有標(biāo)簽數(shù)據(jù)的測試集,輸入模型進(jìn)行運算,計算預(yù)測的準(zhǔn)確率,評估模型對于測試集的預(yù)測效果是否能模型可用指標(biāo)。
(2)上線階段
在模型投入使用后,基于上線后的真實數(shù)據(jù)反饋,評估模型的能力,并基于新的反饋數(shù)據(jù),持續(xù)迭代優(yōu)化模型,提高或保持模型的泛化能力。
三、總結(jié)與思考
作為產(chǎn)品賦能的一個“工具”,產(chǎn)品化的整個流程可總結(jié)為:業(yè)務(wù)需求->轉(zhuǎn)化為業(yè)務(wù)函數(shù)>樣本數(shù)據(jù)獲取->選擇合適的算法->模型訓(xùn)練->內(nèi)部評估->上線驗證迭代。
其實這個過程,最底層的邏輯還是基于數(shù)學(xué)建模原理的思路來解決問題,也可用來指導(dǎo)一些日常產(chǎn)品工作中的問題。比如,《增長黑客》中的增長杠桿、北極星指標(biāo)等方法,其本質(zhì)也是數(shù)據(jù)建模的原理。定義業(yè)務(wù)函數(shù)、確定影響因素、權(quán)重成本分析、判斷最優(yōu)解決方案,評估上線反饋形成閉環(huán)。
所有,很多問題表面看起來各式各樣、各不相同,但抽象出來可能就是一些學(xué)科問題,比如數(shù)學(xué)、物理、經(jīng)濟學(xué)等,聯(lián)想到我前段時間分享的一篇文章 《透過《奇葩說》論點,看背后的多元思維模型》中提到的多元思維模型核心觀點——越往深層次思考,越能挖掘事物本質(zhì),越接近學(xué)科原理。
愿我們都能掌握一把尚方寶劍,一路“升級打怪”、“斬妖除魔”……
作者:小譚同學(xué);微信公眾號:斜杠產(chǎn)品汪
本文由 @小譚同學(xué) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
- 目前還沒評論,等你發(fā)揮!