【入門科普】機(jī)器學(xué)習(xí)的四個(gè)步驟
在學(xué)習(xí)人工智能之前,我們大多都需要提前了解一些有關(guān)機(jī)器學(xué)習(xí)的內(nèi)容。這篇文章里,作者就闡述了機(jī)器學(xué)習(xí)訓(xùn)練“模型”的幾個(gè)步驟,一起來看看。
學(xué)習(xí)人工智能,必須要了解機(jī)器學(xué)習(xí)。
我們可以把機(jī)器學(xué)習(xí)比喻成大腦學(xué)習(xí)。
大腦學(xué)習(xí)的成果是“智慧”,機(jī)器學(xué)習(xí)的成果就是“模型”。
機(jī)器學(xué)習(xí)訓(xùn)練“模型”有四個(gè)步驟:
- 第一步:“收集數(shù)據(jù)”好比“收集知識(shí)”
- 第二步:“訓(xùn)練模型”好比“消化理解”
- 第三步:“模型評(píng)估”好比“考試打分”
- 第四步:“模型部署”好比“走進(jìn)社會(huì)”
一、收集數(shù)據(jù)
機(jī)器學(xué)習(xí)的基本理念是使用過去學(xué)習(xí)到的經(jīng)驗(yàn)知識(shí)來預(yù)測新的問題,這個(gè)和大腦學(xué)習(xí)過程很像,我們需要見多識(shí)廣,收集大量數(shù)據(jù)。
為訓(xùn)練模型收集到的數(shù)據(jù)隨機(jī)分成兩部分:
- 訓(xùn)練數(shù)據(jù)集:用于“消化理解”的題目
- 測試數(shù)據(jù)集:用于“考試打分”的題目
這些題目在機(jī)器學(xué)習(xí)里稱之為“樣本”。
“token”則是指數(shù)據(jù)集中最小有意義單元,如:一個(gè)單詞、一個(gè)數(shù)字、一個(gè)漢字。
一般用token量來表示所用到的數(shù)據(jù)集大小;據(jù)說GPT4用了13萬億token用于訓(xùn)練。
二、訓(xùn)練模型
“智慧”從題目中的“信息”中推理出“答案”;
“模型”從樣本中的“特征”中推理出“標(biāo)簽”。
以一個(gè)預(yù)測冰激凌銷售收入的模型為案例:
特征:氣溫x1、降雨量x2、是否節(jié)假日x3…
標(biāo)簽:收入y
y = f(x1,x2,x3….)
機(jī)器學(xué)習(xí)最神奇的事情就是科學(xué)家們會(huì)選擇合適的數(shù)學(xué)算法,這種算法可以從大量由x和y組成的樣本里自行推導(dǎo)出f。
那些天才科學(xué)家們發(fā)明過很多算法,還起了讓人一臉懵逼的算法名稱比如:“隨機(jī)森林”、“k近鄰算法”、“生成對(duì)抗”、“支持向量機(jī)” 等等。
除了算法,我們還常聽到模型的“參數(shù)”,它是指那些可調(diào)整的變量,用于控制模型的行為和性能。
最常見的一種參數(shù)是“權(quán)重參數(shù)”;
可以理解為是函數(shù)里的a、b、c
y = f(ax1,ax2,cx3….)
據(jù)說GPT4參數(shù)量達(dá)到了恐怖的1.8萬億。
三、模型評(píng)估
很多時(shí)候我們自以為對(duì)知識(shí)“消化理解”了,但真正要用的時(shí)候卻經(jīng)常出錯(cuò),我們需要“考試打分”這一環(huán)節(jié)幫我們把把關(guān),這不僅僅是為了向社會(huì)證明我們應(yīng)該具備了某種能力,更重要的是可以指導(dǎo)我們?nèi)绾芜M(jìn)行查漏補(bǔ)缺。
在機(jī)器學(xué)習(xí)里,用“測試數(shù)據(jù)集”去考驗(yàn)“f”并給出一個(gè)評(píng)價(jià)分?jǐn)?shù)的過程就是模型評(píng)估。
常見的術(shù)語有:
1)過擬合:訓(xùn)練高分但考試低分
模型在訓(xùn)練集上的表現(xiàn)好,但是在測試集上的表現(xiàn)不佳。
2)泛化:能夠舉一反三的能力
指訓(xùn)練好的模型對(duì)未見過的數(shù)據(jù)的適應(yīng)能力。
3)精度:答對(duì)的題目數(shù)/題目總數(shù)
模型預(yù)測正確的樣本數(shù)占總樣本的比例。
所謂的“模型迭代”就是通過不斷優(yōu)化或新增訓(xùn)練數(shù)據(jù)集,選擇更合適的“算法”或者“參數(shù)”去訓(xùn)練出新的“f”,以便能在測試數(shù)據(jù)集中拿到一個(gè)更高的分?jǐn)?shù)。
四、模型部署
就像“考試打分”不是我們學(xué)習(xí)最終目的,模型評(píng)估的分?jǐn)?shù)就算再高也要“走進(jìn)社會(huì)”去部署運(yùn)用才能發(fā)揮模型真正的價(jià)值。
學(xué)海無涯,機(jī)器學(xué)習(xí)同樣如此,模型部署是下一輪機(jī)器學(xué)習(xí)的開始。對(duì)于已部署生產(chǎn)環(huán)境的模型需要建立監(jiān)控機(jī)制,定期監(jiān)測模型性能和預(yù)測結(jié)果,及時(shí)發(fā)現(xiàn)并解決模型退化或失效的問題,在使用者允許的情況下在生產(chǎn)環(huán)境所遇到的新情況也會(huì)是下一輪“收集數(shù)據(jù)”的樣本,以便不斷提高模型的準(zhǔn)確性。
本文簡單概述了機(jī)器學(xué)習(xí)的四個(gè)步驟。
機(jī)器學(xué)習(xí)和大腦學(xué)習(xí)很像;
- “收集數(shù)據(jù)”是“學(xué)習(xí)準(zhǔn)備”;
- “訓(xùn)練模型”是“埋頭苦學(xué)”;
- “模型評(píng)估”是“反思復(fù)盤”;
- “模型部署”是“大展拳腳”。
八字口訣:“收集訓(xùn)練評(píng)估部署”。
世界變化只會(huì)越來越快,我們一起學(xué)習(xí)AI知識(shí),緊跟時(shí)代潮流~
相關(guān)閱讀:
《AI三要素:數(shù)據(jù)、算法、算力 ——【入門科普】》
本文由 @李文杰 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒評(píng)論,等你發(fā)揮!