久久久久久久99精品免费观看,黄色免费网站在线观看,国产在线一区在线视频

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

【入門科普】機(jī)器學(xué)習(xí)的四個(gè)步驟

李文杰

2024-03-07

0 評(píng)論 952 瀏覽 4 收藏

6 分鐘

在學(xué)習(xí)人工智能之前，我們大多都需要提前了解一些有關(guān)機(jī)器學(xué)習(xí)的內(nèi)容。這篇文章里，作者就闡述了機(jī)器學(xué)習(xí)訓(xùn)練“模型”的幾個(gè)步驟，一起來看看。

學(xué)習(xí)人工智能，必須要了解機(jī)器學(xué)習(xí)。

我們可以把機(jī)器學(xué)習(xí)比喻成大腦學(xué)習(xí)。

大腦學(xué)習(xí)的成果是“智慧”，機(jī)器學(xué)習(xí)的成果就是“模型”。

機(jī)器學(xué)習(xí)訓(xùn)練“模型”有四個(gè)步驟：

第一步：“收集數(shù)據(jù)”好比“收集知識(shí)”
第二步：“訓(xùn)練模型”好比“消化理解”
第三步：“模型評(píng)估”好比“考試打分”
第四步：“模型部署”好比“走進(jìn)社會(huì)”

一、收集數(shù)據(jù)

機(jī)器學(xué)習(xí)的基本理念是使用過去學(xué)習(xí)到的經(jīng)驗(yàn)知識(shí)來預(yù)測新的問題，這個(gè)和大腦學(xué)習(xí)過程很像，我們需要見多識(shí)廣，收集大量數(shù)據(jù)。

為訓(xùn)練模型收集到的數(shù)據(jù)隨機(jī)分成兩部分：

訓(xùn)練數(shù)據(jù)集：用于“消化理解”的題目
測試數(shù)據(jù)集：用于“考試打分”的題目

這些題目在機(jī)器學(xué)習(xí)里稱之為“樣本”。

“token”則是指數(shù)據(jù)集中最小有意義單元，如：一個(gè)單詞、一個(gè)數(shù)字、一個(gè)漢字。

一般用token量來表示所用到的數(shù)據(jù)集大小；據(jù)說GPT4用了13萬億token用于訓(xùn)練。

二、訓(xùn)練模型

“智慧”從題目中的“信息”中推理出“答案”；

“模型”從樣本中的“特征”中推理出“標(biāo)簽”。

以一個(gè)預(yù)測冰激凌銷售收入的模型為案例：

特征：氣溫x1、降雨量x2、是否節(jié)假日x3…

標(biāo)簽：收入y

y = f(x1,x2,x3….)

機(jī)器學(xué)習(xí)最神奇的事情就是科學(xué)家們會(huì)選擇合適的數(shù)學(xué)算法，這種算法可以從大量由x和y組成的樣本里自行推導(dǎo)出f。

那些天才科學(xué)家們發(fā)明過很多算法，還起了讓人一臉懵逼的算法名稱比如：“隨機(jī)森林”、“k近鄰算法”、“生成對(duì)抗”、“支持向量機(jī)” 等等。

除了算法，我們還常聽到模型的“參數(shù)”，它是指那些可調(diào)整的變量，用于控制模型的行為和性能。

最常見的一種參數(shù)是“權(quán)重參數(shù)”；

可以理解為是函數(shù)里的a、b、c

y = f(ax1,ax2,cx3….)

據(jù)說GPT4參數(shù)量達(dá)到了恐怖的1.8萬億。

三、模型評(píng)估

很多時(shí)候我們自以為對(duì)知識(shí)“消化理解”了，但真正要用的時(shí)候卻經(jīng)常出錯(cuò)，我們需要“考試打分”這一環(huán)節(jié)幫我們把把關(guān)，這不僅僅是為了向社會(huì)證明我們應(yīng)該具備了某種能力，更重要的是可以指導(dǎo)我們?nèi)绾芜M(jìn)行查漏補(bǔ)缺。

在機(jī)器學(xué)習(xí)里，用“測試數(shù)據(jù)集”去考驗(yàn)“f”并給出一個(gè)評(píng)價(jià)分?jǐn)?shù)的過程就是模型評(píng)估。

常見的術(shù)語有：

1）過擬合：訓(xùn)練高分但考試低分

模型在訓(xùn)練集上的表現(xiàn)好，但是在測試集上的表現(xiàn)不佳。

2）泛化：能夠舉一反三的能力

指訓(xùn)練好的模型對(duì)未見過的數(shù)據(jù)的適應(yīng)能力。

3）精度：答對(duì)的題目數(shù)/題目總數(shù)

模型預(yù)測正確的樣本數(shù)占總樣本的比例。

所謂的“模型迭代”就是通過不斷優(yōu)化或新增訓(xùn)練數(shù)據(jù)集，選擇更合適的“算法”或者“參數(shù)”去訓(xùn)練出新的“f”，以便能在測試數(shù)據(jù)集中拿到一個(gè)更高的分?jǐn)?shù)。

四、模型部署

就像“考試打分”不是我們學(xué)習(xí)最終目的，模型評(píng)估的分?jǐn)?shù)就算再高也要“走進(jìn)社會(huì)”去部署運(yùn)用才能發(fā)揮模型真正的價(jià)值。

學(xué)海無涯，機(jī)器學(xué)習(xí)同樣如此，模型部署是下一輪機(jī)器學(xué)習(xí)的開始。對(duì)于已部署生產(chǎn)環(huán)境的模型需要建立監(jiān)控機(jī)制，定期監(jiān)測模型性能和預(yù)測結(jié)果，及時(shí)發(fā)現(xiàn)并解決模型退化或失效的問題，在使用者允許的情況下在生產(chǎn)環(huán)境所遇到的新情況也會(huì)是下一輪“收集數(shù)據(jù)”的樣本，以便不斷提高模型的準(zhǔn)確性。

本文簡單概述了機(jī)器學(xué)習(xí)的四個(gè)步驟。

機(jī)器學(xué)習(xí)和大腦學(xué)習(xí)很像；