從業(yè)務(wù)視角解析人工智能機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法和使用場(chǎng)景

0 評(píng)論 2148 瀏覽 0 收藏 29 分鐘

目前有很多講解機(jī)器學(xué)習(xí)算法模型的文獻(xiàn)資料,但本文不涉及復(fù)雜的數(shù)學(xué)公式,旨在從業(yè)務(wù)的視角出發(fā)深入淺出地解析機(jī)器學(xué)習(xí)的常用經(jīng)典模型原理和使用場(chǎng)景,總結(jié)在不同業(yè)務(wù)場(chǎng)景中機(jī)器學(xué)習(xí)起到的作用和一些實(shí)際的思考。

回顧人工智能的發(fā)展歷程,機(jī)器學(xué)習(xí)無(wú)疑是推動(dòng)其從理論走向?qū)嵺`的一個(gè)重要里程碑,它不僅讓機(jī)器學(xué)會(huì)了從數(shù)據(jù)中提取知識(shí)、讓機(jī)器有了解決復(fù)雜問(wèn)題的能力,更是重塑了各行各業(yè)的業(yè)務(wù)版圖,極大地拓寬了人工智能的應(yīng)用邊界。

雖然與目前主流的神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)領(lǐng)域算法相比,機(jī)器學(xué)習(xí)在模型效果、所需人力和對(duì)復(fù)雜任務(wù)的處理上比較劣勢(shì),但其由于廣泛的適用性、靈活性和可解釋性,部分算法模型依然有著不可替代的作用。

一、機(jī)器學(xué)習(xí)經(jīng)典五大模型和應(yīng)用解析

機(jī)器學(xué)習(xí)模型包括無(wú)監(jiān)督學(xué)習(xí)模型和有監(jiān)督學(xué)習(xí)模型,本文講五個(gè)比較經(jīng)典的模型,分別為:樹(shù)模型、聚類模型、集成模型、支持向量機(jī)和貝葉斯模型,其中樹(shù)模型和支持向量機(jī)是有監(jiān)督學(xué)習(xí)模型,聚類模型是無(wú)監(jiān)督學(xué)習(xí)模型,而集成模型和貝葉斯模型根據(jù)具體業(yè)務(wù)應(yīng)用而定。目前應(yīng)用依然廣泛的是樹(shù)模型和集成(隨機(jī)森林)模型。

1.1 樹(shù)模型

如果說(shuō)機(jī)器學(xué)習(xí)領(lǐng)域選一個(gè)模型代表的話,那就是樹(shù)模型,由于深度學(xué)習(xí)的崛起,其他的模型已被神經(jīng)網(wǎng)絡(luò)所取代,但是樹(shù)模型的應(yīng)用至今還特別多,神經(jīng)網(wǎng)絡(luò)模型在大多數(shù)情況下的建模效果比較好,但也有很多不適用的場(chǎng)景,比如要在短視頻平臺(tái)加實(shí)時(shí)特效,第一步要找到人臉或者身體所在的位置,比如人的眼睛鼻子嘴巴、手等等,這叫關(guān)鍵點(diǎn)的定位,然后在對(duì)應(yīng)的部位加效果,比如我想變成美國(guó)隊(duì)長(zhǎng),那就需要先檢測(cè)到手,然后加上盾牌。

如果用神經(jīng)網(wǎng)絡(luò)去實(shí)現(xiàn)它,在手機(jī)上跑起來(lái)會(huì)很慢,無(wú)法達(dá)到實(shí)時(shí)性的要求,但是大家使用過(guò)都知道,現(xiàn)在短視頻平臺(tái)的特效是隨著人物一直在跟著動(dòng)的,實(shí)時(shí)性很強(qiáng),這就是使用樹(shù)模型實(shí)現(xiàn)的效果。雖然樹(shù)模型在泛化能力和處理復(fù)雜關(guān)系能力等方面不及神經(jīng)網(wǎng)絡(luò),但它的速度非???,這是樹(shù)模型的第一個(gè)優(yōu)勢(shì),也是它還能廣泛應(yīng)用的一個(gè)最大原因。

第二個(gè)優(yōu)點(diǎn)是什么呢?當(dāng)我們用神經(jīng)網(wǎng)絡(luò)做建模的時(shí)候,任務(wù)從前到后的整個(gè)流程不可解釋,它就像一個(gè)黑盒子,我們只知道達(dá)到了一個(gè)結(jié)果,它里面有成百上千萬(wàn)個(gè)參數(shù),我們不知道每個(gè)參數(shù)的實(shí)際意義,過(guò)程是怎么實(shí)現(xiàn)的不能去觀測(cè)。但是在機(jī)器學(xué)習(xí)使用的場(chǎng)景當(dāng)中,我們對(duì)每一個(gè)業(yè)務(wù)的邏輯和影響結(jié)果好壞的關(guān)鍵因素要分析,以便能更好地提升業(yè)務(wù)能力,所以神經(jīng)網(wǎng)絡(luò)就不適用于這種場(chǎng)合,但是樹(shù)模型的每一個(gè)決策過(guò)程都是清晰的。舉個(gè)例子,我們要從這五個(gè)人里面篩選出年齡小于15歲的女性,樹(shù)模型會(huì)先做年齡判斷,再通過(guò)性別做判斷,每一步(或者叫每一個(gè)節(jié)點(diǎn))的決策邏輯非常明顯。

所以綜合起來(lái),樹(shù)模型之所以沒(méi)有被神經(jīng)網(wǎng)絡(luò)所取代最主要的兩大優(yōu)勢(shì)就是:

  1. 速度快,適合實(shí)時(shí)性要求高的場(chǎng)景
  2. 模型的決策節(jié)點(diǎn)可解釋

1.2 聚類模型

在上一篇我們講過(guò),機(jī)器學(xué)習(xí)的三大核心任務(wù)是分類、回歸和聚類,聚類是對(duì)沒(méi)有標(biāo)簽的數(shù)據(jù)進(jìn)行切分,屬于無(wú)監(jiān)督學(xué)習(xí)。

用一個(gè)簡(jiǎn)單的demo來(lái)理解聚類,可以想象下我們身邊的小團(tuán)體,大家都把自己范圍內(nèi)的人拉進(jìn)團(tuán)體中,在這個(gè)范圍當(dāng)中我們并沒(méi)有一個(gè)數(shù)據(jù)標(biāo)簽,如果把每一個(gè)人看作是一個(gè)點(diǎn),最開(kāi)始的那個(gè)點(diǎn)屬于什么類別我們不知道,大家都是盲目地從眾,那怎么判斷類別呢?是通過(guò)密度的方式,在這個(gè)任務(wù)當(dāng)中,我們隨機(jī)找一個(gè)點(diǎn)為初始點(diǎn),假如以1為半徑畫(huà)圈,但凡圈到的點(diǎn)都是初始點(diǎn)自己的團(tuán)體,被圈到的下一個(gè)點(diǎn)再以1為半徑畫(huà)圈,圈到的點(diǎn)同樣屬于這個(gè)團(tuán)體,直到實(shí)在找不到一個(gè)在半徑1范圍內(nèi)的點(diǎn)了,那剩下的就是其他類別了。

在這個(gè)例子中,紅色和藍(lán)色部分都以1為半徑圈完了自己的團(tuán)體,剩下的上面部分是下一個(gè)需要被分類的點(diǎn)集:

這樣聚完堆之后就把數(shù)據(jù)分成了三類,在這個(gè)demo中可以看出,聚類任務(wù)是沒(méi)有標(biāo)簽,只有數(shù)據(jù)的時(shí)候也把數(shù)據(jù)做切分。

我剛才提到了半徑,當(dāng)半徑設(shè)置得比較大的時(shí)候,比如設(shè)置成1.42,我們可以看出在這個(gè)任務(wù)當(dāng)中只得到紅色一個(gè)類別:

在半徑比較小的時(shí)候,比如設(shè)置成0.6,就得到了很多類別:

以上演示的方法叫K均值聚類,K是我們需要把數(shù)據(jù)分成的類別數(shù)量。因?yàn)榫垲惸P椭挥袛?shù)據(jù),沒(méi)有標(biāo)簽,模型不能通過(guò)輸入和輸出之間的關(guān)系來(lái)學(xué)習(xí),所以選擇半徑一般只能憑經(jīng)驗(yàn)或者不斷去嘗試。

在實(shí)際應(yīng)用場(chǎng)景當(dāng)中,不用人工打標(biāo)簽確實(shí)可以節(jié)省人力成本,但業(yè)務(wù)負(fù)責(zé)的人肯定想知道這么分類依據(jù)是什么,或者在任務(wù)當(dāng)中怎么證明圈出來(lái)的點(diǎn)是異常的,聚類模型決策的過(guò)程很難展示,所以在處理一個(gè)任務(wù)時(shí)寧愿請(qǐng)人工來(lái)打標(biāo)簽再使用其他的算法模型,首選模型通常都不會(huì)是聚類,因?yàn)闆](méi)有任何實(shí)用性的指導(dǎo)價(jià)值,它只是把數(shù)據(jù)做一個(gè)切分,至于為什么那樣切分和切分的結(jié)果是不是合理都無(wú)從知曉,聚類模型只是得到一個(gè)結(jié)果而已。

所以從業(yè)務(wù)視角總結(jié)聚類模型的優(yōu)勢(shì)和劣勢(shì):

  • 優(yōu)勢(shì)是比較簡(jiǎn)單高效,也不用打標(biāo)簽,節(jié)省人力成本
  • 劣勢(shì)是:1.對(duì)于初始聚類的中心點(diǎn)和半徑需要不斷試驗(yàn)才能得到滿意的效果;2.模型決策過(guò)程不可解釋,對(duì)業(yè)務(wù)調(diào)節(jié)沒(méi)有指導(dǎo)價(jià)值

1.3 集成模型

集成模型通過(guò)把多個(gè)機(jī)器學(xué)習(xí)模型組合在一起,以提高預(yù)測(cè)的準(zhǔn)確性和穩(wěn)定性。通過(guò)結(jié)合多個(gè)模型的預(yù)測(cè)結(jié)果,集成學(xué)習(xí)可以減少單個(gè)模型的偏差和方差,并提供更可靠的預(yù)測(cè)結(jié)果。集成模型就是看不同模型組合成的整體的效果,就跟我們?cè)谕嬗螒虻臅r(shí)候,小A說(shuō)要去打野,小B說(shuō)要越塔,小C又說(shuō)要猥瑣一波,這時(shí)候集成模型就不會(huì)只聽(tīng)其中的一個(gè),要兼顧他們的情況進(jìn)行匯總,比如大家投票少數(shù)服從多數(shù),或者在回歸任務(wù)中三者的預(yù)測(cè)值求平均值來(lái)處理,這些組合成的模型有強(qiáng)有弱,但是多個(gè)比較弱的模型集成的效果就可以媲美一個(gè)強(qiáng)的模型效果,這就是集成模型的意義。

在集成模型中有一種到目前使用較多的模型,就是隨機(jī)森林模型,它由多個(gè)樹(shù)模型組成,其中的每一個(gè)樹(shù)模型都是分類器,在上一篇機(jī)器學(xué)習(xí)的流程中寫(xiě)道每個(gè)機(jī)器學(xué)習(xí)任務(wù)都要經(jīng)過(guò)特征提取,隨機(jī)森林在每個(gè)決策樹(shù)構(gòu)建的過(guò)程中的”隨機(jī)”體現(xiàn)在兩個(gè)關(guān)鍵方面:一是在每個(gè)樹(shù)模型的訓(xùn)練過(guò)程中,從原始訓(xùn)練數(shù)據(jù)中隨機(jī)選擇一部分?jǐn)?shù)據(jù)點(diǎn),即通過(guò)自助采樣形成不同的數(shù)據(jù)子集;二是在每個(gè)樹(shù)的每個(gè)分裂節(jié)點(diǎn)上,并不是考慮所有可能的特征,而是隨機(jī)選擇一部分特征進(jìn)行預(yù)測(cè)。

正因?yàn)樗蕾囉诙鄠€(gè)樹(shù)的預(yù)測(cè)結(jié)果,所以在系統(tǒng)面臨不確定性和外部干擾時(shí),仍然能保持比較好的預(yù)測(cè)效果,這個(gè)叫魯棒性。當(dāng)然,隨機(jī)森林的另一個(gè)重要優(yōu)勢(shì)得益于樹(shù)模型的可解釋性。

1.4 支持向量機(jī)

支持向量機(jī)的特點(diǎn)是算法的思維方式非常有創(chuàng)造性,我們生活在三維空間中,科幻片中給我們展示更高維度的空間,在空間理論上有一句話:三維世界是四維世界的投影,支持向量機(jī)的算法機(jī)制就是類似的原理。假如我們現(xiàn)在有紅色點(diǎn)和藍(lán)色的點(diǎn)在一個(gè)平面上,需要想辦法把紅色點(diǎn)和藍(lán)色點(diǎn)區(qū)分出來(lái),為了區(qū)分這兩者我做了一個(gè)決策邊界,這個(gè)決策邊界是一個(gè)非線性的函數(shù),這是在二維平面當(dāng)中,利用非線性函數(shù)做切分相對(duì)比較難,但我們可以找一個(gè)映射函數(shù),把二維當(dāng)中的點(diǎn)映射到三維空間當(dāng)中,在三維空間中可以通過(guò)一個(gè)線性的方程區(qū)分出來(lái),這樣任務(wù)就變得非常簡(jiǎn)單了。所以支持向量機(jī)最核心的思想就是,我們的數(shù)據(jù)在一個(gè)低緯的環(huán)境當(dāng)中,如果把數(shù)據(jù)映射到高維框架當(dāng)中,我們就能得到一個(gè)更簡(jiǎn)單的特征方程,對(duì)于模型來(lái)說(shuō)學(xué)習(xí)起來(lái)會(huì)更容易。

當(dāng)年很多同學(xué)學(xué)完支持向量機(jī)都會(huì)被這個(gè)理論所折服。在2012和2013年左右,求職者在面試AI方向技術(shù)崗位的時(shí)候,基本上要把支持向量機(jī)從頭到尾背下來(lái),一般基礎(chǔ)面試部分會(huì)要求推導(dǎo)出一個(gè)結(jié)論,或者把支持向量機(jī)給面試官講明白。為什么面試要考核這方面的知識(shí)呢?第一是因?yàn)殡y,第二是因?yàn)橹С窒蛄繖C(jī)在當(dāng)時(shí)是很先進(jìn)的算法,它在當(dāng)年效果非常好,直到后來(lái)神經(jīng)網(wǎng)絡(luò)的出現(xiàn),支持向量機(jī)才永遠(yuǎn)地退出了歷史的舞臺(tái)。

1.5 貝葉斯模型

貝葉斯算法核心就是我們高數(shù)中的條件概率,咱們都玩過(guò)猜輸贏的游戲,假如有一款剪刀石頭布的游戲機(jī),來(lái)了十個(gè)人都贏了,按照我們傳統(tǒng)的思想,輸贏是有一組參數(shù)來(lái)控制的,參數(shù)又是通過(guò)它觀測(cè)到得數(shù)據(jù)來(lái)決定的,那如果觀測(cè)到十個(gè)人都贏了,我們會(huì)認(rèn)為我在玩的時(shí)候也是100%會(huì)贏,但如果讓貝葉斯模型去做預(yù)測(cè)的話,它會(huì)想之前人們一直灌輸?shù)摹笆€九輸”這個(gè)概念,所以此時(shí)他不會(huì)認(rèn)為他100%贏。

在貝葉斯算法當(dāng)中,多了一個(gè)先驗(yàn)知識(shí),就是還沒(méi)往模型里傳數(shù)據(jù)的時(shí)候就已經(jīng)有的知識(shí),比如我覺(jué)得今天大概十點(diǎn)多下班、明天太陽(yáng)肯定會(huì)升起來(lái)的,這都是我的先驗(yàn)知識(shí),這個(gè)先驗(yàn)條件通過(guò)人為加入或者貝葉斯模型提前去學(xué)習(xí)獲得。

貝葉斯模型作為機(jī)器學(xué)習(xí)的經(jīng)典模型之一,已經(jīng)是幾十年前流行的算法模型,他需要的計(jì)算成本低,通常來(lái)處理文本任務(wù),但由于它的預(yù)測(cè)是在先驗(yàn)條件下完成的,一旦在模型中加入我們?nèi)藶榈南闰?yàn)條件,模型就只能在這個(gè)限制條件下去去完成任務(wù),但換一個(gè)業(yè)務(wù)場(chǎng)景這個(gè)先驗(yàn)條件就不適用,這種局限性限制了它的應(yīng)用范圍。

二、機(jī)器學(xué)習(xí)的六大應(yīng)用場(chǎng)景

過(guò)去幾年,機(jī)器學(xué)習(xí)已經(jīng)滲透在我們生活的方方面面,在衣食住行、娛樂(lè)、醫(yī)療、電商、金融和工程等等領(lǐng)域都發(fā)揮著巨大的作用,接下來(lái)我從數(shù)據(jù)分析、數(shù)據(jù)挖掘、特征工程、量化交易和工業(yè)制造領(lǐng)域解析機(jī)器學(xué)習(xí)的應(yīng)用情況。

2.1 數(shù)據(jù)分析

數(shù)據(jù)分析估計(jì)是大家日常聽(tīng)過(guò)和用過(guò)最多的領(lǐng)域了,客觀來(lái)講,數(shù)據(jù)分析是指通過(guò)對(duì)數(shù)據(jù)的收集、清洗、處理和統(tǒng)計(jì)等,來(lái)提取數(shù)據(jù)中的有用的信息或有價(jià)值的見(jiàn)解,通過(guò)識(shí)別模式和趨勢(shì)來(lái)評(píng)估假設(shè),以此來(lái)支持決策和解決問(wèn)題的過(guò)程。

我們傳統(tǒng)的數(shù)據(jù)分析方法一般用excel、BI等任何擅長(zhǎng)的工具,通過(guò)圖表等可視化的指標(biāo),比如均值、中位數(shù)、最大值、最小值以及近期的表現(xiàn)、走勢(shì)等等來(lái)解讀反應(yīng)的問(wèn)題或起到的作用,所以傳統(tǒng)數(shù)據(jù)分析方法比較偏統(tǒng)計(jì)多一些。在以上事件中大家不難發(fā)現(xiàn),不管找數(shù)據(jù),還是找到指標(biāo),或者分析走勢(shì)等等,完成這一系列動(dòng)作的主體都是人,強(qiáng)調(diào)的人的主觀意愿,所以我們可以理解為,傳統(tǒng)的數(shù)據(jù)分析更加強(qiáng)調(diào)怎么去做人為的規(guī)則和決策,這是傳統(tǒng)的數(shù)據(jù)分析的特點(diǎn)。

機(jī)器學(xué)習(xí)對(duì)數(shù)據(jù)分析的作用包括數(shù)據(jù)預(yù)處理、模式識(shí)別、分類聚類、異常檢測(cè)等等,它能夠從數(shù)據(jù)中學(xué)習(xí)出模式和規(guī)律,并用于對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)和分類,決策主體從人變成更加理性的機(jī)器。

數(shù)據(jù)預(yù)處理是在收集到原始數(shù)據(jù)之后的第一個(gè)關(guān)鍵步驟,是在數(shù)據(jù)建模前必須要完成的一件事。數(shù)據(jù)預(yù)處理需要對(duì)數(shù)據(jù)做各種各樣的變換和操作,包括:抽樣、值替換、類型轉(zhuǎn)換等等,在這里先不一一展開(kāi),在之后的文章可以詳細(xì)講解。從技術(shù)實(shí)現(xiàn)上來(lái)講,數(shù)據(jù)預(yù)預(yù)處理的方法一般都有章可循,大多數(shù)時(shí)候的做法差不多,都有固定的模板,每個(gè)公司根據(jù)自己的業(yè)務(wù)選擇合適的模板。

2.2 數(shù)據(jù)挖掘

如果我們需要處理的數(shù)據(jù)量非常大,數(shù)據(jù)指標(biāo)很多,這時(shí)候靠我們?nèi)藶榈闹饔^經(jīng)驗(yàn)很難找到比較有價(jià)值的信息,咱們?nèi)说拇竽X的計(jì)算量是有限的,我們可以把要分析的數(shù)據(jù)交給計(jì)算機(jī)。一般給計(jì)算機(jī)哪些數(shù)據(jù)呢?有輸入、輸出,和輸入輸出之間的一個(gè)聯(lián)系,比如我們參加一個(gè)聚會(huì),實(shí)際簽到的人數(shù)是輸出,而聚會(huì)的主題風(fēng)格、特邀嘉賓、時(shí)間是不是節(jié)假日等等,這些對(duì)于聚會(huì)性質(zhì)的描述構(gòu)成這次事件的輸入,如果這次聚會(huì)的簽到率非常低,我想知道到底是哪個(gè)因素導(dǎo)致了這個(gè)問(wèn)題?但是在找這個(gè)因素的時(shí)候,我不再通過(guò)主觀的經(jīng)驗(yàn)或感受去分析,而是通過(guò)輸入和輸出的聯(lián)系去看,建立聯(lián)系的工具就是模型,建立好的這個(gè)聯(lián)系就是我們需要的結(jié)果,我們通過(guò)建立好的模型發(fā)現(xiàn)簽到率跟聚會(huì)的主題非常相關(guān)的,這是一個(gè)主要因素。這個(gè)因素是通過(guò)模型建立了關(guān)系之后發(fā)現(xiàn)的,并不是我們統(tǒng)計(jì)了均值方差中位數(shù)等各個(gè)指標(biāo)去發(fā)現(xiàn)的,把數(shù)據(jù)輸入和輸出之間建立好聯(lián)系,并找到對(duì)應(yīng)的關(guān)系,就個(gè)過(guò)程叫做數(shù)據(jù)挖掘。

比起傳統(tǒng)的數(shù)據(jù)分析,機(jī)器學(xué)習(xí)更偏重應(yīng)用在數(shù)據(jù)挖掘領(lǐng)域,數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取有用信息和模式的過(guò)程,而算法是實(shí)現(xiàn)這一過(guò)程的核心工具,上面舉例中從輸入和輸出建立聯(lián)系的模型就是各個(gè)算法構(gòu)建起來(lái)的。

我們?cè)诮⒑媚P秃筝敵鼋Y(jié)果,做分類或回歸任務(wù),也就是由輸入到輸出的過(guò)程,但是更多時(shí)候,我們還需要建立好的模型來(lái)推導(dǎo)哪個(gè)因素起了關(guān)鍵作用,這就涉及到對(duì)模型的解釋,這是數(shù)據(jù)挖掘很重要的一個(gè)作用。在工業(yè)領(lǐng)域,我們可以通過(guò)很多生產(chǎn)指標(biāo)對(duì)一個(gè)流水線的產(chǎn)品或零件來(lái)檢測(cè)合不合格,但是沒(méi)辦法找出不合格的主要原因,利用數(shù)據(jù)挖掘就可以推斷出不合格是哪個(gè)環(huán)節(jié)導(dǎo)致的,以便接下來(lái)更好地對(duì)那個(gè)環(huán)節(jié)進(jìn)行改善。

2.2 特征工程

為了解釋什么叫特征工程,先給大家看一些實(shí)際的例子,我們一般都會(huì)在電腦上安裝安全防護(hù)軟件,當(dāng)我們?cè)L問(wèn)網(wǎng)頁(yè)、下載東西或者看視頻時(shí)都會(huì)發(fā)送HTTP請(qǐng)求,而當(dāng)我們?yōu)g覽的這個(gè)地址有安全隱患時(shí),安全軟件會(huì)提示我們。假如現(xiàn)在需要基于用戶的HTTP請(qǐng)求來(lái)找出這個(gè)用戶的異常行為,做異常流量的挖掘。在這個(gè)任務(wù)當(dāng)中,我們首先需要建模,其次需要做分類任務(wù),看用戶的行為是正常還是異常。

以下是我們拿到的原始數(shù)據(jù),想知道這些數(shù)據(jù)字段的含義,就需要網(wǎng)絡(luò)安全的知識(shí)。

在這段數(shù)據(jù)中包含了訪問(wèn)時(shí)間、用戶端和訪問(wèn)端的IP地址和端口號(hào)、發(fā)出請(qǐng)求中帶的參數(shù)、DI解析等等,這些也是服務(wù)器上記錄的日志數(shù)據(jù),這些原始數(shù)據(jù)是無(wú)法通過(guò)計(jì)算得出具體的指標(biāo)的,而特征工程就是把數(shù)據(jù)轉(zhuǎn)化成可計(jì)算的指標(biāo),什么叫可計(jì)算的指標(biāo)呢?比如日期有年月日,我們不能對(duì)日期做諸如矩陣乘法類似的數(shù)值計(jì)算,因?yàn)樗且粋€(gè)確定了的日期,但是不管拿到的原始數(shù)據(jù)多復(fù)雜和非結(jié)構(gòu)化,我們都能夠盡可能多地挖掘出有用的信息,比如我們能知道它屬于春夏秋冬的哪個(gè)季節(jié)等等,這些特征都可以用離散的變量來(lái)表示,比如可以用1、2、3、4分別代表春夏秋冬,除此之外我們還能夠根據(jù)日期得出是工作日還是休息日、是一個(gè)月的上旬還是下旬、是不是周五或者節(jié)假日前一天等等,以此得出哪個(gè)時(shí)間段發(fā)生異常的概率比較多,就可以推斷出時(shí)間與用戶異常行為的關(guān)系。

以上日期的例子中我們能選出一堆的特征,同樣我們可以對(duì)其他的字段提取特征,比如對(duì)于IP地址,我們可以看這個(gè)IP地址在歷史數(shù)據(jù)當(dāng)中被訪問(wèn)了多少次?發(fā)出了多少個(gè)請(qǐng)求?這個(gè)IP跟多少個(gè)不同的IP有交互?其中交互最多的是哪個(gè)等等,端口號(hào)、url同理。

到這我們可以總結(jié)出特征工程的概念,它是一個(gè)將原始數(shù)據(jù)轉(zhuǎn)換成更有利于表示潛在問(wèn)題的特征的過(guò)程,從而提高機(jī)器學(xué)習(xí)模型在預(yù)測(cè)不可見(jiàn)數(shù)據(jù)時(shí)的準(zhǔn)確性,當(dāng)我們拿到了一個(gè)原始的輸入數(shù)據(jù)之后,我們需要盡可能把數(shù)據(jù)特征做得更豐富一些。

在實(shí)際情況當(dāng)中,提取特征需要很多成員一起去絞盡腦汁地想,最后再匯總,通常模型和算法大家都在幾個(gè)固定的框架里面找,但當(dāng)我們處理數(shù)據(jù)的時(shí)候就需要很多業(yè)務(wù)知識(shí),就像上面的例子,當(dāng)我們做網(wǎng)絡(luò)安全有關(guān)的業(yè)務(wù)時(shí),就需要深入了解網(wǎng)絡(luò)安全的知識(shí),我們首先要知道這些字段的含義才能提取特征,所以很多數(shù)據(jù)挖掘任務(wù)的難點(diǎn)并不是算法和模型,而是怎樣在原始輸入數(shù)據(jù)中找出需要的特征,接下來(lái)才能套用算法和模型。在實(shí)際應(yīng)用當(dāng)中,相較于改進(jìn)算法和模型調(diào)參,多提取特征對(duì)于業(yè)務(wù)的幫助來(lái)說(shuō)是性價(jià)比很高的方式,科學(xué)家們投入大量的時(shí)間精力去研究算法,最終使得模型的效果提升百分之零點(diǎn)幾,但是項(xiàng)目成員多找出些特征就可以在短時(shí)間內(nèi)取得很不錯(cuò)的效果,成本低見(jiàn)效快。

特征決定了結(jié)果的上限,算法只能決定如何逼近這個(gè)上限,無(wú)論后續(xù)做什么,特征工程都是最核心的一步,而且套路難固定,基本全靠業(yè)務(wù)分析。在2012年之前,計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理等方面的特征提取靠的是機(jī)器學(xué)習(xí),但是效果差強(qiáng)人意,因?yàn)榭咳藶榈靥崛√卣魈邢蓿谏疃葘W(xué)習(xí)崛起后,圖像文本語(yǔ)音的特征一般都靠深度學(xué)習(xí)來(lái)提取。

2.3 量化交易

量化交易是時(shí)間序列預(yù)測(cè),它的預(yù)測(cè)跟數(shù)據(jù)挖掘不一樣,比如接下來(lái)是漲還是跌?漲跌的可能性分別有多大?預(yù)測(cè)下一個(gè)點(diǎn)的實(shí)際值是什么等等,通常我們?cè)陬A(yù)測(cè)序列的時(shí)候不僅預(yù)測(cè)下一個(gè)點(diǎn),還需要預(yù)測(cè)未來(lái)連續(xù)一段時(shí)間的趨勢(shì),因?yàn)榭醋邉?shì)的下一時(shí)刻是漲還是跌可能不太重要,要看它連續(xù)的一個(gè)時(shí)間段總體是漲還是跌,這個(gè)就涉及到時(shí)間序列。

但是時(shí)間序列比較難預(yù)測(cè),如果有一個(gè)股票的走勢(shì)圖,現(xiàn)在只有1號(hào)到19號(hào)的真實(shí)數(shù)據(jù),接下來(lái)要預(yù)測(cè)是20號(hào),算法可以基于1號(hào)到19號(hào)的歷史數(shù)據(jù)去預(yù)測(cè)20號(hào)的數(shù)據(jù),但接下來(lái)要預(yù)測(cè)21號(hào)的數(shù)據(jù)跟20號(hào)的數(shù)據(jù)關(guān)系非常大,會(huì)基于前面1號(hào)到20號(hào)的數(shù)據(jù)序列來(lái)預(yù)測(cè),那22號(hào)的是基于前面1到21號(hào)的來(lái)預(yù)測(cè)。大家會(huì)發(fā)現(xiàn),預(yù)測(cè)20號(hào)的數(shù)據(jù)是根據(jù)實(shí)際值,但是預(yù)測(cè)21號(hào)的數(shù)據(jù)要計(jì)算之前包括20號(hào)的數(shù)據(jù),但問(wèn)題是,20號(hào)的數(shù)據(jù)準(zhǔn)確性我們未知,21號(hào)的數(shù)據(jù)準(zhǔn)確性也未知,我們預(yù)測(cè)未來(lái)時(shí)間的序列是否合格都未知。

所以機(jī)器學(xué)習(xí)在時(shí)間序列當(dāng)中很難去應(yīng)用,尤其是量化交易。而且漲跌有時(shí)候并不服從某一個(gè)規(guī)律,很多時(shí)候都是突發(fā)現(xiàn)象,比如國(guó)家突然發(fā)布一個(gè)政策,相關(guān)的股都會(huì)受到很大的波動(dòng),這就是一個(gè)突發(fā)事件,但是模型不可能預(yù)知國(guó)家什么時(shí)候發(fā)布哪個(gè)政策,所以在機(jī)器學(xué)習(xí)領(lǐng)域要基于現(xiàn)在預(yù)測(cè)未來(lái),基于未來(lái)再預(yù)測(cè)未來(lái)是很難的事。

如果數(shù)據(jù)的分布是固定的,比如學(xué)生都是早上起床,晚上睡覺(jué),形成這樣的固定模式,機(jī)器學(xué)習(xí)就能找到并學(xué)習(xí)規(guī)律,但是如果未來(lái)在用這個(gè)模型的時(shí)候我們的數(shù)據(jù)分布變了,它效果就不行了,量化交易就是這樣。同樣,AI也不能解決跨域的問(wèn)題啊,在一個(gè)場(chǎng)景中訓(xùn)練的模型效果如果換一個(gè)場(chǎng)景就不適用了。

2.4 工業(yè)制造等領(lǐng)域

大量的工業(yè)(制造業(yè))企業(yè)現(xiàn)在面臨數(shù)字化轉(zhuǎn)型,機(jī)器學(xué)習(xí)早已賦能制造業(yè),在新能源、汽車(chē)等領(lǐng)域都有應(yīng)用。在新能源汽車(chē)領(lǐng)域,以前按照合作經(jīng)驗(yàn)或者習(xí)慣來(lái)篩選電池原料等供應(yīng)商,當(dāng)輸入各個(gè)供應(yīng)商原材料,再讓算法模型輸出產(chǎn)品的合格率,用數(shù)據(jù)來(lái)衡量就可以節(jié)省很多人為因素。

除此之外在其他工業(yè)制造行業(yè)也有大量的應(yīng)用,比如在汽車(chē)行業(yè)利用機(jī)器學(xué)習(xí)建模碰撞檢測(cè),從而尋找合適的車(chē)型設(shè)計(jì)指標(biāo);在化工企業(yè)利用機(jī)器學(xué)習(xí)建模進(jìn)行安全識(shí)別,來(lái)實(shí)時(shí)監(jiān)控安全問(wèn)題;在車(chē)間流水線上進(jìn)行智能識(shí)別、缺陷檢測(cè)等,替代大量人工操作等。機(jī)器學(xué)習(xí)在風(fēng)控領(lǐng)域一般對(duì)信用風(fēng)險(xiǎn)進(jìn)行建模,比如互聯(lián)網(wǎng)金融風(fēng)險(xiǎn)建模、利用大數(shù)據(jù)對(duì)個(gè)人信貸建模進(jìn)行評(píng)分,還有對(duì)市場(chǎng)進(jìn)行定價(jià)建模等,在這里不多贅述。

本文由 @AI產(chǎn)品薇薇 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!