知識(shí)圖譜與機(jī)器學(xué)習(xí)如何結(jié)合?
編輯導(dǎo)讀:知識(shí)圖譜和機(jī)器學(xué)習(xí),這兩個(gè)看似不相關(guān)的事物,放在一起會(huì)發(fā)生什么樣的化學(xué)反應(yīng)?本文將從五個(gè)方面,闡述機(jī)器學(xué)習(xí)如何與機(jī)器學(xué)習(xí)相互作用,希望對(duì)你有幫助。
某天中午吃完飯,和一位做大數(shù)據(jù)分析、機(jī)器學(xué)習(xí)建模相關(guān)的朋友聊天,談及到智能決策領(lǐng)域的增長(zhǎng)點(diǎn)和突破口,目前智能決策領(lǐng)域已經(jīng)基本業(yè)界標(biāo)準(zhǔn)化成型的,由產(chǎn)品&技術(shù)各組件組成的決策引擎體系,這套完整體系包括智能決策平臺(tái)、批流化一體決策引擎、實(shí)時(shí)指標(biāo)計(jì)算平臺(tái)、風(fēng)險(xiǎn)核查平臺(tái)、用戶畫像、數(shù)據(jù)服務(wù)、設(shè)備指紋等。
這些產(chǎn)品&技術(shù)已趨于成熟,均很難成為智能決策領(lǐng)域的突破口,機(jī)器學(xué)習(xí)、深度學(xué)習(xí)可以帶來(lái)一定增長(zhǎng)點(diǎn),不過(guò)要成為突破口比較難,畢竟模型對(duì)業(yè)務(wù)來(lái)說(shuō)是個(gè)黑盒子,無(wú)法解釋。
就目前現(xiàn)狀而言,模型更多用于輔助決策,還無(wú)法放心地僅通過(guò)模型預(yù)測(cè)值就真正否決掉一個(gè)用戶或判斷是否欺詐、是否逾期等。人們往往更相信直觀可見的“證據(jù)”、人為積淀的經(jīng)驗(yàn)、亦或通過(guò)現(xiàn)有知識(shí)基礎(chǔ)推理衍生出的可解釋性結(jié)論,從這個(gè)角度上看,知識(shí)圖譜更可能成為突破口。
雖然圖譜目前還是個(gè)新手,距離真正成為突破口還有很大差距,特別是實(shí)時(shí)決策場(chǎng)景,毫秒級(jí)別內(nèi)決策的要求對(duì)知識(shí)圖譜的性能將是個(gè)巨大的考驗(yàn),不過(guò)這不妨礙大家對(duì)她的青睞和期待。
通過(guò)關(guān)系進(jìn)行風(fēng)險(xiǎn)傳導(dǎo)、智能通知預(yù)警和新營(yíng)銷推薦,圖的可視化天然優(yōu)勢(shì)、基于已有知識(shí)推理出新知識(shí),通過(guò)圖表征得出異常結(jié)構(gòu)和異常點(diǎn)等,這些都是圖譜的優(yōu)勢(shì)。基于現(xiàn)階段圖譜的優(yōu)勢(shì),結(jié)合上述提及的圖實(shí)時(shí)計(jì)算、實(shí)時(shí)決策的短板,筆者梳理出知識(shí)圖譜與機(jī)器學(xué)習(xí)結(jié)合的使用場(chǎng)景,并分析其如何賦能業(yè)務(wù)產(chǎn)生業(yè)務(wù)價(jià)值。
近3年從事智能風(fēng)控決策領(lǐng)域,做過(guò)知識(shí)圖譜產(chǎn)品經(jīng)理,做過(guò)智能決策、知識(shí)圖譜、模型管理&模型監(jiān)控等相關(guān)的項(xiàng)目實(shí)施,因此除產(chǎn)品和技術(shù)外,得益于項(xiàng)目上的歷練,也有了一些些業(yè)務(wù)思維。
結(jié)合筆者在實(shí)際的業(yè)務(wù)應(yīng)用場(chǎng)景和期間對(duì)知識(shí)圖譜、機(jī)器學(xué)習(xí)、用戶畫像、智能決策的理解、思考,總結(jié)出四類目前知識(shí)圖譜與機(jī)器學(xué)習(xí)的常見結(jié)合場(chǎng)景和結(jié)合方式。
一、知識(shí)圖譜產(chǎn)生圖特征,從關(guān)系角度豐富特征工程,提升模型效果,使決策更精準(zhǔn)高效
數(shù)據(jù)決定了模型的上限,特征寬表則從各個(gè)緯度去刻畫數(shù)據(jù)特征,在機(jī)器學(xué)習(xí)過(guò)程中,特征工程的構(gòu)建是建模最重要的環(huán)節(jié)之一。
常規(guī)的行為類、交易類、時(shí)序類、高頻類等特征很容易從數(shù)據(jù)中挖掘,而關(guān)聯(lián)類特征則需要數(shù)據(jù)分析師在腦海中推演可能的關(guān)聯(lián)情況和關(guān)系網(wǎng)絡(luò)構(gòu)成,且需要通過(guò)多次join來(lái)驗(yàn)證,涉及三度及其以上的多度關(guān)聯(lián)時(shí),無(wú)論是腦海推演過(guò)程抑或join邏輯都比較復(fù)雜。
如果事先構(gòu)建好圖Schema(實(shí)體類型&關(guān)系類型及其屬性),通過(guò)知識(shí)圖譜直接抽取關(guān)聯(lián)特征就方便很多,在實(shí)踐中證明,其余條件保持不變的情況下,豐富圖特征后,可以一定程度上提高模型的K-S、AUC值,某些用戶畫像、智能營(yíng)銷推薦、信貸、反欺詐等場(chǎng)景下效果顯著。
通過(guò)圖特征豐富特征寬表,全面刻畫樣本表現(xiàn)情況,提高模型效果是目前知識(shí)圖譜和機(jī)器學(xué)習(xí)結(jié)合方式中最常見也是實(shí)踐最多的一種方式。
二、機(jī)器學(xué)習(xí)提供學(xué)習(xí)結(jié)果,豐富和增強(qiáng)圖譜知識(shí),使圖譜更智能化
機(jī)器學(xué)習(xí)的本質(zhì)是通過(guò)學(xué)習(xí)歷史數(shù)據(jù)和經(jīng)驗(yàn)得到未來(lái)的預(yù)測(cè)結(jié)果,通過(guò)學(xué)習(xí)而得到的預(yù)測(cè)結(jié)果本質(zhì)也是一種“知識(shí)”,只是這類知識(shí)的準(zhǔn)確性是個(gè)概率值。
當(dāng)我們將機(jī)器通過(guò)學(xué)習(xí)而得來(lái)的知識(shí)輸入到圖譜中,在一定程度上豐富和增強(qiáng)圖譜知識(shí),可以使圖譜更智能化。
例如,在原生圖數(shù)據(jù)庫(kù)中,我們知道用戶的基本信息,卻不知道這個(gè)人的信用分、行為分、欺詐分是多少,而機(jī)器學(xué)習(xí)提供的學(xué)習(xí)結(jié)果使我們對(duì)“人”這個(gè)實(shí)體的認(rèn)知更豐富了,知識(shí)圖譜增強(qiáng)了知識(shí)儲(chǔ)備,這個(gè)時(shí)候再通過(guò)圖表征(graph embading)得到更智能化的結(jié)果。
三、知識(shí)圖譜結(jié)合機(jī)器學(xué)習(xí),基于已有數(shù)據(jù)輸出全用戶畫像
在刻畫全面用戶畫像場(chǎng)景下,知識(shí)圖譜和機(jī)器學(xué)習(xí)往往需要結(jié)合使用。
我們知道萬(wàn)事萬(wàn)物都由形形色色的關(guān)系構(gòu)成,知識(shí)圖譜所產(chǎn)生的關(guān)于“人”實(shí)體的標(biāo)簽和人與人之間的關(guān)系是“用戶畫像”的基本元素,機(jī)器學(xué)習(xí)、數(shù)據(jù)服務(wù)等產(chǎn)生的標(biāo)簽也是用戶畫像的重要組成部分。
當(dāng)然在全面用戶畫像場(chǎng)景下,遵循元素越多越好的原則:關(guān)聯(lián)關(guān)系越多越好,模型產(chǎn)生的標(biāo)簽越多越好,數(shù)據(jù)緯度也是越多越好。
基于知識(shí)圖譜、機(jī)器學(xué)習(xí)、數(shù)據(jù)服務(wù)等綜合緯度的結(jié)合,讓我們更了解我們的用戶,更清楚他的喜好和習(xí)慣,然后更好地為他服務(wù)(讓他買買買)。
四、機(jī)器學(xué)習(xí)輔助社團(tuán)劃分,交叉驗(yàn)證定位欺詐團(tuán)伙
第四種方式較適用于團(tuán)伙欺詐場(chǎng)景,從業(yè)務(wù)視角看,一般社團(tuán)劃分所得社團(tuán)中涉黑占比較高且社團(tuán)成員數(shù)量適中的會(huì)被初步劃分為可疑社團(tuán),業(yè)務(wù)人員再?gòu)目梢缮鐖F(tuán)中進(jìn)行逐一排查得到欺詐團(tuán)伙。
然而當(dāng)知識(shí)圖譜進(jìn)行社團(tuán)劃分(常見的社團(tuán)劃分圖算法有:louvian、lpa標(biāo)簽傳播等)的樣本中沒有黑樣本或黑樣本極少時(shí),一方面圖譜只能通過(guò)原生關(guān)系進(jìn)行聚類得到社團(tuán),另一方面業(yè)務(wù)人員初步的“可疑社團(tuán)”范圍也無(wú)法圈定。
這個(gè)問(wèn)題一般有三種解法,一是人為手工打標(biāo),通過(guò)人為經(jīng)驗(yàn)給樣本打標(biāo),該方式費(fèi)時(shí)費(fèi)力,一般不會(huì)采取除非資源足夠;二是通過(guò)制定規(guī)則(策略)識(shí)別出黑樣本或可疑樣本后進(jìn)行打標(biāo);三是通過(guò)機(jī)器學(xué)習(xí)模型得到可疑樣本,并將閾值大于x(如0.6)的樣本默認(rèn)打標(biāo)再輸入到知識(shí)圖譜中進(jìn)行社團(tuán)劃分。
第三種解法即為本文中機(jī)器學(xué)習(xí)與知識(shí)圖譜結(jié)合的第四種方式—“機(jī)器學(xué)習(xí)產(chǎn)生樣本標(biāo)簽,輔助圖譜社團(tuán)劃分,尋找欺詐團(tuán)伙”。
在欺詐團(tuán)伙場(chǎng)景,還有種結(jié)合方式是:知識(shí)圖譜產(chǎn)生的可疑社團(tuán)成員,通過(guò)模型來(lái)進(jìn)行驗(yàn)證。
例如圖譜產(chǎn)生某可疑社團(tuán)中有200個(gè)成員,而模型對(duì)這200個(gè)成員的預(yù)測(cè)結(jié)果大多數(shù)為黑,則可大程度上認(rèn)為該社團(tuán)為欺詐社團(tuán)。當(dāng)然也可以反著來(lái),通過(guò)模型預(yù)測(cè)得到的黑成員里,對(duì)應(yīng)在圖譜上的劃分情況如何,有哪些成員是在圖譜的可疑社團(tuán)里面。通過(guò)這類交叉驗(yàn)證的結(jié)合方式,可以幫助我們定位可疑社團(tuán)、得到欺詐團(tuán)伙。
五、知識(shí)圖譜產(chǎn)生黑名單,豐富機(jī)器學(xué)習(xí)黑樣本
前文提到的“大數(shù)據(jù)分析、機(jī)器學(xué)習(xí)建模相關(guān)的朋友”說(shuō)起,目前機(jī)器學(xué)習(xí)的痛點(diǎn)之一是缺乏黑樣本、很多場(chǎng)景下建模無(wú)法獲取黑名單,這時(shí)就可以通過(guò)知識(shí)圖譜的關(guān)聯(lián)關(guān)系,通過(guò)一度、二度或多度關(guān)聯(lián)得到網(wǎng)絡(luò)中的可疑名單,再加上業(yè)務(wù)專家經(jīng)驗(yàn)得到更多黑名單,擴(kuò)展后的黑名單作為機(jī)器學(xué)習(xí)(這里主要是有監(jiān)督類)的標(biāo)簽樣本輸入,一定程度上可以較大提高模型效果。
相關(guān)閱讀:
六個(gè)方面分析:知識(shí)圖譜的價(jià)值與應(yīng)用
作者:Amy,公眾號(hào):Amy的風(fēng)控產(chǎn)品記(Amy_fkcpj)。
本文由 @Amy 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
寫的真好
公眾號(hào)貌似搜不到了
搜這個(gè):xishi_mulan
不是graph embading,應(yīng)該是graph embedding
哈哈 謝謝糾正筆誤(筆芯)