我們?yōu)槭裁匆@樣聯(lián)想:用哲學(xué)論證客戶畫像體系的復(fù)雜性

3 評論 12701 瀏覽 45 收藏 11 分鐘

哲學(xué)是各類學(xué)科的升華版,本篇文章將借多年前??碌摹对~與物》[1]中的哲學(xué)立場,討論個(gè)人客戶畫像特征體系構(gòu)建中的問題,從哲學(xué)的角度來論證客戶畫像體系的復(fù)雜性。

我們完全可以從哲學(xué)角度得到啟發(fā),探討不基于特征體系描述客戶,而是用時(shí)間軸上的系列事件標(biāo)記客戶,并通過深度學(xué)習(xí)LSTM模型預(yù)測事件發(fā)生概率。提出一種跨領(lǐng)域統(tǒng)一推薦模型新思路。

一、引言

眾多學(xué)科都可以從哲學(xué)中找到源頭以及趨勢,現(xiàn)今的人們對計(jì)算機(jī)學(xué)科更多的認(rèn)識是一門理工學(xué)科,知道眾多的算法的源泉是數(shù)學(xué),但哲學(xué)真的對計(jì)算機(jī)學(xué)科無用嗎?

那我們就來看看法國哲學(xué)家馬歇爾.??略?966年著述的《詞與物》是如何來論證目前客戶行為事件模型的,并引申討論模型的發(fā)展。

二、從特征到個(gè)人客戶畫像

1、什么是特征

“那個(gè)被選作確切的同一性和差異性之場所的結(jié)構(gòu),就是被稱作特性?!?[1]特征是為了差異更是為了相似性,??抡J(rèn)為相似性與特征(符號)是必然聯(lián)系,因?yàn)橄嗨菩允墙⒃趯@些特征(符號)的記錄和辨認(rèn)上。而且他一直強(qiáng)調(diào)相似性的重要:“直到16世紀(jì)末,相似性在西方文化知識中一直起著創(chuàng)建者的作用?!盵1]“產(chǎn)生于特殊事件的一般歸納,或者不如說科學(xué)的種類、邏輯和所有抽象觀念,都是借助相似性而形成?!盵1]同樣,相似性在模式識別、分類、監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)等機(jī)器學(xué)習(xí)概念中的有著同樣的重要性。

2、基于個(gè)人客戶畫像的特征庫

目前業(yè)界的個(gè)人畫像主要在機(jī)構(gòu)內(nèi)部數(shù)據(jù)結(jié)合外部數(shù)據(jù)基礎(chǔ)上構(gòu)建。如對原始數(shù)據(jù)進(jìn)行特征提取,得到如下客戶特征:

客戶特征

圖一 (來源[2])

在實(shí)施過程中可以為個(gè)人客戶畫像中每個(gè)人打上幾千個(gè)各類標(biāo)簽。再結(jié)合具體的推薦場景如股票購買概率預(yù)測模型[3]中特征要求,應(yīng)用于具體推薦模型中。實(shí)踐中一般還使用特征選擇模型來決定哪些特征適用具體場景。并且由于很多關(guān)鍵屬性缺失,還需要一些數(shù)據(jù)挖掘模型用于特征推斷,比方邏輯回歸,決策樹,標(biāo)簽傳遞等。

3、特征體系能完全標(biāo)記人的行為嗎?

特征體系是系統(tǒng)研究相似性,標(biāo)識個(gè)體與分類的合理的、必然的途徑。??聦w系的定義是“選擇一組確定的和相對有限的特征,其恒定和變換能在任何自身呈現(xiàn)的個(gè)體中得到研究” [1],他在認(rèn)可這一途徑的同時(shí)也指出該方法的不足。書中舉了個(gè)例子:“中國某部百科全書中動物可以劃分為:1屬皇帝所有,2有芬芳的香味,3馴順的,4乳豬,5鰻螈,6傳說中的,7自由走動的狗。。?!彼隗@嘆如此分類的想象力的同時(shí)也指出“體系在展開過程中是任意的” [1],“有可能把方法憑經(jīng)驗(yàn)而限定的從外部強(qiáng)加的修正應(yīng)用于一般特性:被人們認(rèn)為對一個(gè)種群來說重要的一個(gè)特征,很可能只是另一些動物的特殊性” [1]。讓我們回顧上一部分中客戶特征分類以及特征,似乎還比較合乎常理,但似乎也有些隨意。前文[2]也試圖從行為金融學(xué)相關(guān)觀點(diǎn)應(yīng)用于個(gè)人金融畫像特征提取,但不足以根本解決這個(gè)問題。

??麓髱熞惨庾R到“特征的確立,既是容易的,又是困難的?!?[1],“為了確立起所有的同一與差異,將有必要考慮在一個(gè)描述中可能被提及的每一個(gè)特征。這是一毫無止境的任務(wù)?!?[1]而且他還意識到特征“都是在相互聯(lián)系,相互混合并且或許能相互轉(zhuǎn)換” [1]。現(xiàn)在,我們非常容易理解這些特征之間的這種關(guān)系。認(rèn)為基因和特征存在映射關(guān)系的話,在遺傳算法中,會通過一系列的遺傳算子來確認(rèn)后代,包括交叉算子、變異算子這些都可以導(dǎo)致基因相互聯(lián)系與轉(zhuǎn)換,從而導(dǎo)致特征同樣變化。

而且人的行為更是動態(tài)的,情景的,那可想而知構(gòu)建合理的特征體系作為客戶畫像的難度。那我們是不是可以試試其他途徑呢?

三、從特征 到 事件

1、什么組成了堂吉訶德

“每個(gè)插曲,每一個(gè)決心,每一種不合時(shí)宜的行動,都象征著唐吉坷德”[1]

如果塞萬提斯不是用那么一部偉大的長篇巨著描寫唐吉坷德的總總境遇,而是用一堆特征來標(biāo)記。哪怕他是塞萬提斯,哪怕他用8888個(gè)特征標(biāo)記唐吉坷德,難道我們能比現(xiàn)在更感受到那樣的一個(gè)唐吉坷德嗎?如果要YY一部《唐吉坷德在異界》,難道不是原著中那些事件的描述比8888個(gè)特征更能預(yù)測唐吉坷德騎士在異界中的種種行為嗎?

2、從個(gè)人行為事件的客戶畫像到跨領(lǐng)域統(tǒng)一推薦模型

讓我們試著忘記特征體系,是否可以嘗試只通過那些在時(shí)間軸上,在特定場景下的總總事件來構(gòu)建客戶畫像呢?

假設(shè)已合法的收集個(gè)人行為數(shù)據(jù)。一行樣本數(shù)據(jù)包括,客戶編號,事件類型,該類事件環(huán)境,事件行為的描述(當(dāng)然還是可能需要用特征標(biāo)識)等。那么我們將得到如下數(shù)據(jù)。

事件

接下來,探討基于個(gè)人行為事件的客戶畫像構(gòu)建跨領(lǐng)域統(tǒng)一推薦模型。我們假設(shè)這些事件是獨(dú)立,正樣本是歷史上不同客戶在各領(lǐng)域已發(fā)生事件。考慮到數(shù)據(jù)的時(shí)間特性,應(yīng)該選擇RNN模型。但進(jìn)一步考慮到長期歷史行為對個(gè)人行為的影響,最終決定使用LSTM(Long-ShortTerm Memory)模型。以天為時(shí)間周期,每周期訓(xùn)練數(shù)據(jù)為指定日期的客戶行為事件數(shù)據(jù)。通過LSTM模型,預(yù)測未來客戶發(fā)生指定事件的概率。

畫像

該框架不同于以往跨領(lǐng)域深度學(xué)習(xí)模型中樣本數(shù)據(jù),不再基于客戶特征畫像體系,而是用事件軸上的系列事件標(biāo)記客戶,使用深度學(xué)習(xí)LSTM模型預(yù)測客戶當(dāng)前事件發(fā)生概率。

這仿佛在做著《少數(shù)派報(bào)告》中的事。但放心,這只是推薦模型而已。而且就像電影中結(jié)局,人的行為是種選擇,一念天堂,一念地獄。人心當(dāng)然不可測。

四、總結(jié)

我們借多年前??碌摹对~與物》[1]中的哲學(xué)立場討論了個(gè)人客戶畫像特征體系構(gòu)建中的問題,從哲學(xué)的角度來論證客戶畫像體系的復(fù)雜性。我們完全可以從哲學(xué)角度得到啟發(fā),探討不基于特征體系描述客戶,而是用時(shí)間軸上的系列事件標(biāo)記客戶,并通過深度學(xué)習(xí)LSTM模型預(yù)測事件發(fā)生概率。提出一種跨領(lǐng)域統(tǒng)一推薦模型新思路。

也希望在數(shù)據(jù)科學(xué)領(lǐng)域,給大家一個(gè)新思路,不僅僅從數(shù)學(xué)的角度來研究量化數(shù)據(jù),更可以從哲學(xué)來思考數(shù)據(jù),得到更多的數(shù)據(jù)分析靈感。

參考文獻(xiàn):

[1]米歇爾·??? 莫偉民 譯.詞與物 [M].上海三聯(lián)書店. 2002.

[2]袁峻峰. 人格量化-個(gè)人金融畫像探索[OL].螞蟻金服評論. 2016-03-07.

[3] 袁峻峰. 大數(shù)據(jù)下客戶金融產(chǎn)品購買概率預(yù)測[OL]. 大數(shù)據(jù)文摘,量化派 等(公眾號). 2016-02-19.

 

本文版權(quán)屬于袁峻峰,僅代表個(gè)人觀點(diǎn)。感謝同事王劍對文中深度學(xué)習(xí)模型的建議與幫助。

作者:袁峻峰,花名觀妙,螞蟻金服人工智能部,復(fù)旦金融學(xué)碩士,F(xiàn)RM金融風(fēng)險(xiǎn)管理師。10年金融IT相關(guān)領(lǐng)域工作經(jīng)驗(yàn):國內(nèi)銀行間市場金融產(chǎn)品(包括衍生產(chǎn)品)的量化分析、市場風(fēng)險(xiǎn)管理以及相關(guān)系統(tǒng)實(shí)現(xiàn)。目前從事并關(guān)注于金融領(lǐng)域機(jī)器學(xué)習(xí)相關(guān)主題與應(yīng)用,歡迎探討, 郵箱yuanjunfeng_fr@163.com?。

來源:微信公眾號:BigDataDigest

本文由 @袁峻峰 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 不是看似高大,就是有用的,這種東西根本不應(yīng)該再這里出現(xiàn)

    回復(fù)
    1. 贊同

      來自四川 回復(fù)
  2. 測試

    來自四川 回復(fù)