評分卡都看不懂,怎么能說自己是做風(fēng)控的?
隨著互聯(lián)網(wǎng)在傳統(tǒng)金融和電子商務(wù)領(lǐng)域的不斷滲透,風(fēng)控+互聯(lián)網(wǎng)的融合也對傳統(tǒng)的風(fēng)控提出了新的要求和挑戰(zhàn)。以評分卡為例,互聯(lián)網(wǎng)形態(tài)下的評分卡需要面臨更多維數(shù)據(jù)、更實時數(shù)據(jù)、更異常數(shù)據(jù)的挑戰(zhàn)。因此,懂得互聯(lián)網(wǎng)業(yè)務(wù)下的風(fēng)控評分卡已經(jīng)成為互聯(lián)網(wǎng)風(fēng)控從業(yè)人員的新要求。
在之前的文章中,有好幾位業(yè)內(nèi)朋友溝通說要有一篇關(guān)于風(fēng)控評分卡的教程類的文章,于是趁著周末趕緊完成了這篇似是而非的working paper。
一、引言
這兩年隨著互聯(lián)網(wǎng)電商業(yè)務(wù)和互聯(lián)網(wǎng)金融業(yè)務(wù)的興起,原本著力于銀行、證券、信托等傳統(tǒng)金融領(lǐng)域的風(fēng)控職能的HC,在這兩大塊也越來越多,而互聯(lián)網(wǎng)自身獨特屬性的加入又給這個已經(jīng)存在了近一百年的崗位賦予了新的外延與生命。
無論是風(fēng)控職能中的什么崗位,產(chǎn)品、策略、數(shù)據(jù)分析、模型等等,最終都是要跟業(yè)務(wù)掛鉤,而孕育風(fēng)控崗位的金融業(yè)務(wù)又是一個天生以數(shù)據(jù)驅(qū)動的行業(yè),這也就決定了風(fēng)控天生的“數(shù)字”屬性。
這個屬性無論是在傳統(tǒng)金融領(lǐng)域、新興的互聯(lián)網(wǎng)金融乃至更為廣泛的電商領(lǐng)域,都無法磨滅其數(shù)學(xué)的印跡。
“數(shù)據(jù)驅(qū)動業(yè)務(wù)”是風(fēng)控的核心,無論是金融風(fēng)控還是電商風(fēng)控!數(shù)學(xué)是定量解決復(fù)雜問題最有效的工具,在做風(fēng)控的過程中你會發(fā)現(xiàn)你遺失多年的概率論、矩陣都開始有了新的用武之地。
在當(dāng)前的互聯(lián)網(wǎng)環(huán)境下,互聯(lián)網(wǎng)風(fēng)控已經(jīng)成為了一項數(shù)學(xué)、金融學(xué)、信息安全、管理科學(xué)、行為心理學(xué)等多學(xué)科交叉的復(fù)雜業(yè)務(wù),以定量/定性分析的思維,使用傳統(tǒng)的經(jīng)濟學(xué)分析范式:
- 在橫向時間線上需要做到預(yù)知風(fēng)險、監(jiān)控風(fēng)險和處置風(fēng)險;
- 在縱向流程線上做到發(fā)現(xiàn)問題、分析問題和解決問題。
而作為風(fēng)控最重要的工具之一“評分卡”自然而然就是這種套路的產(chǎn)物,所以作為風(fēng)控從業(yè)者,看懂評分卡已經(jīng)成為了風(fēng)控從業(yè)人員的基本素質(zhì)之一。
本文以經(jīng)典的邏輯回歸模型為主,完成一套標(biāo)準(zhǔn)評分卡構(gòu)建。
二、樣本準(zhǔn)備與數(shù)據(jù)處理
本文所使用數(shù)據(jù)來源于某平臺某年度數(shù)十萬信貸樣本數(shù)據(jù),為保證業(yè)務(wù)隱私業(yè)務(wù)指標(biāo)與關(guān)鍵變量已做脫敏處理,僅用于展示評分卡構(gòu)建過程。
1. 樣本選取
選取一定時間周期內(nèi)該平臺上的信貸樣本數(shù)據(jù)(以人為維度),按照會員號尾號(0-9)切分的方式做隨機樣本集,最終選取訓(xùn)練集17萬,測試集11萬,驗證集11萬。
為了更好表述樣本特征,其中以逾期超過X天為bad樣本(label為1),逾期小于y天為good樣本(lable為0),中間模糊樣本暫不進入模型訓(xùn)練。
具體以0-1樣本的劃分標(biāo)準(zhǔn)以實際業(yè)務(wù)為準(zhǔn),信貸業(yè)務(wù)中重點還是看貸后的遷移情況。
2. 變量選取
基于選中的數(shù)十萬樣本,結(jié)合業(yè)務(wù)的經(jīng)驗,選擇數(shù)百描述性變量,并對變量做進一步衍生工作。
基于不同的業(yè)務(wù)形式有不同的變量選擇,每一個模型會有不同的樣式,具體需要結(jié)合對業(yè)務(wù)的理解進行模型構(gòu)建。此處讀者可針對性的學(xué)習(xí)“特征選擇”相關(guān)知識。
以下為模型選擇的一小部分變量截圖,部分敏感變量做脫敏處理:
3. 數(shù)據(jù)處理
數(shù)據(jù)處理是模型構(gòu)建之前最核心的也是最費工時的步驟,需要數(shù)據(jù)處理人員對于數(shù)據(jù)的來源、特點、字段本質(zhì)有著較為深入的理解,才能有效處理好數(shù)據(jù),失去了意義的數(shù)據(jù)僅僅是數(shù)字而已。
3.1 異常數(shù)據(jù)處理
異常數(shù)據(jù)指的是因為多種不可預(yù)知的原因(數(shù)據(jù)原因、樣本原因、技術(shù)原因、歷史原因)導(dǎo)致的不能建模數(shù)據(jù),常見的主要指的是缺失值和極端值。
3.1.1缺失值處理
這種情況在現(xiàn)實問題中非常普遍,尤其線上征信數(shù)據(jù)因為征信渠道覆蓋不全、超時、前期未取數(shù)等多原因經(jīng)常會出現(xiàn)大批量的數(shù)據(jù)確實問題,這會導(dǎo)致一些不能處理缺失值的分析方法無法應(yīng)用。
因此,在評分卡模型開發(fā)的第一步我們就要進行缺失值處理。缺失值處理的方法,包括如下幾種:直接刪除含有缺失值的樣本;根據(jù)樣本之間的相似性填補缺失值;根據(jù)變量之間的相關(guān)關(guān)系填補缺失值。
3.1.2極端值處理
缺失值處理完畢后,我們還需要進行異常值處理。異常值是指明顯偏離大多數(shù)抽樣數(shù)據(jù)的數(shù)值,比如個人客戶的年齡為0時,通常認為該值為異常值。找出樣本總體中的異常值,通常采用離群值檢測的方法。
3.2 探索性分析、變量處理和選擇
3.2.1 探索性分析
探索性分析有助于幫助我們對數(shù)據(jù)結(jié)構(gòu)有較為直觀的認知,通過對已有的數(shù)據(jù)(特別是調(diào)查或觀察得來的原始數(shù)據(jù))在盡量少的先驗假定下進行探索,常用的探索性數(shù)據(jù)分析方法有:直方圖、散點圖和箱線圖等
3.2.2 變量處理
完成了數(shù)據(jù)異常處理之后并不是直接可以進模型的,需要對特定變量進行處理,如對定性變量進行量化(如婚姻狀態(tài),并不能簡單的用枚舉值1、2、3、4代替)。我個人常用的方法主要有:
1)變量分箱(binning)是對連續(xù)變量離散化(discretization)的一種稱呼。信用評分卡開發(fā)中一般有常用的等距分段、等深分段、最優(yōu)分段。
如年齡,在外面的業(yè)務(wù)場景中年齡越小和年齡越大,違約概率都會偏大,所以這塊需要做好分箱處理
2)WoE分析是對指標(biāo)分箱、計算各個檔位的WoE值并觀察WoE值隨指標(biāo)變化的趨勢。在進行分析時,我們需要對各指標(biāo)從小到大排列,并計算出相應(yīng)分檔的WoE值。
其中:正向指標(biāo)越大,WoE值越??;反向指標(biāo)越大,WoE值越大
3.2.3 變量選擇
我們會用經(jīng)過清洗后的數(shù)據(jù)看一下變量間的相關(guān)性。注意,這里的相關(guān)性分析只是初步的檢查,進一步檢查模型的IV(證據(jù)權(quán)重)作為變量篩選的依據(jù)。此處較簡單,在此不贅述。
總之,數(shù)據(jù)處理的過程是占據(jù)整個標(biāo)準(zhǔn)評分卡構(gòu)建的最大的工作量,整體的目標(biāo)是:排除異常值對模型訓(xùn)練的干擾,將所有變量進行量化處理,自變量對因變量有明顯的解釋性,變量之間無明顯相關(guān)性。
三、模型構(gòu)建與評分卡轉(zhuǎn)換
1. 模型構(gòu)建
將處理好的變量進入模型,邏輯回歸模型較為簡單,訓(xùn)練速度也很快,實現(xiàn)邏輯回歸模型的工具也很多,在此不多贅述,讀者可以根據(jù)自己的興趣選擇合適的實現(xiàn)方法。
邏輯回歸的表達形式如下:
p代表一個樣本是bad樣本的概率,P越大bad概率越大,x指的是進入模型的各個變量,β為該變量的系數(shù),通過上述表達式,我們知道如果某個變量的β為正值,那么x越大則p越大,代表這個變量越大越壞。
通過工具,我們可以計算出一組訓(xùn)練集對應(yīng)的變量,下為展示截圖:
2. 評分卡轉(zhuǎn)換
上為邏輯回歸模型的構(gòu)建過程,而邏輯回歸模型可以通過以下步驟轉(zhuǎn)化為評分卡。
由邏輯回歸的基本原理,我們將客戶違約的概率表示為p,則正常的概率為1-p。因此,可以設(shè):
此時,客戶違約的概率p可表示為:
根據(jù)邏輯回歸計算可得:
評分卡設(shè)定的分值刻度可以通過將分值表示為比率對數(shù)的線性表達式來定義,即可表示為下式:
其中,A和B是常數(shù)。式中的負號可以使得違約概率越低,得分越高。通常情況下,這是分值的理想變動方向,即高分值代表低風(fēng)險,低分值代表高風(fēng)險。
式中的常數(shù)A、B的值可以通過將兩個已知或假設(shè)的分值帶入計算得到。通常情況下,需要設(shè)定兩個假設(shè):
(1)給某個特定的比率設(shè)定特定的預(yù)期分值;
(2)確定比率翻番的分?jǐn)?shù)(PDO)
根據(jù)以上的分析,我們首先假設(shè)比率為x的特定點的分值為P。則比率為2x的點的分值應(yīng)該為P-PDO。代入式中,可以得到如下兩個等式:
假設(shè)我們期望x=(bad/good)=5%時的分值為50分,PDO為10分(即每增加10分bad/good比例就會縮減一半),代入式中求得:B=14.43,A=6.78,這個時候bad/good=10%時score=40
評分卡刻度參數(shù)A和B確定以后,就可以計算比率和違約概率,以及對應(yīng)的分值了。通常將常數(shù)A稱為補償,常數(shù)B稱為刻度。則評分卡的分值可表達為:
式中:變量x1…xn是出現(xiàn)在最終模型中的自變量,即為入模指標(biāo)。由于此時所有變量都用WOE轉(zhuǎn)換進行了轉(zhuǎn)換,可以將這些自變量中的每一個都寫(βiωij)δij的形式:
式中ωij 為第i行第j個變量的WOE,為已知變量;βi為邏輯回歸方程中的系數(shù),為已知變量;δij為二元變量,表示變量i是否取第j個值。上式可重新表示為:
此式即為最終評分卡公式。如果x1…xn變量取不同行并計算其WOE值,式中表示的標(biāo)準(zhǔn)評分卡格式,基礎(chǔ)分值等于(A?Bβ0);由于分值分配公式中的負號,模型參數(shù)β0,β1,…,βn也應(yīng)該是負值;變量xi的第j行的分值取決于以下三個數(shù)值:
總的來說整體的思想就是根據(jù)每個變量的系數(shù)進行評分轉(zhuǎn)換,好的變量我們給與高的評分,壞的變量給與低分或者負分。
本文構(gòu)建的評分卡如下(本文的odds設(shè)為50):
從上表來看,評分卡的表達形式是很簡單的,如學(xué)歷是碩士加幾分這樣。但是很多人就以為評分卡是拍腦袋出來的,這是個非常錯誤的想法,每一個變量的評分多少都是基于模型的結(jié)果,所以在此也給部分風(fēng)控從業(yè)者小小的提示一下:評分卡是一個科學(xué)的度量工具,不是拍腦袋盲人摸象就能出來的,只知其一不知其二是很可怕的事情。
本文樣本中在驗證集上最終構(gòu)建的評分卡結(jié)果表現(xiàn)如下:
X軸代表不同的評分區(qū)間,柱狀圖代表驗證集下該評分區(qū)間的人數(shù),折線圖代表該評分區(qū)間的bad比例,我們發(fā)現(xiàn)柱狀人數(shù)在整體評分區(qū)間下基本呈現(xiàn)正態(tài)分布,整體bad占比隨著評分上升違約率不斷下降,證明這是一個較為行之有效的評分卡,可以利用評分卡的結(jié)果做更多的策略應(yīng)用(為保護業(yè)務(wù)數(shù)據(jù)隱私,已隱藏)。
上述是根據(jù)模型訓(xùn)練出來的結(jié)果在驗證集中的表現(xiàn)情況,當(dāng)有一個新的進件申請時,參考上述評分卡,可以對新進件有一個直觀的評分,并基于模型表現(xiàn)可以大概預(yù)計新進件的違約概率,以此在業(yè)務(wù)決策中給出決定性的意見。
四、結(jié)論與展望
本文以經(jīng)典的邏輯回歸模型為主,結(jié)合實際業(yè)務(wù)數(shù)據(jù)構(gòu)建一套評分卡模型,以此來幫助更好的理解評分卡模型的構(gòu)建流程,以期能夠幫助風(fēng)控從業(yè)者更好的理解評分卡的本質(zhì)、目的和應(yīng)用。
更進一步的,我們在實際的風(fēng)控業(yè)務(wù)應(yīng)用中,評分卡模型的思路除了傳統(tǒng)的申請信用平分之外,已經(jīng)拓展到更多的業(yè)務(wù)場景,關(guān)鍵是在于定義好尋求的目標(biāo)target,如是否團伙、是否羊毛黨、是否DDOS攻擊等等,并結(jié)合對目標(biāo)的理解尋覓適合的變量。
用評分卡這種通用的方法可以解決在風(fēng)控領(lǐng)域絕大多數(shù)拍腦袋的問題,真正的以數(shù)據(jù)來驅(qū)動業(yè)務(wù)。當(dāng)然評分卡的模型可以是多種的,讀者在了解評分卡的本質(zhì)基礎(chǔ)上可以嘗試做更多試探性的研究。
參考文獻
[1]WoodS, Reynolds J. Leveraging locational insights within retail store development?Assessing the use of location planners’ knowledge in retail marketing[J].Geoforum, 2012, 43(6):1076-1087.
[2]MaioV D, Prodan R, Benedict S, et al. Modelling energy consumption of networktransfers and virtual machine migration [J]. Future Generation ComputerSystems, 2016, 56(C):388-406.
[3]Murthi,B. P S, Steffes. Developing a measure of risk adjusted revenue (RAR) in creditcards;market: Implications for customer relationship management[J]. EuropeanJournal of Operational Research, 2013, 224(2):425-434.
[4]朱衛(wèi)東, 吳鵬. 引入TOPSIS法的風(fēng)險預(yù)警模型能提高模型的預(yù)警準(zhǔn)確度嗎?——來自我國制造業(yè)上市公司的經(jīng)驗證據(jù)[J]. 中國管理科學(xué), 2015, 23(11):96-104.
[5]丁衛(wèi)東. 信用評分卡在電商小微企業(yè)信貸中的應(yīng)用[D]. 浙江大學(xué), 2016.
[6]鞠勐. N銀行Y支行個人貸款信用風(fēng)險管理研究[D]. 南京師范大學(xué), 2015.
作者:獨孤qiu敗,微信公眾號:互聯(lián)網(wǎng)風(fēng)控那些事兒(anti_fraud_share),互聯(lián)網(wǎng)行業(yè)風(fēng)控產(chǎn)品經(jīng)理,定期分享互聯(lián)網(wǎng)風(fēng)控相關(guān)業(yè)界動態(tài)、系統(tǒng)設(shè)計方案、模型算法。
本文由 @獨孤qiu敗 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
大哥 能說一下那個β是怎么算的嗎
看了這么多科普文章,感覺就本文屬實是干貨,已收藏~~~
啊 果然看到了注冊時間這個變量。。