黄色网站无码在线观看,一区二区三区精品视频日本

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

評分卡都看不懂，怎么能說自己是做風(fēng)控的？

獨孤qiu敗

2018-10-29

3 評論 36471 瀏覽 160 收藏

19 分鐘

隨著互聯(lián)網(wǎng)在傳統(tǒng)金融和電子商務(wù)領(lǐng)域的不斷滲透，風(fēng)控+互聯(lián)網(wǎng)的融合也對傳統(tǒng)的風(fēng)控提出了新的要求和挑戰(zhàn)。以評分卡為例，互聯(lián)網(wǎng)形態(tài)下的評分卡需要面臨更多維數(shù)據(jù)、更實時數(shù)據(jù)、更異常數(shù)據(jù)的挑戰(zhàn)。因此，懂得互聯(lián)網(wǎng)業(yè)務(wù)下的風(fēng)控評分卡已經(jīng)成為互聯(lián)網(wǎng)風(fēng)控從業(yè)人員的新要求。

在之前的文章中，有好幾位業(yè)內(nèi)朋友溝通說要有一篇關(guān)于風(fēng)控評分卡的教程類的文章，于是趁著周末趕緊完成了這篇似是而非的working paper。

一、引言

這兩年隨著互聯(lián)網(wǎng)電商業(yè)務(wù)和互聯(lián)網(wǎng)金融業(yè)務(wù)的興起，原本著力于銀行、證券、信托等傳統(tǒng)金融領(lǐng)域的風(fēng)控職能的HC，在這兩大塊也越來越多，而互聯(lián)網(wǎng)自身獨特屬性的加入又給這個已經(jīng)存在了近一百年的崗位賦予了新的外延與生命。

無論是風(fēng)控職能中的什么崗位，產(chǎn)品、策略、數(shù)據(jù)分析、模型等等，最終都是要跟業(yè)務(wù)掛鉤，而孕育風(fēng)控崗位的金融業(yè)務(wù)又是一個天生以數(shù)據(jù)驅(qū)動的行業(yè)，這也就決定了風(fēng)控天生的“數(shù)字”屬性。

這個屬性無論是在傳統(tǒng)金融領(lǐng)域、新興的互聯(lián)網(wǎng)金融乃至更為廣泛的電商領(lǐng)域，都無法磨滅其數(shù)學(xué)的印跡。

“數(shù)據(jù)驅(qū)動業(yè)務(wù)”是風(fēng)控的核心，無論是金融風(fēng)控還是電商風(fēng)控！數(shù)學(xué)是定量解決復(fù)雜問題最有效的工具，在做風(fēng)控的過程中你會發(fā)現(xiàn)你遺失多年的概率論、矩陣都開始有了新的用武之地。

在當(dāng)前的互聯(lián)網(wǎng)環(huán)境下，互聯(lián)網(wǎng)風(fēng)控已經(jīng)成為了一項數(shù)學(xué)、金融學(xué)、信息安全、管理科學(xué)、行為心理學(xué)等多學(xué)科交叉的復(fù)雜業(yè)務(wù)，以定量/定性分析的思維，使用傳統(tǒng)的經(jīng)濟學(xué)分析范式：

在橫向時間線上需要做到預(yù)知風(fēng)險、監(jiān)控風(fēng)險和處置風(fēng)險；
在縱向流程線上做到發(fā)現(xiàn)問題、分析問題和解決問題。

而作為風(fēng)控最重要的工具之一“評分卡”自然而然就是這種套路的產(chǎn)物，所以作為風(fēng)控從業(yè)者，看懂評分卡已經(jīng)成為了風(fēng)控從業(yè)人員的基本素質(zhì)之一。

本文以經(jīng)典的邏輯回歸模型為主，完成一套標(biāo)準(zhǔn)評分卡構(gòu)建。

二、樣本準(zhǔn)備與數(shù)據(jù)處理

本文所使用數(shù)據(jù)來源于某平臺某年度數(shù)十萬信貸樣本數(shù)據(jù)，為保證業(yè)務(wù)隱私業(yè)務(wù)指標(biāo)與關(guān)鍵變量已做脫敏處理，僅用于展示評分卡構(gòu)建過程。

1. 樣本選取

選取一定時間周期內(nèi)該平臺上的信貸樣本數(shù)據(jù)（以人為維度），按照會員號尾號（0-9）切分的方式做隨機樣本集，最終選取訓(xùn)練集17萬，測試集11萬，驗證集11萬。

為了更好表述樣本特征，其中以逾期超過X天為bad樣本（label為1），逾期小于y天為good樣本（lable為0），中間模糊樣本暫不進入模型訓(xùn)練。

具體以0-1樣本的劃分標(biāo)準(zhǔn)以實際業(yè)務(wù)為準(zhǔn)，信貸業(yè)務(wù)中重點還是看貸后的遷移情況。

2. 變量選取

基于選中的數(shù)十萬樣本，結(jié)合業(yè)務(wù)的經(jīng)驗，選擇數(shù)百描述性變量，并對變量做進一步衍生工作。

基于不同的業(yè)務(wù)形式有不同的變量選擇，每一個模型會有不同的樣式，具體需要結(jié)合對業(yè)務(wù)的理解進行模型構(gòu)建。此處讀者可針對性的學(xué)習(xí)“特征選擇”相關(guān)知識。

以下為模型選擇的一小部分變量截圖，部分敏感變量做脫敏處理：

【深夜22點半】評分卡都看不懂，怎么能說自己是做風(fēng)控的？本文手把手教你做標(biāo)準(zhǔn)評分卡

3. 數(shù)據(jù)處理

數(shù)據(jù)處理是模型構(gòu)建之前最核心的也是最費工時的步驟，需要數(shù)據(jù)處理人員對于數(shù)據(jù)的來源、特點、字段本質(zhì)有著較為深入的理解，才能有效處理好數(shù)據(jù)，失去了意義的數(shù)據(jù)僅僅是數(shù)字而已。

3.1 異常數(shù)據(jù)處理

異常數(shù)據(jù)指的是因為多種不可預(yù)知的原因（數(shù)據(jù)原因、樣本原因、技術(shù)原因、歷史原因）導(dǎo)致的不能建模數(shù)據(jù)，常見的主要指的是缺失值和極端值。

3.1.1缺失值處理

這種情況在現(xiàn)實問題中非常普遍，尤其線上征信數(shù)據(jù)因為征信渠道覆蓋不全、超時、前期未取數(shù)等多原因經(jīng)常會出現(xiàn)大批量的數(shù)據(jù)確實問題，這會導(dǎo)致一些不能處理缺失值的分析方法無法應(yīng)用。

因此，在評分卡模型開發(fā)的第一步我們就要進行缺失值處理。缺失值處理的方法，包括如下幾種：直接刪除含有缺失值的樣本；根據(jù)樣本之間的相似性填補缺失值；根據(jù)變量之間的相關(guān)關(guān)系填補缺失值。

3.1.2極端值處理

缺失值處理完畢后，我們還需要進行異常值處理。異常值是指明顯偏離大多數(shù)抽樣數(shù)據(jù)的數(shù)值，比如個人客戶的年齡為0時，通常認為該值為異常值。找出樣本總體中的異常值，通常采用離群值檢測的方法。

3.2 探索性分析、變量處理和選擇

3.2.1 探索性分析

探索性分析有助于幫助我們對數(shù)據(jù)結(jié)構(gòu)有較為直觀的認知，通過對已有的數(shù)據(jù)(特別是調(diào)查或觀察得來的原始數(shù)據(jù))在盡量少的先驗假定下進行探索，常用的探索性數(shù)據(jù)分析方法有：直方圖、散點圖和箱線圖等

3.2.2 變量處理

完成了數(shù)據(jù)異常處理之后并不是直接可以進模型的，需要對特定變量進行處理，如對定性變量進行量化（如婚姻狀態(tài)，并不能簡單的用枚舉值1、2、3、4代替）。我個人常用的方法主要有：

1）變量分箱（binning）是對連續(xù)變量離散化（discretization）的一種稱呼。信用評分卡開發(fā)中一般有常用的等距分段、等深分段、最優(yōu)分段。

如年齡，在外面的業(yè)務(wù)場景中年齡越小和年齡越大，違約概率都會偏大，所以這塊需要做好分箱處理

2）WoE分析是對指標(biāo)分箱、計算各個檔位的WoE值并觀察WoE值隨指標(biāo)變化的趨勢。在進行分析時，我們需要對各指標(biāo)從小到大排列，并計算出相應(yīng)分檔的WoE值。

其中：正向指標(biāo)越大，WoE值越??；反向指標(biāo)越大，WoE值越大

3.2.3 變量選擇

我們會用經(jīng)過清洗后的數(shù)據(jù)看一下變量間的相關(guān)性。注意，這里的相關(guān)性分析只是初步的檢查，進一步檢查模型的IV（證據(jù)權(quán)重）作為變量篩選的依據(jù)。此處較簡單，在此不贅述。

總之，數(shù)據(jù)處理的過程是占據(jù)整個標(biāo)準(zhǔn)評分卡構(gòu)建的最大的工作量，整體的目標(biāo)是：排除異常值對模型訓(xùn)練的干擾，將所有變量進行量化處理，自變量對因變量有明顯的解釋性，變量之間無明顯相關(guān)性。

三、模型構(gòu)建與評分卡轉(zhuǎn)換

1. 模型構(gòu)建

將處理好的變量進入模型，邏輯回歸模型較為簡單，訓(xùn)練速度也很快，實現(xiàn)邏輯回歸模型的工具也很多，在此不多贅述，讀者可以根據(jù)自己的興趣選擇合適的實現(xiàn)方法。

邏輯回歸的表達形式如下：

【深夜22點半】評分卡都看不懂，怎么能說自己是做風(fēng)控的？本文手把手教你做標(biāo)準(zhǔn)評分卡

p代表一個樣本是bad樣本的概率，P越大bad概率越大，x指的是進入模型的各個變量，β為該變量的系數(shù)，通過上述表達式，我們知道如果某個變量的β為正值，那么x越大則p越大，代表這個變量越大越壞。

通過工具，我們可以計算出一組訓(xùn)練集對應(yīng)的變量，下為展示截圖：

【深夜22點半】評分卡都看不懂，怎么能說自己是做風(fēng)控的？本文手把手教你做標(biāo)準(zhǔn)評分卡

2. 評分卡轉(zhuǎn)換

上為邏輯回歸模型的構(gòu)建過程，而邏輯回歸模型可以通過以下步驟轉(zhuǎn)化為評分卡。

由邏輯回歸的基本原理，我們將客戶違約的概率表示為p，則正常的概率為1-p。因此，可以設(shè)：

【深夜22點半】評分卡都看不懂，怎么能說自己是做風(fēng)控的？本文手把手教你做標(biāo)準(zhǔn)評分卡

此時，客戶違約的概率p可表示為：

【深夜22點半】評分卡都看不懂，怎么能說自己是做風(fēng)控的？本文手把手教你做標(biāo)準(zhǔn)評分卡

根據(jù)邏輯回歸計算可得：

【深夜22點半】評分卡都看不懂，怎么能說自己是做風(fēng)控的？本文手把手教你做標(biāo)準(zhǔn)評分卡

評分卡設(shè)定的分值刻度可以通過將分值表示為比率對數(shù)的線性表達式來定義，即可表示為下式：

【深夜22點半】評分卡都看不懂，怎么能說自己是做風(fēng)控的？本文手把手教你做標(biāo)準(zhǔn)評分卡

其中，A和B是常數(shù)。式中的負號可以使得違約概率越低，得分越高。通常情況下，這是分值的理想變動方向，即高分值代表低風(fēng)險，低分值代表高風(fēng)險。

式中的常數(shù)A、B的值可以通過將兩個已知或假設(shè)的分值帶入計算得到。通常情況下，需要設(shè)定兩個假設(shè)：

（1）給某個特定的比率設(shè)定特定的預(yù)期分值；

（2）確定比率翻番的分?jǐn)?shù)（PDO）

根據(jù)以上的分析，我們首先假設(shè)比率為x的特定點的分值為P。則比率為2x的點的分值應(yīng)該為P-PDO。代入式中，可以得到如下兩個等式：

【深夜22點半】評分卡都看不懂，怎么能說自己是做風(fēng)控的？本文手把手教你做標(biāo)準(zhǔn)評分卡

假設(shè)我們期望x=(bad/good)=5%時的分值為50分，PDO為10分(即每增加10分bad/good比例就會縮減一半)，代入式中求得：B=14.43，A=6.78，這個時候bad/good=10%時score=40

【深夜22點半】評分卡都看不懂，怎么能說自己是做風(fēng)控的？本文手把手教你做標(biāo)準(zhǔn)評分卡

評分卡刻度參數(shù)A和B確定以后，就可以計算比率和違約概率，以及對應(yīng)的分值了。通常將常數(shù)A稱為補償，常數(shù)B稱為刻度。則評分卡的分值可表達為：

【深夜22點半】評分卡都看不懂，怎么能說自己是做風(fēng)控的？本文手把手教你做標(biāo)準(zhǔn)評分卡

式中：變量x1…xn是出現(xiàn)在最終模型中的自變量，即為入模指標(biāo)。由于此時所有變量都用WOE轉(zhuǎn)換進行了轉(zhuǎn)換，可以將這些自變量中的每一個都寫(βiωij)δij的形式：

【深夜22點半】評分卡都看不懂，怎么能說自己是做風(fēng)控的？本文手把手教你做標(biāo)準(zhǔn)評分卡

式中ωij 為第i行第j個變量的WOE，為已知變量；βi為邏輯回歸方程中的系數(shù)，為已知變量；δij為二元變量，表示變量i是否取第j個值。上式可重新表示為：

【深夜22點半】評分卡都看不懂，怎么能說自己是做風(fēng)控的？本文手把手教你做標(biāo)準(zhǔn)評分卡

此式即為最終評分卡公式。如果x1…xn變量取不同行并計算其WOE值，式中表示的標(biāo)準(zhǔn)評分卡格式，基礎(chǔ)分值等于(A?Bβ0)；由于分值分配公式中的負號，模型參數(shù)β0，β1，…，βn也應(yīng)該是負值；變量xi的第j行的分值取決于以下三個數(shù)值：

【深夜22點半】評分卡都看不懂，怎么能說自己是做風(fēng)控的？本文手把手教你做標(biāo)準(zhǔn)評分卡

總的來說整體的思想就是根據(jù)每個變量的系數(shù)進行評分轉(zhuǎn)換，好的變量我們給與高的評分，壞的變量給與低分或者負分。

本文構(gòu)建的評分卡如下（本文的odds設(shè)為50）：

【深夜22點半】評分卡都看不懂，怎么能說自己是做風(fēng)控的？本文手把手教你做標(biāo)準(zhǔn)評分卡

從上表來看，評分卡的表達形式是很簡單的，如學(xué)歷是碩士加幾分這樣。但是很多人就以為評分卡是拍腦袋出來的，這是個非常錯誤的想法，每一個變量的評分多少都是基于模型的結(jié)果，所以在此也給部分風(fēng)控從業(yè)者小小的提示一下：評分卡是一個科學(xué)的度量工具，不是拍腦袋盲人摸象就能出來的，只知其一不知其二是很可怕的事情。

本文樣本中在驗證集上最終構(gòu)建的評分卡結(jié)果表現(xiàn)如下：

【深夜22點半】評分卡都看不懂，怎么能說自己是做風(fēng)控的？本文手把手教你做標(biāo)準(zhǔn)評分卡

X軸代表不同的評分區(qū)間，柱狀圖代表驗證集下該評分區(qū)間的人數(shù)，折線圖代表該評分區(qū)間的bad比例，我們發(fā)現(xiàn)柱狀人數(shù)在整體評分區(qū)間下基本呈現(xiàn)正態(tài)分布，整體bad占比隨著評分上升違約率不斷下降，證明這是一個較為行之有效的評分卡，可以利用評分卡的結(jié)果做更多的策略應(yīng)用（為保護業(yè)務(wù)數(shù)據(jù)隱私，已隱藏）。

上述是根據(jù)模型訓(xùn)練出來的結(jié)果在驗證集中的表現(xiàn)情況，當(dāng)有一個新的進件申請時，參考上述評分卡，可以對新進件有一個直觀的評分，并基于模型表現(xiàn)可以大概預(yù)計新進件的違約概率，以此在業(yè)務(wù)決策中給出決定性的意見。

四、結(jié)論與展望

本文以經(jīng)典的邏輯回歸模型為主，結(jié)合實際業(yè)務(wù)數(shù)據(jù)構(gòu)建一套評分卡模型，以此來幫助更好的理解評分卡模型的構(gòu)建流程，以期能夠幫助風(fēng)控從業(yè)者更好的理解評分卡的本質(zhì)、目的和應(yīng)用。

更進一步的，我們在實際的風(fēng)控業(yè)務(wù)應(yīng)用中，評分卡模型的思路除了傳統(tǒng)的申請信用平分之外，已經(jīng)拓展到更多的業(yè)務(wù)場景，關(guān)鍵是在于定義好尋求的目標(biāo)target，如是否團伙、是否羊毛黨、是否DDOS攻擊等等，并結(jié)合對目標(biāo)的理解尋覓適合的變量。

用評分卡這種通用的方法可以解決在風(fēng)控領(lǐng)域絕大多數(shù)拍腦袋的問題，真正的以數(shù)據(jù)來驅(qū)動業(yè)務(wù)。當(dāng)然評分卡的模型可以是多種的，讀者在了解評分卡的本質(zhì)基礎(chǔ)上可以嘗試做更多試探性的研究。

參考文獻

[1]WoodS, Reynolds J. Leveraging locational insights within retail store development?Assessing the use of location planners’ knowledge in retail marketing[J].Geoforum, 2012, 43(6):1076-1087.

[2]MaioV D, Prodan R, Benedict S, et al. Modelling energy consumption of networktransfers and virtual machine migration [J]. Future Generation ComputerSystems, 2016, 56(C):388-406.

[3]Murthi,B. P S, Steffes. Developing a measure of risk adjusted revenue (RAR) in creditcards;market: Implications for customer relationship management[J]. EuropeanJournal of Operational Research, 2013, 224(2):425-434.

[4]朱衛(wèi)東, 吳鵬. 引入TOPSIS法的風(fēng)險預(yù)警模型能提高模型的預(yù)警準(zhǔn)確度嗎?——來自我國制造業(yè)上市公司的經(jīng)驗證據(jù)[J]. 中國管理科學(xué), 2015, 23(11):96-104.

[5]丁衛(wèi)東. 信用評分卡在電商小微企業(yè)信貸中的應(yīng)用[D]. 浙江大學(xué), 2016.

[6]鞠勐. N銀行Y支行個人貸款信用風(fēng)險管理研究[D]. 南京師范大學(xué), 2015.

作者：獨孤qiu敗，微信公眾號：互聯(lián)網(wǎng)風(fēng)控那些事兒（anti_fraud_share），互聯(lián)網(wǎng)行業(yè)風(fēng)控產(chǎn)品經(jīng)理，定期分享互聯(lián)網(wǎng)風(fēng)控相關(guān)業(yè)界動態(tài)、系統(tǒng)設(shè)計方案、模型算法。

本文由 @獨孤qiu敗原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于CC0協(xié)議

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App