AV中文无码韩国亚洲色偷偷,99精品国产一区二区三区2021,久久九九国产精品怡红院

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

如何謹慎地評估一個數據源

并步跳步交叉步

2022-11-23

0 評論 2966 瀏覽 8 收藏

12 分鐘

對于金融機構而言，流量和風控決定利潤，而數據質量是風控核心。為提升風控水平，會引入第三方數據源。本文從線下數據測試與線上模擬測試兩個流程，介紹如何謹慎地評估一個數據源，一起來看一下吧。

一、概述：

對于金融機構而言，流量和風控決定利潤，而數據質量是風控核心。為提升風控水平，會引入三方數據源，一般都會思考兩個方面：數據能否用，數據如何用。本篇文章會從線下數據測試與線上模擬測試兩個流程介紹如何謹慎地評估一個數據源。通常情況下：

優化現有的模型，一般會考慮接入變量類和原始數據類；
用來設計策略，一般會接入黑名單類，評分類的數據或者變量類；
豐富用戶畫像的維度，這種數據能反映用戶的某些屬性，一般考慮原始數據類。

二、常用指標說明

1. 覆蓋率

覆蓋率是考量數據覆蓋程度的指標，又叫查得率。根據業務情況和數據的應用場景，確定數據覆蓋程度的需求，覆蓋率越高越好。

2. 有效性

分析單變量的KS 、GINI、IV 值、趨勢。同時，還要考量數據的可解釋性和趨勢的穩定性。

1）KS

用以評估對好、壞客戶的判別區分能力，計算累計壞客戶與累計好客戶百分比的最大差距。KS值范圍在0%-100%，評分類的變量，一般要求ks>20%，變量類的數據一般要求ks>10%。

2）GINI系數

也是用于模型風險區分能力進行評估。GINI統計值衡量壞賬戶數在好賬戶數上的的累積分布與隨機分布曲線之間的面積，好賬戶與壞賬戶分布之間的差異越大，GINI指標越高，表明風險區分能力越強。

3）IV 值

信息價值，用來表示特征對目標預測的貢獻程度，即特征的預測能力，一般來說，IV值越高，該特征的預測能力越強，信息貢獻程度越高。

3. 穩定性

無論是評分類還是變量類的數據源，都需要評估穩定性。穩定性的評估是需要參照了，一般使用PSI指標，對比預期分布與實際分布的差異。

當特征變化過于劇烈時，并不是一定確定該數據源/特征不使用，而是要先去了解變化產生的原因。

4. 共線性

共線性又叫做多重共線性，是指自變量之間存在較強的，甚至完全的線性相關關系。當自變量之間存在共線性時，模型的參數會變得極其不穩定，模型的預測能力會下降。

許多第三方的數據衍生邏輯都是笛卡爾積遍歷所有組合的可能。因此，在建模前期變量的篩選環節，就需要采取有效措施避免共線性問題。容忍度（Tolerance）、方差膨脹因子（Variance inflation factor, VIF）、特征根（Eigenvalue）、條件指數（Condition Idex）等，都是考察手段。