如何謹慎地評估一個數據源
對于金融機構而言,流量和風控決定利潤,而數據質量是風控核心。為提升風控水平,會引入第三方數據源。本文從線下數據測試與線上模擬測試兩個流程,介紹如何謹慎地評估一個數據源,一起來看一下吧。
一、概述:
對于金融機構而言,流量和風控決定利潤,而數據質量是風控核心。為提升風控水平,會引入三方數據源,一般都會思考兩個方面:數據能否用,數據如何用。本篇文章會從線下數據測試與線上模擬測試兩個流程介紹如何謹慎地評估一個數據源。通常情況下:
- 優化現有的模型,一般會考慮接入變量類和原始數據類;
- 用來設計策略,一般會接入黑名單類,評分類的數據或者變量類;
- 豐富用戶畫像的維度,這種數據能反映用戶的某些屬性,一般考慮原始數據類。
二、常用指標說明
1. 覆蓋率
覆蓋率是考量數據覆蓋程度的指標,又叫查得率。根據業務情況和數據的應用場景,確定數據覆蓋程度的需求,覆蓋率越高越好。
2. 有效性
分析單變量的KS 、GINI、IV 值、趨勢。同時,還要考量數據的可解釋性和趨勢的穩定性。
1)KS
用以評估對好、壞客戶的判別區分能力,計算累計壞客戶與累計好客戶百分比的最大差距。KS值范圍在0%-100%,評分類的變量,一般要求ks>20%,變量類的數據一般要求ks>10%。
2)GINI系數
也是用于模型風險區分能力進行評估。GINI統計值衡量壞賬戶數在好賬戶數上的的累積分布與隨機分布曲線之間的面積,好賬戶與壞賬戶分布之間的差異越大,GINI指標越高,表明風險區分能力越強。
3)IV 值
信息價值,用來表示特征對目標預測的貢獻程度,即特征的預測能力,一般來說,IV值越高,該特征的預測能力越強,信息貢獻程度越高。
3. 穩定性
無論是評分類還是變量類的數據源,都需要評估穩定性。穩定性的評估是需要參照了,一般使用PSI指標,對比預期分布與實際分布的差異。
當特征變化過于劇烈時,并不是一定確定該數據源/特征不使用,而是要先去了解變化產生的原因。
4. 共線性
共線性又叫做多重共線性,是指自變量之間存在較強的,甚至完全的線性相關關系。當自變量之間存在共線性時,模型的參數會變得極其不穩定,模型的預測能力會下降。
許多第三方的數據衍生邏輯都是笛卡爾積遍歷所有組合的可能。因此,在建模前期變量的篩選環節,就需要采取有效措施避免共線性問題。容忍度(Tolerance)、方差膨脹因子(Variance inflation factor, VIF)、特征根(Eigenvalue)、條件指數(Condition Idex)等,都是考察手段。
5. 相關性分析
可以進行相關性分析,分析數據的相關程度。數值特征與數值特征一般用協方差、prarson系數和舉例相關系數評估;而類別特征通常用卡方檢驗、Fisher得分、F檢驗、斯皮爾曼等級相關、Kendall相關系數來評估。
6. 投入產出評估
在整個評估環節中,最重要的環節,就是將數據聯動當前策略,結合三方數據服務的收費模式(常見的計費方式有按調量、按命中量計費計費,如果需求較大,也可以考慮談判用年/月包)評估這個接口的投入產出,最終評估,這個接口上線后所產生的收益能否覆蓋這個接口的支出。
三、離線測試
1. 提供線下測試樣本
根據接入目的的不同,測試樣本也會稍有差異,比如為了優化現有模型,就最好提供建模時所用的數據樣本。但大致上測試樣本需滿足以下幾點:
- 連續一段時間內的樣本,可以評估數據的穩定性;
- 最好是近段時間的樣本,這樣線下評估結果與線上實際效果差距不會太大;
- 其他特殊條件,如覆蓋不同的產品和客群。
注:如果不滿足連續性、穩定性、代表性這三個條件,測試結果可能是不準確的。
2. 了解數據源情況
一般第三方會提供產品說明,從中需要了解數據的底層邏輯和構成,了解數據背后的業務含義。同時也需要格外注意底層數據來源(中間環節越少越好)、更新頻率(越快越好)等信息。評估數據效果可以從策略角度,也可以從模型角度:
- 從策略角度主要是分析單變量的效果,查看是否有強區分度的單變量,可以用于但規則或者組合規則;
- 從模型角度主要是看數據整體效果,如果數據沒有較強區分度的單變量,但是整體效果不錯且價格低廉,也會被考慮。
3. 通用分析評估
從策略角度主要是分析單變量的效果,查看是否有強區分度的單變量,可以用于規則或者組合規則;從模型角度主要是看數據整體效果,如果數據沒有較強區分度的單變量,但是整體效果不錯且價格低廉,也會被考慮。
考察維度可以細分為以下7個:查得率、準確率(尤其是黑名單類)、穩定性(服務穩定性、特征穩定性psi)、模型效果(IV、KS)、性價比(按查詢次數、按命中次數、包月/年)、可解釋性(特征變量類是否具有業務含義、評分區間可解釋性)。
4. 特定數據源類別評估
四、線上模擬
雖然在歷史樣本上進行了完整的效果評估,已經證明將要上線的數據、模型、策略是有價值的。但市場環境和客群是一個動態變化的過程,況且歷史的數據都是在線下回溯的,線上數據與線下回溯數據是否有差異,是否會有操作失誤,都未可知。模擬線上測試就是要評估數據在真實應用時的效果。
模擬線上測試是將新策略在實際業務環境中運行,記錄相關結果,但并不做決策。
分析數據在線上環境的調取成功率。對比線上線下的數據分布、覆蓋率、策略設計的通過率是否一致。但費用受限,一般測試都是小樣本,從數據源評估的角度,新的模型/策略上線后,需要有完善的監控體系,監控整個數據的變化情況,方便快速地發現異常。
例如:接口的調用情況、數據的穩定性、數據缺失率、各個環節策略的轉化率、貸后逾期情況等,線上觀察實際上線效果,包括但不限于:
- 數據接口穩定性(接口調用是否正常、可靠)
- 特征變量數據分布穩定性、缺失率、準確率等
- 業務效果:如進件通過率(壞賬率需要一段時間,表現期較長)
五、小案例-黑名單評估
1. 評估指標
()查得率(Search rate)=查得數/樣本量
(2)覆蓋率(Cover rate)=查得命中黑名單數/樣本中命中黑名單量
(3)誤拒率(Error reject rate)=查得命中黑名單數/樣本中通過且為Good量
(4)有效差異率(Effective difference rate)=查得命中黑名單數/樣本中通過且Bad量
(5)無效差異率(Invalid difference rate)=查得命中黑名單數/樣本中其他拒絕量
其中SR、CR、EDR指標越高越好,ERR越低越好,IDR與EDR結合起來觀察,如果IDR和EDR都較高,反映的一種情況是數據源定義黑名單是廣撒網式,黑名單質量相對不夠精準。其中前三個指標是重點考察,如果想更全面的測試第三方數據源,后面兩個差異率指標也可以加入考核標準。數據統計:
2. 樣本測試命中情況
3. 評價指標統計
按照上文介紹的指標分析方法,對比數據源和數據源2的測試結果可以得出如下結論:
- 在查得率、覆蓋率兩個正向指標上,數據源均比數據源2有明顯優勢;
- 誤拒率這個負向指標上,數據源卻比數據源2低;
- 將無效差異率(IDR)與有效差異率(EDR)結合起來觀察,數據源2的兩者都較高,可能是廣撒網式,不夠精準。
最終分析結論:數據源2比較好。
作者:王小賓;微信公眾號:一起侃產品
本文由@并不跳步交叉步 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!