數據把戲:為什么總有乙方號稱他的模型效果達到 0.6?
風控是個很專業的領域,避免不了內行忽悠外行的現象。而數據把戲(Trick of Data)就是其中常見的一種。如何識別和應對呢?
在讀研究生的時候,曾經跟師弟們做過一次交流,其中舉到一個例子:
如果因變量是中國的人均GDP,自變量包括你家門口的那棵樹的高度,你用了簡單的模型去擬合,結果你會得到“你家門口樹的高度,對中國人均GDP有著顯著的促進關系?!边@樣啼笑皆非的結論。
為什么會這樣?
主要是因為我們過多的重視了變量之間數量上的關系,而忽略了變量之間的經濟學聯系,缺乏了經濟學理論的思考才會這樣。
這樣的結論就是一種數據把戲(Trick of Data)。
工作之后,發現也有很多需要模型的地方,而跟很多風控乙方溝通發現很多乙方都會用種種Trick of Data?來忽悠并不是專業做模型的業務人員,所以從今天開始會更新幾篇關于這種數據把戲的文章,各位在做業務交流的時候可以避免類似的坑。
EP01?為什么總有乙方號稱他的模型效果達到0.6?
我相信做風控策略的小伙伴在與風控乙方接觸的時候,總會有那么幾個乙方會去推銷自己的某個數據或者模型分,而模型的區分效果張口就是0.5甚至0.6,回去一查,哎喲,這是個很好的模型啊,趕緊簽商務合同接進來試試,結果發現差強人意?
這個時候乙方的銷售會說一定是你們的業務跟模型樣本不太匹配,要不我們再聯合建模下?
你不信邪,自己開始做模型,結果怎么都達不到人家的精度,你是不是開始郁悶:
為什么乙方的模型能達到這么高的k-s,你卻不行?
首先,什么是風控模型中的KS值?
KS用于模型風險區分能力進行評估:指標衡量的是好壞樣本累計分部之間的差值。
KS的計算步驟如下:
1.?計算每個評分區間的好壞賬戶數。
2.?計算每個評分區間的累計好賬戶數占總好賬戶數比率(good%)和累計壞賬戶數占總壞賬戶數比率(bad%)。
3.?計算每個評分區間累計壞賬戶占比與累計好賬戶占比差的絕對值(累計good%-累計bad%),然后對這些絕對值取最大值即得此評分卡的K-S值。
所以確實是這樣:
好壞樣本累計差異越大,KS指標越大,那么模型的風險區分能力越強。
因為K-S值確實是代表著很強大的區分力,所以很多甲方的業務同伴就會被忽悠,那在排除乙方銷售在數據造假的情況下,為什么有的乙方確實就能宣稱自己模型K-S值高達0.6呢?這主要有以下幾種可能:
1. 建模樣本壞樣本比例過高
如果建模過程中壞樣本比例過高,那么是可以有機會達到這個值的。
舉例如下:
(1)如果建模樣本中好壞樣本比例good/bad=50/50,壞賬率為50%;k-s值0.6指的是如果在誤殺20%好用戶的情況下可以識別80%的壞樣本;那么使用模型之后的結果為good/bad=40/10,壞賬率變為20%;這個我們做風控策略的人都知道在使用一些較好的變量的情況下是有可能的,因為畢竟做到50%的壞賬已經是夠爛的了。
(2)如果建模樣本中好壞樣本比例good/bad=80/20,壞賬率為20%;k-s值0.6指的是如果在誤殺20%好用戶的情況下可以識別80%的壞樣本;那么使用模型之后的結果為good/bad=64/4,壞賬率變為5.88%,其實我們知道這個一個模型是很難做到。
通過上述這個例子我們知道,不同的樣本比例的情況下K-S值提升的難度是有很大不同的,不同模型的K-S值比較優劣前提是要基于建模樣本比例類似,否則不具有橫向比較性。
2. 樣本滯后性
乙方一般選用的樣本都是來自于甲方數月之前的業務數據,但是選用變量的時候存在著滯后性,而這種滯后性會導致變量偏差,比如最簡單的芝麻信用分,在3個月前進行業務申請的時候是680,但是此時該用戶的芝麻信用分因為多次逾期已經降到550了,所以在建模的時候有很多模型方都沒有考慮到這種變量時滯性,尤其是重要變量的時滯性,導致模型能夠得到一個超高的k-s。
3. 模型過擬合
這個我相信專業的建模人員都不太會去犯這樣的錯誤,但是不可否認還是有很多良莠不齊的乙方用不懂業務的純建模人員,在這樣的過程中會犯類似的錯誤,尤其是深度神經網絡和隨機森林這樣的算法,刻意的調參有可能達到過高的k-s值,這才是真正的數據把戲。
模型的k-s值是一個很好的體現模型效果的變量,但是一定要注意了,不要被這樣的數據把戲給蒙蔽了,業務人員還是要懂一點模型才不至于被忽喲,當然風控的建模人員也要懂一點業務才行。
作者:獨孤qiu敗,微信公眾號:互聯網風控那些事兒(anti_fraud_share),互聯網行業風控產品經理,定期分享互聯網風控相關業界動態、系統設計方案、模型算法。
本文由 @獨孤qiu敗 原創發布于人人都是產品經理,未經許可,禁止轉載
題圖來自 Unsplash,基于 CC0 協議
- 目前還沒評論,等你發揮!