評分模型性能不穩定?你需要知道這些
編輯導語:評分模型的性能穩定是很重要的,那什么樣的模型才算表現穩定的模型呢?如何確信模型穩定性是否發生了變化?什么原因導致模型的性能不穩定?如果模型不穩定了該采取什么措施?帶著這四個疑問,我們一起來看本文作者的解答。
對風控模型分類能力強弱的評估有一個前提條件,那就是風控模型的性能是穩定的,脫離了這個前提條件,分類能力再強的風控模型實用性也不高。
既然穩定性非常重要,那么什么樣的模型才算表現穩定的模型?如何衡量模型的穩定性呢?影響模型穩定性的因素有哪些呢?如果模型不穩定了該采取什么措施呢?
本文帶大家一探究竟!
一、什么樣的模型才算表現穩定的模型?
模型穩定性高是指模型的預測能力在時間維度上是一致的,即模型在測試集、時間外樣本集、線上測試和正式使用的時候有同樣的區分度;而模型預測能力不穩定的直觀表現是原本評分為500分的客戶大概率是個好。
二、如何確信模型穩定性是否發生了變化?
實踐中常用PSI指標衡量模型的穩定性,PSI指標是指群體穩定性指數(Population Stability Index),PSI反映了不同樣本在各分數段的分布的穩定性。
PSI的計算公式如下:
其中:A表示實際樣本,E表示預期樣本。
公式的意思是分別計算每一分箱內的實際樣本占比減預期樣本占比之差和實際樣本占比除以預期樣本占比的對數的乘積,然后將每個分箱內的這個乘積求和,這個求和值就是PSI。
下表表示PSI值的變動范圍所代表的意義:
需要注意的是,PSI指標變化只反映兩類群體變化大小,但不反映變化的方向。
下面以案例說明PSI的計算方式(數據不代表實際意義):
我們將評分卡開發時的樣本和當前的樣本進行比對,用同一個模型對兩個樣本打分后按照信用評分升序排序,并進行等寬分箱[1],即每個箱內(或分數區間)的信用評分差都相同;然后計算每個箱子內的實際樣本[2]占全部實際樣本的比例,并列入實際樣本占比列。
預期樣本[3]按照同樣的模型預測信用評分后升序排序,并按照相同的分數區間計算每個分箱內的預期樣本占全部實際樣本的比例。
[1]在做模型排序能力表的時候用的是等頻分箱,與這邊的等寬分箱不同。
[2]這里的實際樣本用的是模型開發時候訓練集中壞樣本的數據。
[3]這里的預期樣本用的是當前壞樣本的數據。
我們將預期樣本占比列與實際樣本占比列兩列數據做對比柱狀圖(見下圖):
我們看到兩個分布的PSI值達到0.256,超過了0.25,因此可以認為兩個樣本的分布發生了明顯的變化,然后再觀察發現預期樣本評分的平均數大于實際樣本評分的平均數,因此可以認為預期樣本向高分段變動了。
三、什么原因導致模型的性能不穩定?
如果發現模型不穩定了,是什么原因導致模型的性能不穩定?
模型是一把尺,尺不會變長,也不會變短,那么導致衡量不準的原因只可能是客戶變化的原因,具體講就是好壞客戶分布變化的原因。
我們以好壞樣本評分分布圖為例說明:
上圖表示好壞客戶在評分模型上的分布,可以看到好客戶主要分布在高分區間,而壞客戶主要分布在低分區間,兩個分布交叉的地方表示模型無法有效區分的區域。
最好的模型是使得兩類分布沒有交叉,最壞的模型則是兩類分布完全重合。中間垂直的虛線表示評分的閾值,高于閾值的為好客戶,低于閾值的為壞客戶。
因此,影響模型區分度的因素可以分為兩個:
- 第一個是模型的排序能力,也就是模型是否能夠將兩類客戶的分布盡可能的分開,使得交叉的部分足夠小;
- 第二個是評分的閾值,也就是如何將兩類樣本分布的交叉區域進行劃分。
假如客戶群體發生了變化,那么變化的類型可以分為四類:
1. 壞客戶的評分朝著高分段偏移而好客戶的評分朝著低分段偏移(見上圖a)
反映到實際的情況是全部客戶的評分均值變小,且好客戶和壞客戶的評分均值之差也變小。
分析:這種變化是導致模型預測能力下降最常見和最主要的原因。因為壞客戶和好客戶分布的交叉區域變大,意味著模型的排序能力降低,從而導致模型的區分度下降。
發生這類變化的原因有可能是宏觀經濟惡化導致客戶整體的還款能力下降,或者公司業務轉型導致目標客戶發生變化,或者公司業務團隊在某段時間內集中某一類的客戶過度營銷,或者數據質量不穩定的原因。
2. 壞客戶的評分朝著低分段偏移而好客戶的評分朝著高分段偏移(見上圖b)
反映到實際的情況是全部客戶的評分均值變大,且好客戶和壞客戶的評分均值之差也變大。
分析:第二種變化的結果是改善型的,模型的區分度不僅沒有下降,反而比以前更高了,實踐中幾乎不可能發生。
3. 壞客戶和好客戶的評分一起朝著高分段偏移
反映到實際的情況就是全部客戶的評分均值變大,但好客戶和壞客戶的平分均值之差不變。
分析:這種變化相當于評分閾值的被動下調,從而導致提高了違約率,提升了通過率,但是模型的排序能力變化不大。
4. 壞客戶和好客戶的評分同時朝著低分段偏移
反映到實際的情況就是全部客戶的評分均值變小,但好客戶和壞客戶的平均均值之差不變。
分析:這種變化相當于評分閾值的上調,從而降低了通過率和違約率,但是模型的排序能力變化不大。
四、如果模型不穩定了該采取什么措施?
對于第二種變化,我們無需做任何調整。對于第三和第四種變化,我們只需要相應調整評分閾值。但是對于第一種變化,調整評分閾值無能為力,因為這是模型排序能力變化導致的。
是不是遇到第一類情況就一定要更換模型了呢?有沒有其他的應對措施呢?
首先我們得分析導致客戶分布發生變化的原因:
1. 第一類是從時間切片的角度統計分類客戶的PSI
例如我們通過計算每個月末的分類客戶PSI值,發現某一類客戶的PSI值連續發生較大變化,我們可以單獨分析該類客戶PSI變化的原因。
如果是該類客戶所在的行業變動,地區性災難(地震、洪水、疫情)等短期內不可逆的因素,建議將類似客戶拒絕進件。若是公司營銷部門針對某一類客戶過度營銷,建議與業務團隊溝通優化業務方向。
2. 第二種是從特征角度考慮
即整體客群整體好壞比不變的情況下客群結構發生變化,此時可以考慮重新調整個別特征的分箱。
如果在客群變化的情況下,特征的每個分箱的好壞比與模型開發時候的好壞比變化了,那么每個分箱WOE也就發生變化,從而影響模型的排序能力。
因此如果能夠將特征的分箱重新調整,使得新的分箱內的壞好比恢復到和模型開發時候一樣,那就恢復了模型的排序能力。
舉個例子:假如模型上線6個月后,我們觀察到收入特征有如下變化(這里收入分箱是在模型開發階段根據最優分箱的方法進行分箱的結果,過去壞好比是指模型開發階段時訓練集按照最優分箱后的壞好比。當前壞好比,是將模型上線6個月后的樣本按照上述最優分箱進行分箱后求得的壞好比):
從上表可以看到,當前全部客戶的壞好比與評分卡開發的時候全部客戶壞好比相差不大(這是必須要滿足的前提),但是當前壞好比在每個收入分段與過去壞好比有明顯的差異。
例如:在高收入區間內,當前違壞好比比過去壞好比高,而在低收入區間內,當前壞好比比過去壞好比低,這反映了壞客戶在收入維度的偏移,進而導致模型的區分度下降。
因此原本的分箱已經不適用于當前的情況,我們需要調整分箱,使得調整后新的分箱的每個收入分段內的當前壞好比與過去壞好比一樣。
值得注意的是:采用這辦法需要滿足當前全部客戶的好壞比和過去全部客戶的好壞比保持一致的條件,如果信貸環境和客群質量發生不穩定的情況,使得條件無法滿足,這種方法就無法使用,只能重新開發評分卡。
五、總結
PSI本身不是直接衡量模型穩定性的指標,而是通過衡量客群分布變化,間接反映模型預測能力穩定性指標。
PSI指標傳遞的信息有限,僅能夠反映客戶分布是否發生了變化以及變化的程度,但不能反映變化的方向以及變化原因,因此要我們需要結合業務實際分析PSI值變化背后的深層次原因,并采取針對性的措施化解負面影響。
以上,是我對模型穩定性及反應指標PSI的理解,期待與大家交流討論!
本文由 @FAL金科應用研院 原創發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自 unsplash,基于 CC0 協議
- 目前還沒評論,等你發揮!