風控策略模型下集:模型這樣做

1 評論 7284 瀏覽 39 收藏 16 分鐘

模型開發是為業務需求服務的,高效解決業務的難點和痛點,就是模型開發的護城河。本文對模型開發中的模型定位和目標、標簽定義、樣本選擇等方面進行了概述,一起來看一下吧。

模型開發是為業務需求服務的,高效解決業務的難點和痛點,就是模型開發的護城河。而不是所謂的算法。

業務有什么樣的需求,模型就要做針對性的設計。這是實際工作中最吃功夫的內容。也是和那些建模比賽差異點最大的地方。

模型開發并不是一件容易的事情。所以更要確保各個環節合理有效,才能完成整個項目的交付。關鍵要點包括模型定位的合理性、數據質量的可靠性、建模方法的適用性、模型輸出的準確性,以及模型表現的穩定性。

模型開發周期可根據項目的需求及難度可以適當調整,開發期間通常需要安排至少 3 次里程碑會議。

  1. 立項會議:參會方應包括模型開發方、模型使用方(需求發起方)、以及模型驗證方。主要闡述模型立項的背景和目標,同時明確模型開發方、使用方、驗證方、及部署方的職責與排期;
  2. 初步匯報:由模型開發方展示模型初步的數據分析結果和建模思路,并與各方確定模型框架;
  3. 模型評審:模型方匯報模型開發的過程和結果,驗證方給出驗證結果,各方對模型結果和模型應用展開討論,確定最終版模型。

我們下面概述下模型開發中最為關鍵的內容,包括模型定位和目標、標簽定義、樣本選擇、數據來源與處理、模型開發和模型評估。

一、模型定位和目標

為了量化處理業務中不同的實際問題,模型開發方需要與業務方溝通確定建模目標。

我們知道,信用風險模型主要是為了評估用戶還款能力和還款意愿;反欺詐反作弊模型防止用戶騙貸、薅羊毛和保證平臺安全等功能;資本計量模型主要適用于 Basel 體系確定最低資本要求和進行壓力測試。

但模型定位和目標的溝通不止于此。我們需要了解的更多,模型被用于哪些場景,模型的應用客群是什么,有沒有需要重點針對的客群,預期效果怎么樣,什么時候要用等等。

目標是 KS 越高越好,還是 30 以上就行(這個 30 應該是參考已有模型的一個經驗值),對接下來的模型方案是完全不同的。

前者是尋求上限問題,要求你清楚地知悉現有體系的弱點,在合理的排期下做最優決策。特征空間是不是跟不上業務的發展了,標簽定義是不是可以改進,業務上是不是在做新的客群,是不是需要分客群建模,能不能用外部的數據做實時模型,等等問題都需要回答。

后者是保證下限問題,實現起來容易地多,挑最重要的一兩個點進行優化,往往就能解決。

二、標簽定義

標簽一般分為 GBIE,G 是 good 好用戶,B 是 bad 壞用戶,I 是 indeterminacy 不確定用戶,E 是 exclusion 排除用戶。

  • 觀察期:用來加工用戶的特征,也就是說對觀察多久來統計建模;
  • 觀察點:貸前是申請時點,貸中可以是任意時間點;
  • 表現期:用來定義好壞樣本的時間區段,看用戶在這個時間窗口內的逾期變現來加工標簽;
  • 表現點:是表現期的末端。

我們從觀察點開始看用戶,這個時點不需要考慮的用戶就可以定義為 E 用戶,例如信用模型不考慮欺詐用戶。表現期內風險良好的定義為 G,風險高的定義為 B,中間段還設有 I。

觀察期的長短視特征加工的時間范圍確定,表現期的長度需根據 vintage 曲線定義。我們需要客戶的違約是比較穩定的,這樣才能保證結果的準確性。B 逾期程度的定義需要計算滾動率。

工程上,這些定義會有很多明細要求。

三、樣本選擇

樣本選擇是最能體現模型開發定位和目標的,也是最吃功夫的部分。不同模型的開發,其他的有跡可循,唯有樣本的選擇是各有各的不同。

1. 樣本選取原則

選取樣本時要考慮樣本的代表性,是否能夠有效地代表總體,必須包含可靠的預測信息和表現信息。通常來說在選擇樣本上需遵循三點原則:

  1. 代表性:樣本必須能夠代表總體,過去以及未來;
  2. 充分性:樣本量太大則需要業務積累時間較長,數據加工要求更高;太小,可能達不到統計的顯著性,置信度太低;
  3. 時效性:建模樣本需要與當前實際群體具有相似特征,如果由于外部環境或具體業務發生巨大變化,建模樣本可能不再具有時效性。

需要剔除的樣本,一般就是非模型應用客群,這個被定義在 E 客群上了,自然就被建模排除在外了。

2. 抽樣原則

在樣本數據較大及運算能力有限的情況下,應對總體樣本進行抽樣處理。

  1. 簡單隨機抽樣:在給定樣本規模之后從總體中完全隨機抽取,每個抽樣單元被抽中的概率相同;
  2. 分層抽樣:根據業務需求確定樣本的類別,確定針對每個類別的抽樣個數,在每個類別內隨機抽樣;

一般,業務簡單就隨機抽樣,業務復雜精細化程度高,就分層抽樣。

3. 樣本不平衡問題

好壞樣本的比例總是差別很大的,尤其是反欺詐這個場景里面。極端的不平衡可能會導致模型忽略小樣本的學習。

1)欠采樣

  • 隨機欠采樣:對多數類樣本(一般是 G)隨機抽一個比例。
  • 有選擇的欠采樣:通過一定規則有選擇的去掉對分類作用不大,即遠離分類邊界或引起數據重疊的多數樣本。

2)過采樣

  • 簡單復制法:對少數類樣本(一般是 B)復制個倍數。
  • 人工合成數據:借用已有樣本,組合構造一些數據。

在通過欠采樣或者過采樣后,樣本的比例發生了變化,因此需要在入模時通過權重調整法將比例調回來。如果只在乎排序性,這個也可以不考慮。

4. 分群

林子大了什么鳥都有。不同的人差別可能很大,一個模型不能有效地適用于所有客群。有時間需要用不同的特征來對不同的人群進行預測,即構建多個模型運用在各個子客群上。

分群也可以分為基于經驗的分群和基于數據的分群。

基于經驗的分群,主要是利用從業務知識中了解到的客群差異分群,如不同的營銷渠道上風險差異較大,新的子產品上線了,業務更下沉了等等。

也可以通過聚類、決策樹對數據進行分群,但因為我們本身建模都用集成樹模型,分群本身就是樹模型訓練時干的事情。做任何額外的工作,都要考慮下必要性。

四、數據來源與處理

數據一般分為內部數據與外部數據。內部數據,是公司內部搜集存儲的客戶信息,例如商戶在平臺的銷售、貸款、運營信息,客戶的登陸、注冊、消費信息等;外部數據一般為第三方數據,例如人行征信報告、運營商數據、第三方機構提供的多頭借貸數據等。

模型開發文檔中需明確列出所用到的數據來源和特征列表,并且需要多方確認數據可用,包括持續穩定和監管許可等。

同時,模型開發還需要考慮對缺失值處理和異常值處理。

1. 缺失值處理

直接刪除含有缺失值的樣本,缺失值較少,這是比較合適的,但當缺失值樣本比例較大時,就會產生較大損失。

根據樣本之間的相似性填補缺失值是更技術的方法。但是工程上更常用的方法是根據經驗進行默認值填充,例如-1 或者 0 等。

不處理也是一種處理,而且也許是最好的處理。尤其是風險模型都在用 XGB,它可以自動學習缺失的最優劃分。

2. 異常值處理

異常值是指明顯偏離大多數數據分布的數值??梢圆捎秒x群值檢測的方法來找出樣本總體中的異常值。

有單變量離群值檢測、局部離群值因子檢測、基于聚類方法的離群值檢測等等。

同樣的,如果是樹模型預測分類問題,異常值處理并沒有太大必要。

3. 變量篩選

變量分為數值型變量和類別型變量。兩者篩選不太一樣。

數值型變量篩選可以用特征穩定系指數(Characteristic Stability Index)、信息價值(Information Value)、模型重要性排序(Feature Importance)等多方面考量,對于使用證據權重(Weight of Evidence, WOE)轉換的模型,需保證根據變量分組后的樣本分布符合業務邏輯。

對于類別型變量指標,應選擇樣本分布符合業務邏輯的變量,并考慮各類別取值的分布是否充足且較為均衡,避免因少數異常值傷害類別的代表性。

五、建模方法

應根據業務需要、建模目標和數據特點選擇最合適的建模方法。

1. 傳統統計模型

主要包括線性回歸模型,非線性回歸模型,廣義線性回歸模型,邏輯回歸模型和時間序列模型。

線性回歸、非線性回歸或廣義線性回歸,用于擬合數值型因變量與自變量的函數關系,函數類型需根據實際情況進行嘗試與選擇。

邏輯回歸模型用來處理因變量為分類變量的問題,通常用于二分類或二項分布問題,也可以通過累積邏輯回歸(Cumulative Logistic Regression)處理多分類問題。

時間序列模型,用于根據已有歷史數據對未來進行預測,可根據實際數據情況,選擇回歸差分移動平均模型 (ARIMA),向量自回歸模型(VAR)或廣義自回歸條件異方差模型 (GARCH)等。

2. 機器學習模型

機器學習類模型大體分為 3 類:監督學習、無監督學習和強化學習。

監督學習有標簽去計算預測正確與否;無監督學習則沒有,算法僅嘗試根據數據的隱含結構進行分類;強化學習會接收反饋,但反饋并非對每個輸入或狀態都是必要的。

風控模型中最常用的是集成樹模型。相比于邏輯回歸的線性分割,決策樹類模型可以尋求非線性分割,以實現最優的樣本空間分割。

在建模過程中,需要有訓練集、測試集和驗證集。模型訓練是基于測試集上的效果去迭代模型訓練過程。訓練完成后要在驗證集(最新的時間窗口內)上計算各種指標,例如回歸模型中的 R-square 等,分類模型中的 AUC,AR,KS,GINI 系數等。

六、模型評估

模型上線后怎么用,就應該怎么評估。

如果要拓展下層客群的授信,就要把下層客群單拎出來計算,而不是混在全體樣本里充數。

如果要和已有模型交叉使用,就需要評估交叉效果。

如果數據源可能會缺失,就應該評估缺失后的效果,若可接受,則后期數據源發生缺失時,調整下閾值接著用,而不是下線不用。

等等。

模型開發時我們總在關心模型效果,但當模型開發完后,最重要的是穩定性。沒有策略會盯著模型分的變動反復調整閾值的。有問題的變量千萬不要用。

無法詳盡。

為我投票

我在參加人人都是產品經理2022年度作者評選,希望喜歡我的文章的朋友都能來支持我一下~

點擊下方鏈接進入我的個人參選頁面,點擊紅心即可為我投票。

每人每天最多可投35票,投票即可獲得抽獎機會,抽取書籍、人人都是產品經理紀念周邊和起點課堂會員等好禮哦!

投票傳送門:https://996.pm/7mXqv

專欄作家

雷帥,微信公眾號:雷帥快與慢,人人都是產品經理專欄作家。風控算法工程師,懂點風控、懂點業務、懂點人生。始終相信經驗讓工作更簡單,繼而發現風控讓人生更自由。

本文原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自 Unsplash,基于CC0協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. ”在通過欠采樣或者過采樣后,樣本的比例發生了變化,因此需要在入模時通過權重調整法將比例調回來”,權重調整法具體怎么操作的?

    來自北京 回復