国产亚洲欧美日韩俺去了,久久久久夜色精品国产明星,日本高清二区视频久二区

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

風控策略模型下集：模型這樣做

雷帥

2022-12-13

1 評論 7804 瀏覽 39 收藏

16 分鐘

模型開發是為業務需求服務的，高效解決業務的難點和痛點，就是模型開發的護城河。本文對模型開發中的模型定位和目標、標簽定義、樣本選擇等方面進行了概述，一起來看一下吧。

模型開發是為業務需求服務的，高效解決業務的難點和痛點，就是模型開發的護城河。而不是所謂的算法。

業務有什么樣的需求，模型就要做針對性的設計。這是實際工作中最吃功夫的內容。也是和那些建模比賽差異點最大的地方。

模型開發并不是一件容易的事情。所以更要確保各個環節合理有效，才能完成整個項目的交付。關鍵要點包括模型定位的合理性、數據質量的可靠性、建模方法的適用性、模型輸出的準確性，以及模型表現的穩定性。

模型開發周期可根據項目的需求及難度可以適當調整，開發期間通常需要安排至少 3 次里程碑會議。

立項會議：參會方應包括模型開發方、模型使用方(需求發起方)、以及模型驗證方。主要闡述模型立項的背景和目標，同時明確模型開發方、使用方、驗證方、及部署方的職責與排期；
初步匯報：由模型開發方展示模型初步的數據分析結果和建模思路，并與各方確定模型框架；
模型評審：模型方匯報模型開發的過程和結果，驗證方給出驗證結果，各方對模型結果和模型應用展開討論，確定最終版模型。

我們下面概述下模型開發中最為關鍵的內容，包括模型定位和目標、標簽定義、樣本選擇、數據來源與處理、模型開發和模型評估。

一、模型定位和目標

為了量化處理業務中不同的實際問題，模型開發方需要與業務方溝通確定建模目標。

我們知道，信用風險模型主要是為了評估用戶還款能力和還款意愿；反欺詐反作弊模型防止用戶騙貸、薅羊毛和保證平臺安全等功能；資本計量模型主要適用于 Basel 體系確定最低資本要求和進行壓力測試。

但模型定位和目標的溝通不止于此。我們需要了解的更多，模型被用于哪些場景，模型的應用客群是什么，有沒有需要重點針對的客群，預期效果怎么樣，什么時候要用等等。

目標是 KS 越高越好，還是 30 以上就行（這個 30 應該是參考已有模型的一個經驗值），對接下來的模型方案是完全不同的。

前者是尋求上限問題，要求你清楚地知悉現有體系的弱點，在合理的排期下做最優決策。特征空間是不是跟不上業務的發展了，標簽定義是不是可以改進，業務上是不是在做新的客群，是不是需要分客群建模，能不能用外部的數據做實時模型，等等問題都需要回答。

后者是保證下限問題，實現起來容易地多，挑最重要的一兩個點進行優化，往往就能解決。

二、標簽定義

標簽一般分為 GBIE，G 是 good 好用戶，B 是 bad 壞用戶，I 是 indeterminacy 不確定用戶，E 是 exclusion 排除用戶。

觀察期：用來加工用戶的特征，也就是說對觀察多久來統計建模；
觀察點：貸前是申請時點，貸中可以是任意時間點；
表現期：用來定義好壞樣本的時間區段，看用戶在這個時間窗口內的逾期變現來加工標簽；
表現點：是表現期的末端。

我們從觀察點開始看用戶，這個時點不需要考慮的用戶就可以定義為 E 用戶，例如信用模型不考慮欺詐用戶。表現期內風險良好的定義為 G，風險高的定義為 B，中間段還設有 I。

觀察期的長短視特征加工的時間范圍確定，表現期的長度需根據 vintage 曲線定義。我們需要客戶的違約是比較穩定的，這樣才能保證結果的準確性。B 逾期程度的定義需要計算滾動率。

工程上，這些定義會有很多明細要求。

三、樣本選擇

樣本選擇是最能體現模型開發定位和目標的，也是最吃功夫的部分。不同模型的開發，其他的有跡可循，唯有樣本的選擇是各有各的不同。

1. 樣本選取原則

選取樣本時要考慮樣本的代表性，是否能夠有效地代表總體，必須包含可靠的預測信息和表現信息。通常來說在選擇樣本上需遵循三點原則：

代表性：樣本必須能夠代表總體，過去以及未來；
充分性：樣本量太大則需要業務積累時間較長，數據加工要求更高；太小，可能達不到統計的顯著性，置信度太低；
時效性：建模樣本需要與當前實際群體具有相似特征，如果由于外部環境或具體業務發生巨大變化，建模樣本可能不再具有時效性。

需要剔除的樣本，一般就是非模型應用客群，這個被定義在 E 客群上了，自然就被建模排除在外了。

2. 抽樣原則

在樣本數據較大及運算能力有限的情況下，應對總體樣本進行抽樣處理。

簡單隨機抽樣：在給定樣本規模之后從總體中完全隨機抽取，每個抽樣單元被抽中的概率相同；
分層抽樣：根據業務需求確定樣本的類別，確定針對每個類別的抽樣個數，在每個類別內隨機抽樣；

一般，業務簡單就隨機抽樣，業務復雜精細化程度高，就分層抽樣。

3. 樣本不平衡問題

好壞樣本的比例總是差別很大的，尤其是反欺詐這個場景里面。極端的不平衡可能會導致模型忽略小樣本的學習。

1）欠采樣

隨機欠采樣：對多數類樣本（一般是 G）隨機抽一個比例。
有選擇的欠采樣：通過一定規則有選擇的去掉對分類作用不大，即遠離分類邊界或引起數據重疊的多數樣本。

2）過采樣

簡單復制法：對少數類樣本（一般是 B）復制個倍數。
人工合成數據：借用已有樣本，組合構造一些數據。

在通過欠采樣或者過采樣后，樣本的比例發生了變化，因此需要在入模時通過權重調整法將比例調回來。如果只在乎排序性，這個也可以不考慮。

4. 分群

林子大了什么鳥都有。不同的人差別可能很大，一個模型不能有效地適用于所有客群。有時間需要用不同的特征來對不同的人群進行預測，即構建多個模型運用在各個子客群上。

分群也可以分為基于經驗的分群和基于數據的分群。

基于經驗的分群，主要是利用從業務知識中了解到的客群差異分群，如不同的營銷渠道上風險差異較大，新的子產品上線了，業務更下沉了等等。

也可以通過聚類、決策樹對數據進行分群，但因為我們本身建模都用集成樹模型，分群本身就是樹模型訓練時干的事情。做任何額外的工作，都要考慮下必要性。

四、數據來源與處理

數據一般分為內部數據與外部數據。內部數據，是公司內部搜集存儲的客戶信息，例如商戶在平臺的銷售、貸款、運營信息，客戶的登陸、注冊、消費信息等；外部數據一般為第三方數據，例如人行征信報告、運營商數據、第三方機構提供的多頭借貸數據等。

模型開發文檔中需明確列出所用到的數據來源和特征列表，并且需要多方確認數據可用，包括持續穩定和監管許可等。

同時，模型開發還需要考慮對缺失值處理和異常值處理。

1. 缺失值處理

直接刪除含有缺失值的樣本，缺失值較少，這是比較合適的，但當缺失值樣本比例較大時，就會產生較大損失。

根據樣本之間的相似性填補缺失值是更技術的方法。但是工程上更常用的方法是根據經驗進行默認值填充，例如-1 或者 0 等。

不處理也是一種處理，而且也許是最好的處理。尤其是風險模型都在用 XGB，它可以自動學習缺失的最優劃分。

2. 異常值處理

異常值是指明顯偏離大多數數據分布的數值?？梢圆捎秒x群值檢測的方法來找出樣本總體中的異常值。

有單變量離群值檢測、局部離群值因子檢測、基于聚類方法的離群值檢測等等。

同樣的，如果是樹模型預測分類問題，異常值處理并沒有太大必要。

3. 變量篩選

變量分為數值型變量和類別型變量。兩者篩選不太一樣。

數值型變量篩選可以用特征穩定系指數（Characteristic Stability Index）、信息價值（Information Value）、模型重要性排序（Feature Importance）等多方面考量，對于使用證據權重（Weight of Evidence, WOE）轉換的模型，需保證根據變量分組后的樣本分布符合業務邏輯。

對于類別型變量指標，應選擇樣本分布符合業務邏輯的變量，并考慮各類別取值的分布是否充足且較為均衡，避免因少數異常值傷害類別的代表性。