風控建模的常見誤區與一般建議

0 評論 3770 瀏覽 7 收藏 9 分鐘

有些時候,風控建模的模型并不是越復雜越好,模型的審核也是很有必要的。除此之外,風控建模還有哪些誤區呢?本文作者分享了風控建模的一些常見誤區和建議,一起來看一下吧。

一、建模的標簽不是固定的

一般情況下,風控數據比賽的數據都有既定的好壞用戶樣本標簽,在此基礎上可以直接著手特征工程與模型訓練。而實務中,樣本標簽是要權衡數據與業務兩個因素才能最終確定:

  • 從數據角度來看,壞樣本個數要大于1000個以上(一般經驗)才能保證建模的學習性能;
  • 從業務角度來看,壞樣本盡可 能地取自真實的壞樣本,盡可能少地誤殺好用戶。

數據與業務兩者是相互拉扯的,想要獲得更多的壞樣本,就需要表現期足夠短,但好用戶被誤殺的可能也更大;要想少的好用戶被誤殺,就要求表現期足夠長,這樣最終能確定的壞樣本更少更精確。因此在確定標簽時要多用數據嘗試,找到這兩個因素的平衡點。

二、模型并不是越復雜越好

有些剛入門的朋友會覺得深度模型與集成模型效果一定比簡單的線性模型效果好。甚至在一些簡單項目上也要優先嘗試復雜模型,但效果也許并不理想。就好比殺雞焉用牛刀。炫技不是目的,解決問題才是。

其實,在一些簡單的項目中,邏輯回歸就能很好的滿足性能要求,且健壯性極好;在簡單問題上使用復雜模型很容易造成overfitting,進而降低模型的泛化能力。

三、模型的審核很有必要

許多機構在模型開發上往往是一人獨立承擔一個(甚至多個)模型項目的開發工作,從數據準備、特征工程、再到建模與調優。雖然極大降低了人力成本,但也帶來問題,除了交付時間難以保證,更重要的是很容易發生模型集中度風險。

在模型團隊內部或外部設立審核小組,從數據、代碼、業務應用場景、建模流程等多方面對模型組開發的模型進行全方位診斷,以此降低模型集中度風險的發生。這種組織結構早已在國外多家數據驅動型金融機構踐行。

四、慎用AutoML

AutoML顧名思義就是自動化的機器學習,一直都是業內熱門,最大特點是可以替代大部分AI訓練師繁瑣重復的工作。大家都知道,模型的開發需要大量的人工干預,主要表現在特征構建、特征演變、特征提取、模型選擇與參數調節等方面。AutoML視圖將這些與特征、模型、優化、評價有關的重要步驟進行自動化地學習,使得機器學習模型無需人工干預即可被應用,以此大大降低模型開發的時間成本,應用AutoML可以將全流程人工條件下為期2-4周的開發作業壓縮到最短半天。

一個完整的AutoML過程可以分成這么兩類:一類是將以上的三個步驟整合成一個完整的pipeline;另一類則是network architecture search,能夠自動地學習到最優的網絡結構。在學習的過程中,對特征工程、模型選擇、算法選擇都進行了一些優化。

雖然AutoML有著大大降低模型開發時間成本、提升模型精度等多種優勢,但在特征構建與演變中,很容易脫離實際業務指導模型的意義,無法從特征上體現出與風險目標明顯的業務相關性。尤其是模型后段應用類似邏輯回歸等線性算法時,對于模型穩定性、效力下降時,模型問題溯源成為難點。

因此,對于AutoML的使用,更建議應用在反欺詐、精準營銷等不需要明示業務與模型的關聯場景上,對于風控場景,可以在子模型的開發上多加應用,或者AutoML+人工干預。完全實現風險模型開發與上線自動化,還為時尚早。

五、特征選擇:僅僅區分度高還不夠

在做特征構造和篩選的時候,往往大家都會把區分度好的特征都堆進模型,這樣在測試集上的模型性能會非常的好看,但在挑選特征的時候,除了區分度之外,還有其他的因素也是不能忽略的:

1. 覆蓋度

如果特征的覆蓋度不夠高,就不能在眾多樣本上發揮作用,更不能提升模型的線上的整體性能。一般覆蓋度達到20%以上時,可以考慮使用。覆蓋度較低的特征需要分析其業務屬性,如果該特征的缺失值比較具有區分能力,比如涉訴信息,可以考慮將該特征作為黑/白名單使用,而沒有業務含義的極少客戶才有的特征數據,區分度不大,就沒有必要用。

2. 穩定性

在信貸業務中,特征具有時間屬性,特征是否穩定,對于模型效果來說影響重大。同一個特征在不同時間段內的分布很可能不一致,我們需要篩選出相對穩定的特征,這樣建出來的模型才會在時間上具有平穩性。在特征分布隨時間的推移下相對穩定的前提下,基于歷史學習到的統計信息才能在未來較長時間內保持區分度。

3. 可解釋性

風控的對象是人,我們要透過數據去理解人的行為,所以我們構建的特征是需要人能夠理解其風險情況的,我們經常通過數據構建并驗證假設來建立模型。進而可以得到一系列規則并應用于業務中去(自頂向下的方法),其中可解釋性是整套方法的解釋,它銜接了規則和所產生的行為策略。

很多時候因果關系不那么明確,一個堅實的模型就需要為決策提供可靠的解釋,幫助人們清晰的理解。如果一個特征的效果很好,但它在風險上的表現和我們常識無法理解甚至完全違背,這樣的特征是很難去說服業務方采納的。

六、不是所有好的特征都要入模

這里主要強調的是特征與業務開展情況的關系。比如地理位置的信息的區分度非常好,但業務卻是按地區逐步推廣開展的,不同地區的運營方式和產品有差異,那地理信息調整的靈活度很大,那么此時考慮放在策略中往往更合適;隨著業務的演進,如果已經覆蓋了許多地區,各個地區的統計信息具有穩定的分布表現,此時模型中使用地理位置信息就變的很有用了。

作者:王小賓;微信公眾號:一起侃產品

本文由@并不跳步交叉步 原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!