風控之術:策略和模型

0 評論 12220 瀏覽 38 收藏 10 分鐘

編輯導語:風控之本,是策略和模型。如今市場變化多端,策略和模型都是需要快速迭代不斷調整的,本文作者討論了策略和模型之間的聯系。策略和模型該怎么做?作者對此進行了通俗易懂的描述,話不多說,跟著作者的思路走吧!

風控之術是什么呢?很多人都知道,策略規則和模型唄。其實這個問題很簡單,風險管理部門就是在做策略和模型,自然這就是術。大數據風控怎么做,本質就是大數據怎么用的問題,兩個用法。

簡單地用,是策略規則;復雜地用,是模型。

一、策略和模型的關系

簡單規則是策略,模型規則其實也是策略。這里我們按照慣例,把模型組和策略組的工作分開來。

1. 模型重,策略輕

實際上,初進入一個領域,是不需要建模型的。政策和運營就可以進行冷啟動了,做什么客群,怎么去觸達,設置什么額度和息費,這些問題一開始跟模型都沒關系。

另外,有些時候也來不及做模型,策略可能就會使用一些變量來做強規則或者軟規則。那么,后續做模型變量篩選時,就要考慮到策略因素的影響,盡量不使用同類變量,避免策略調整對模型穩定性產生強干擾。

有時你會發現,策略往往選用區分度強的變量,而其他變量不足以讓模型有一個好的表現。策略用變量畢竟只用極端,通常是這樣,為了追求更好的效果,模型往往還是會什么都用。

因此,如何協調和改善模型策略構建流程,是我們需要思考的業務問題,同時也是技術問題。

一般來說,金融機構會先制定準入規則,可以是基于經驗的規則,也可以是基于數據的可變規則。經驗規則很少調整,可變規則則需要定期分析動態調整。

通過分析各類數據源的變量對風險的排序性,挑出其中 IV 值高風險區分性好的,設置合適的閾值作為準入標準?;蛘咄ㄟ^組合多個變量,采用決策樹進行最優組合的查找,可得到多變量組合規則。這些都是可變規則。

在大數據的背景下,有時簡單的規則并不能很好地區分借款人的好壞,通過建立機器學習模型減少誤判越來越重要。尤其是當客群逐漸下沉,策略已經很難找出高收益客群,必須依賴模型從矮個里面拔高個。

2. 模型準,策略穩

可變規則,因為用到的變量少,規則簡單可解釋,一般都會比較穩。即使數據發生波動,分箱處理天然就進行了緩釋。

大數據模型,變量少說上百個,多則上千上萬維,更不要說他們的交叉組合,可以更精準地對好壞用戶區分。數據的波動基本都會反應到模型分的波動。

風控在于應用簡單或復雜技術從多個視角對用戶進行風險排序,策略和模型分屬這兩類。

二、策略

策略的三板斧:客群細分、觸達客戶、額度息費。

我不是做策略的,但我常想,策略做的事情到底是在干什么呢?想來想去,就上面 12 個字。

客群細分說的是不同的人走的策略肯定是不一樣的。那第一步就是把相同的人分在一起,不同的人不分在一起。

怎么分?用數據去分。

因為外部數據是有成本的,數據的使用原則就是先內部后外部,先低價后高價。根據可得的用戶數據,可以分這么個象限。


負面強信息強,意思是說負面行為非常明確,例如在很多平臺逾期,肯定就不能做;負面強信息弱,是說負面的置信度沒那么高,基本也不做;負面弱信息強,拿到了用戶很多信息都沒發現是壞人,肯定得做;負面弱信息弱,啥也不知道,就努力去做吧。

用反欺詐、黑名單等能找出的負面用戶,好辦,直接拒絕就行。用內外部數據能高效識別風險的也好辦,低風險的通過,高風險的就拒絕。除了授信通過與否這個策略外,再有的就是額度和息費。

差異化也是根據風險。難辦的其實就一個象限,信息薄也沒有負面的客群。這其實是最主要的獲客客群。

這樣的客群,要盡可能細分,再差異化觸達。

之所以要差異化觸達,是風控很求穩,不管前端流量如何,全靠策略模型去防控風險是很危險的。相同的策略,不同的流量來源,風險差異可能都很大。

信息厚的可以預授信的客群越多越好,想方設法吸引他們來申請就可以了。信息薄的要精挑細選,讓那些稍微好的來申請,對那些不好的先看看能不能讓他們變成好的,能的話就再觸達。

具體點:在商城買很多東西的人,讓他們趕緊來借款;在商城不買東西的人,可以先運營他們來買東西;買完東西后還不能判斷的人,不主動觸達用戶了,用戶自己來了,策略模型能通過但可信度不高的,給他低額度試用就行;等他表現好了,曖昧關系穩了,就提額接著玩。

三、模型

模型是應用多方數據源建模擬合風險標簽,從多個維度對用戶風險進行預估。也可以對數據源或者數據維度單獨建模,得到多個單一維度的評分,再上層融合成最終評分。子評分和主評分可以彈性地被應用于策略。

例如互金行業的三方數據就集中在多頭這個維度,三方數據源就有很多家,把這些數據源的多頭變量匯總在一起建模,就可以叫一個多頭共債模型。對單一數據源的建模,就是定制化聯合建模。

模型怎么建,一部分取決于模型團隊的開發部署能力,另一部分取決于策略的應用水平。

大數據風控模型和傳統評分卡模型相比,本質區別就在于特征多不多。隨著模型從 LR 到 XGB 甚至深度學習的發展,一般會用上盡可能多的變量,變量維度也不予設限。

數據越多不一定效果越好,但數據越多樣,越多越好這句話一般就沒錯。

少數頭部平臺有一些有效的自有數據,如京東、淘寶的電商,騰訊的社交,百度的搜索數據在信用評估里有效性都很低。

數據不自有,就要依托于第三方。尤其是多頭數據,極大程度地依托于第三方征信數據服務商。于是,數據存在較大的接入成本,而數據源之間又存在一定的共性。

模型團隊的開發能力,就包括三方數據源的評估能力,特征開發的能力和快速建模能力。

一個模型分肯定比多個模型分用起來更簡單,精細化運營又使得業務就需要多個模型解決問題。模型可以往復雜方向設計,策略也要有能力去落實應用。

最常見的模型是 LR 評分卡模型和 XGB 模型,需要解釋性強就用 LR,不需要都可以上 XGB。額度定價模型可能需要采用深度學習的解決方案。

最后,由于信貸產品的多樣化和市場的多變性,策略和模型都是需要快速迭代不斷調整的,往往追求效果比追求穩定更重要。策略和模型之上,要做好監控。

 

本文由@雷帥 原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!