風控中必做的數據分析

2 評論 22792 瀏覽 45 收藏 12 分鐘

編輯導語:處于大數據時代的我們,離不開數據分析,風控行業也是如此。本文以風控數據分析為例,拆解其數據分析過程,由此說明,風控中的數據分析跟其他的互聯網業務是互通的,而數據分析技能在任何互聯網行業都是通用的。

大數據領域就沒有不做數據分析的,大數據風控也不例外。我的觀點是風控和其他互聯網業務都是互通的,本文介紹下風控中必做的數據分析,用以說明數據分析是一通百通的。

工欲善其事,必先利其器。先說下數據分析的工具。分析工具,最通用的包括 Excel、SQL 和 Python。

即使大家是技術崗位,也沒有必要技能歧視,用 Python 并不會比用 Excel 和 SQL 高級。算法工程師都自嘲 SQL boy。SQL 是數據分析師以及算法工程師用的最多的技能。

能不能從海量的業務數據中取出正確的數據,是解決問題的前提。而 Excel 透視表強大到萬物皆可透視。不夸張地說,我就沒見過透視表解決不了的問題。

數據分析平臺,開源的有 metabase,收費的有 tableau,都可以連接數據庫實時交互,并提供豐富的智能儀表盤。

個人推薦開源的 BI 工具 Metabase,它具有可視化操作界面的數據分析和查詢功能,讓不懂 SQL 的用戶可能夠快速掌握業務數據,也支持團隊共享業務數據,是一個很不錯的 BI 解決方案。

一、業務理解

如果一家金融機構聘請你給他們的風控業務做咨詢,你知道怎么辦嗎?

別告訴我,你想硬搬風控建模比賽的那套東西。不要掉價。

解決方案一定是針對當前業務和用戶客群獨家定制的。你可以嫁接 kaggle 比賽的經驗,但要站在巨人的肩膀上。好比你訓練一個人臉識別工具,你不能找到了經典的網絡結果就萬事大吉了,你需要去 fine-tune。

那么怎么理解業務?

這個問題等同于怎么理解你的客戶。客戶是你業務唯一重要的資源。Know your customer!

用戶畫像是了解你的客戶的有效方式,常見的用戶畫像包括但不限于年齡、性別、手機歸屬地、學歷、職業、婚姻狀態、機型、銀行卡、消費、app 偏好等?;ソ鹩脩暨€有新老戶比例、額度、息費、多頭程度、借款次數、借款金額、展期次數、逾期次數、逾期升期等。

客戶的城市分布就可以通過統計作圖如下,從而對業務覆蓋范圍有清楚的認識。

客群基礎信息的畫像適合于任何一個互聯網 to C 的業務場景,可以據此了解自己的客群分布。如果要拓展新用戶,它就幫你確定了投放渠道和產品定價等。

但要想真正對業務提供 sense,與業務直接相關的數據是最重要的。上面的新老戶比例、額度息費、多頭、借款次數與金額、展期次數、逾期次數、逾期升期等就是這樣的數據。

我們可以圍繞這些數據構建出對業務的理解,例如統計出如下數據結果。

需要說明的是,對于業務的理解,需要分析的絕不止以上內容。

通過 KYC,你可以大致知道發力的方向在哪里,是拓展新戶還是挖掘存戶,是提升風控能力還是優化產品設計,等等。

二、漏斗分析

進件漏斗分析可以幫助我們定位到產品設計的薄弱位置,從而針對優化。

不失一般性,進件漏斗可以是,點擊->下載->點擊申請->個人信息->運營商認證->人臉識別->規則通過->模型通過->綁定銀行卡->開始借款—>放款。

在這,申請流程假設為填寫個人信息,再手機號認證,再人臉識別,再進行強規則審批,再到模型審批,通過之后再綁卡,后進行借款。這套流程設計控制了客戶轉化鏈路,審批前除必要的信息外,綁卡操作進行了后置,盡量減少轉化損失。

這個漏斗分析很容易就可以計算出來,我們可以區分關注的渠道,在貸前場景中我們一般很關注不同渠道的轉化情況,以便對渠道進行優化。轉化鏈路還可以往后追加。

你的產品形式也許需要關注的點會和上面有所差異,但思路應該沒有區別。漏斗轉化能幫助你了解到用戶容易在什么環節發生流失。轉化流和行業一般情況做對比,就可以快速了解你的產品設計有沒有大的問題。

不同時期業務的重心可能不同,需要關注的轉化也可能不同。

三、前端分析

前端指的是用戶在申請時就可以統計得到的數據,例如申請量、通過率、PSI、CSI 和拒絕瀑布流等,漏斗分析一般也是前端分析。

申請流量質量的變化,可以關注到天的粒度,甚至可以是小時的粒度。一張折線圖就可以表現出來,不同渠道可以放在同一張圖里方便對比。用戶質量可以通過模型分的分布或者查詢的重要變量的分布衡量出來,如多頭、收入等。

PSI是群體穩定性指標(Population Stability Index),刻畫了不同期樣本在各分數段分布的穩定性。每個月申請流量的評分分布差異大不大,直接影響了決策結果的分布。

CSI是特征穩定性指標(Characteristic Stability Index),用來衡量特征層面的變化。PSI 對應模型分,CSI 對應特征變量。特征有時候不像模型分能分布地那么開,像性別就只有男、女,如果還有未知,也就三種。

因為模型分是由特征經過一套算法流計算出來的,模型分是一系列特征的表現。PSI 異常的話,必然是某個或者某些特征發生異常,通過 CSI 分析就可以定位到哪些特征出現了問題。后續就是針對性排除原因。

在申請環節,拒絕是一個瀑布流的過程。反欺詐拒絕的人,不用往后進入到政策審批環節,政策拒絕也不用在考慮模型拒不拒絕,因而這個流程可以統計出來,以監控拒絕瀑布流的穩定性。

四、后端分析

后端指的是用戶在申請時,你無法得知,需要后延一個表現期才能計算得到的數據,例如逾期率、模型效果等。表現期可長可短,也可以是首逾,取決于具體的業務目標和數據情況。

逾期率,各家定義可能不太一樣,例如當季逾期貸款剩余本金/當季度放款總剩余本金,可以用來從橫向比較一下壞賬的波動。對于模型層面,逾期率往往指的是壞用戶占比,是人數而非金額的比例。

這個指標計算是需要經過一個時間窗口的,今天的用戶會是什么風險,需要以后才能知道。這也就是為什么前端分析很重要了,申請通過用戶的質量通過模型分和重要特征分布已經進行了一輪刻畫了。當然,這些前端信息并不能完全衡量出后端的風險。

Vintage分析是反映不同賬齡周期用戶的風險情況,直白地說,是各個時間階段(如月份)申請人在往后各個賬齡下有沒有出現過 M1+逾期(或其他)的統計結果。

vintage 分析把不同期的樣本放在了一起,可以用來觀察不同期客群風險的變化,然后確定是流量本身的變化,還是宏觀形形勢的變化,還是風控策略的變化等等。

另外,vintage 最常見的用途是確定表現期,因為你觀察到了各個賬齡下的風險表現,取一個合適的賬齡長度就有據可循了。

遷徙率滾動率,我都覺得它倆本質上并沒有說很么區別,是反應用戶狀態變化的比例。遷徙率呢,貸款從某一狀態進入到下一個狀態,如正常還款到 M1 期還款狀態,M1 變化成 M2 期還款狀態。

滾動率呢,首逾的用戶有多少會變成逾期 7+,然后有多少會變成 M1+,到 M2+,到 M3+等。逾期狀態的滾動分析有助于我們確定建模目標。假如逾期 7+的人有很多人還會還,但逾期 30+的人基本就不還款了,那我們就可以以 30+為壞定義。大抵如此。

排序性準確性,用來量化模型效果,主要通過 Lift、Odds、KS、AUC、Gini 等指標進行反映,其中 KS 值應用尤為場景。KS 值的優勢在于它反應的就是取最優決策點時好壞用戶被拒絕掉的差異,和策略制定是直接相關的,可通過 SQL 和 Excel 計算。

如大家所見,在風控領域所在的數據分析,應該和其他互聯網領域的數分并無本質區別。

因為風控和其他業務一樣,本質都是用戶生命周期管理?;谙嗤牡讓舆壿?,數據分析必然也并無二致。

 

本文由@雷帥 原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 講的真好,學習了

    回復
  2. ????

    回復