如何學(xué)習(xí)風(fēng)控?我的知識架構(gòu)
不少初入門風(fēng)控的人可能會有些疑惑,如果想更深層地學(xué)習(xí)風(fēng)控的相關(guān)知識,應(yīng)該怎么做?如何才能更好地理解風(fēng)控的底層邏輯?本篇文章里,作者嘗試結(jié)合自身經(jīng)驗,分享了他有關(guān)風(fēng)控學(xué)習(xí)知識體系搭建的部分經(jīng)驗,一起來看一下。
寫這篇文章是因為一直以來都有一些朋友問我,怎么學(xué)風(fēng)控。
- “最近剛開始學(xué)習(xí)下風(fēng)控方面的知識,但是對其中的一些原理不是特別懂,請問有什么好的建議?”
- “我是商科背景的,想轉(zhuǎn)行做數(shù)據(jù)風(fēng)控,想咨詢一些入行經(jīng)驗?”
- “我是運營崗,一直想轉(zhuǎn)去做大數(shù)據(jù)風(fēng)控,但是找那些資料看總不知道到底在干嘛,無法入門怎么辦?”
這種問題每次都讓我敲字無力,不知道怎么回答。
我知道我寫的這些文章從來不是為了風(fēng)控入門服務(wù)的,想入門風(fēng)控的朋友最需要的是現(xiàn)成的工具,是標(biāo)準(zhǔn)化的流程和代碼,我都沒有展開寫。
我的目標(biāo)從來不是寫一些東西,供讀者朋友們 ctrl+c、ctrl+v,而是希望有人閱讀的過程中發(fā)現(xiàn)自己在思考,哪怕就那么一會兒。
我覺得學(xué)習(xí)最有效的階段是,建立了基礎(chǔ)認(rèn)知之后,往知識架構(gòu)里添磚加瓦查漏補(bǔ)缺的時候。從 0 到 1 太難了,從 1 到 10 沒那么難。
對風(fēng)控感興趣,想從 0 開始學(xué)的人,我的經(jīng)驗文章可能并沒有什么用,那我試試寫一篇基礎(chǔ)邏輯,看看能不能讓這些朋友們看到骨架。
一、風(fēng)控的范圍很大
只要有交易就有風(fēng)險。想想別人找你借錢時你的心路歷程吧,可太怕了。人都不喜歡和自己不了解的人交朋友,更不喜歡和不知道的人做交易。
“有內(nèi)鬼,終止交易”。內(nèi)部人尚且如此,陌生人不能不防。
互聯(lián)網(wǎng)業(yè)務(wù)中你從來不知道你服務(wù)的對象是什么人,它天然就需要做風(fēng)控。ToB 的業(yè)務(wù)如果是大客戶,你可能還會線下有過往來接觸,ToC 的根本就不可能。
可以說互聯(lián)網(wǎng)的業(yè)務(wù)有多大,風(fēng)控的范圍就有多大。
以我在的互聯(lián)網(wǎng)金融業(yè)務(wù)為例,業(yè)務(wù)上肯定希望吸引更多的用戶,給更多的人授信,提供更高的額度,最后又能有更低的逾期,從而有最大的收益。但規(guī)模要大,就要下沉,額度高的,風(fēng)險又更高。風(fēng)控就是要在各個環(huán)節(jié)上,例如,市場營銷—>申請審批—>賬戶管理—>催收處置等,把高風(fēng)險用戶識別出來特殊對待。
不僅信貸,營銷活動要攔截“羊毛黨”,刷單控評的行為要攔截,黃牛黨也要防控,垃圾注冊刷訪問、關(guān)注的要防控,就現(xiàn)在這篇文章,也要被檢測看看符不符合原創(chuàng),有沒有涉政、涉黑、涉黃。無所不包。
二、個體不重要,群體才重要
做風(fēng)控的目標(biāo)不是為了 0 風(fēng)險。你不能把所有存在風(fēng)險的客戶都拒絕掉,你也做不到這一點,因為每個人每筆交易都存在風(fēng)險,程度問題。
你不能說一個芝麻分 600 分的人,比一個 800 分的人差,個體符合測不準(zhǔn)原理。但是你可以說,六百多分的這群人沒有八百多分的那群人好,這是對的,群體是測得準(zhǔn)的。
風(fēng)控不關(guān)注個體,1w 個人申請,你通過了 3k 人,不是說這 3k 里的每個人都是會準(zhǔn)時還款的。實際上是,你把這 1w 人按風(fēng)險排序分成 10 組,每個群組里計算收益率,風(fēng)險排序足夠好的話,這 10 組的收益率是單調(diào)的,收益率為 0 作為分界線,你取出了其中前 3 組。實操中,不必真的算收益率,逾期率好算的多,也不必用 0 作為分界線,取一個業(yè)務(wù)上合理的閾值就可以了。
你從來沒有關(guān)注過個體,而這卻是對的。
所以你常常會見過,風(fēng)控把一些正常行為攔截了,例如反復(fù)讓你校驗驗證碼、刷臉失敗、交易被拒絕、投保被拒等。
三、最重要的是數(shù)據(jù)
主流銀行貸款是需要提供很多很多信息的,在哪工作、收入、學(xué)歷、家庭情況、征信記錄等等,銀行對你的了解比你的親朋好友還多得多。如果你有貸款買房經(jīng)歷就知道了。
移動互聯(lián)網(wǎng)改變了世界。你的客戶是不是人你都說不準(zhǔn),你的客戶就是數(shù)據(jù)。y=f(x),你只有 x,沒有 y。
那么你需要什么數(shù)據(jù)呢?你想知道一個人會不會還錢,顯然需要知道他想不想還錢,需要知道他有沒有能力還錢。
離這些信息越近的數(shù)據(jù)越有效。而幾乎所有的數(shù)據(jù)都是有效的,又一個程度問題。收入高不高、學(xué)歷怎么樣、安裝了哪些 app、跟什么人通話,等等,幾乎一切都有用。
我們不需要 y 標(biāo)識每個人,我們不是用 X 來預(yù)測用戶的身份證號,我們只需要評估一個人會不會還錢。
四、因果關(guān)系很難,但相關(guān)關(guān)系很容易
上面隨意列出的數(shù)據(jù),你都不敢說因為怎么樣所以怎么樣。這個人收入很高,所以不會逾期,這個邏輯如果是對的,那高收的人都要通過,低收的人都要拒絕。是收入高的這群人,整體風(fēng)險偏低。
前者說的是因果關(guān)系,后者是相關(guān)關(guān)系。我們從來不能很好地解釋,這群人逾期的原因是什么。我們擅長計算,這群人具備這些特性,他們的逾期水平比較高。
用數(shù)據(jù)去定義一個人,尤其是移動互聯(lián)網(wǎng)時代,用海量的數(shù)據(jù)去定義一個人,我們找的是相關(guān)關(guān)系。數(shù)據(jù)維度非常多,數(shù)據(jù)分布非常稀疏,但因為你找的是一個相關(guān)關(guān)系,問題就變得可解,或者說容易解。
1000 個相關(guān)變量找出來的風(fēng)險度量,就很可靠,不容易被攻擊。而不是捏造一個高收數(shù)據(jù),就可以獲得一筆貸款。
世界上不是所有有道理的事情都是因果關(guān)系的。
五、策略模型的工作其實很簡單
選擇一批樣本,也就是歷史用戶,定義出他們的好壞標(biāo)簽,也就是打上 label,關(guān)聯(lián)到他們的數(shù)據(jù)信息,也就是匹配特征,選用一個成熟的算法,也就是 xgb,訓(xùn)練一個模型,輸出一個概率對用戶進(jìn)行排序。建模工作就完成了。
圖像分類的經(jīng)典問題貓狗識別,是識別一張圖片是貓是狗,我們也是用一個人的數(shù)據(jù)信息,識別一些東西。當(dāng)然,我們不是識別是人非人,而是識別是不是一個“好人”。
應(yīng)用時,獲取用戶申請時的那些數(shù)據(jù)信息,用訓(xùn)練得到的模型,計算出用戶的風(fēng)險概率,參考?xì)v史用戶的風(fēng)險水平,做出拒絕還是通過的決策。這就是策略應(yīng)用了。
模型開發(fā)時我們總在關(guān)心模型效果,但當(dāng)模型開發(fā)完后,最重要的是穩(wěn)定性。沒有策略會盯著模型分的變動反復(fù)調(diào)整閾值的。有問題的信息千萬不要用。監(jiān)控一切容易,響應(yīng)一切難。
簡而言之,言而簡之,風(fēng)控就是用你能拿到的信息綜合計算出一個風(fēng)險度量。
所以風(fēng)控的這些工作,無非是去拿信息、去加工信息、去計算風(fēng)險、去找到一個盡可能優(yōu)的方程式。
六、結(jié)語
最好情況是到這兒時,你發(fā)現(xiàn)風(fēng)控就是這么回事了,然后你會去想:
- y 需要怎么定義呢;
- 能接入哪些數(shù)據(jù)呢;
- 風(fēng)控模型怎么建呢;
- 有哪些模型要建呢;
- 策略又怎么制定呢;
- 什么時候做風(fēng)控呢;
- ……
等等。而這些,其實,我都已經(jīng)寫過了。
知識體系的構(gòu)建,就跟蓋房子是一樣的,框架形成后,往里面填充必備的組件,忽然就變得容易又可控。
希望上面的一些邏輯思考,能給一些朋友一點啟發(fā)。當(dāng)然了,我自己也是小白,認(rèn)知不可能全面,互相學(xué)習(xí)而已。
專欄作家
雷帥,微信公眾號:雷帥快與慢,人人都是產(chǎn)品經(jīng)理專欄作家。風(fēng)控算法工程師,懂點風(fēng)控、懂點業(yè)務(wù)、懂點人生。始終相信經(jīng)驗讓工作更簡單,繼而發(fā)現(xiàn)風(fēng)控讓人生更自由。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!