從5W1H起入門風控系統設計

4 評論 9269 瀏覽 55 收藏 18 分鐘

編輯導語:相信有很多小伙伴都想了解如何學習風控系統設計,這篇文章作者詳細闡述了如何從5W1H起入門風控系統設計,內容通俗易懂,感興趣的小伙伴一起來看看吧。

一、什么是風控

場景1:一位跟你從小玩到大,而且一直都有聯系、有故事的好朋友,突然說家里有啥事,想問你借一筆錢,一想到好朋友有困難,你可能會當仁不讓的出手相助,甚至什么時候還都沒問,就把錢借出去了。

場景2:某天你突然接到一個,來自十余年沒回過的老家的陌生號碼的電話,電話那頭,是一副你完全陌生的嗓音,搭配咄咄逼人的語氣,說道:xxx啊,我是你小學同學某某某,我現在很缺錢,想要借五千塊錢。但是你想了一會兒,可能都記不起這個同學的模樣,甚至懷疑到底有沒有這個同學。此時你大概率會認為是詐騙電話,臭罵騙子一通,然后把電話掛了。

在這些很常見的場景中,我們其實就完成了一次又一次完整的風控過程:

  • 畫像分析與風險評估:通過對借款人的背景信息評估,好朋友的往事信手拈來,家庭背景、償還能力、近況都很清晰,風險系數低;默認的同學,背景信息缺乏、近況完全未知、償還能力未知,風險系數極高。
  • 風險措施:風險系數低的朋友,放款快、額度高、還款周期寬松;風險系數高的同學,要是再來電話,得問清楚家庭關系、地址、原因、目前從事的工作類型、工作單位及地點等信息,就算有別的認識的同學擔保,也要打個借條明確還款時間、逾期懲罰,如果哪點做不到或者內容含糊不清,一概拒絕借錢。

風險控制的目的:就是在自我利益最大化的前提下,采用各種舉措,減少風險事件的發生,或者減少風險造成的損失。

二、風控第一步:明確利益

風控的前提是,保障自己的利益,如果不需要保障自己的利益,那也就沒必要風控了,就像電影《西虹市首富》,王多魚的投資策略就是,投資的事情最好越離譜越好,無償的為大家的夢想買單,這種情況下,風控就完全多余的。

但現實生活中,一個系統、一款產品,都需要考慮風控這件事了,那必然是出于某個目的、某種利益驅動的。免費的APP希望屏蔽爬蟲,節省服務器流量;收費的APP希望屏蔽羊毛黨,減少損失、增加利潤……

明確風控的目的,是設計風控系統的第一要務,現在我們有個系統,用戶通過在指定地點簽到完成任務,累計一定數量,就可以兌換獎勵,那我們風控的目的,是不想獎勵給那些作弊的人,把獎勵真正給到那些真實完成任務的人,從而激勵大家更積極、認真的參與任務。

  • 明確目的:減少獎勵損失、讓獎勵給到真正參與的人
  • 采取手段:找到作弊者,然后拒絕發放獎勵,對此作弊甚至直接拉黑處理
  • 前提條件:如何找到作弊者呢?盡可能的減少人工審核投入,希望根據收集的大數據,建立數據模型,找出最可能有作弊嫌疑的用戶,再進行人工復核。

再例如最常見的借貸APP,他們是對風控系統依賴、專研最多的行業之一。

  • 明確目的:把錢結給能還得起、且愿意還錢的人,從而保障本金成本少流失、利息收益最大化。
  • 采取手段:鑒別貸款者的還款功能,對于還款能力低的人,授予額度低甚至不授予額度
  • 前提條件:如何鑒別貸款者還款能力呢?根據收集的大數據、人行征信及其他第三方系統數據等,找出該用戶的收入能力、消費能力、信用記錄等,從而評估該用戶:是否還得起、是否愿意還。

只有明確了需要風控系統介入的目的,才能更好的進行風控模型、風控舉措的設計,從而讓風控系統的價值最大化。

三、風控第二步:設計風險模型

風險模型用于評估風控對象對于風控目標的風險程度,那要如何構建風險模型呢?

首先我們要盡可能掌握風控對象可能與風控目標有關聯的所有信息,然后評估這些信息的風險程度,不同的信息根據關聯程度不一樣,又會有不同的權重,最后加權計算就得出了風控對象的風險系數。

結合實際例子理解:現在有一款產品,運營會創建一系列的指定地點打卡有獎的任務,用戶領取任務后,在對應地點完成打卡,即可獲得一定的獎勵。但是考慮到運營獲得的地點信息不一定是準確的,所以簽到地點允許有一定的距離誤差。

1. 業務流程梳理

我們對用戶獲得獎勵的行為路徑進行梳理:

2. 數據整理

我們將每個階段會產出的數據進行梳理:

  • 注冊:注冊時間/時長、手機號碼(引申出運營商、號碼段、歸屬地等信息)、注冊IP(引申出ip歸屬地)
  • 瀏覽:近3天、7天、14天、1個月、3個月、1年活躍程度,包括看了哪些頁面、訪問頻率、一般什么時候看、訪問地點(通過ip地址分析)、訪問的設備信息(引申出設備型號、設備號、APP版本等)
  • 實名認證:姓名、性別、年齡、身份證號、戶籍所在地
  • 銀行卡信息:卡號、卡戶行、開戶地
  • 領取任務:任務類型、創建時間、創建人、任務時間、任務地點、任務熱度(任務最大領取人數、任務已領取人數、任務PV/UV訪問情況等)、任務獎勵、領取時間、領取地點、領取設備等
  • 打卡:打卡時間、打卡地點、照片質量、備注質量、打卡設備(手機型號、設備號、APP版本、IP地址、ip歸屬地)
  • 獎勵:已領取獎勵、已提現獎勵、領取次數、平均獎勵金額、平均提取周期等

如果對這些數據,或其他業務流程中可以產出、依賴性強的數據沒埋點采集的話,還需要先完善埋點,確保盡可能的把數據采集全面。

3. 數據歸類

我們按照大名鼎鼎的5W1H對整個業務流程可以產出的數據做個歸類。

5W+1H:是對選定的項目、工序或操作,都要從原因(何因Why)、對象(何事What)、地點(何地Where)、時間(何時When)、人員(何人Who)、方法(何法How)等六個方面提出問題進行思考。

4. 風險關聯分析

我們對所有掌握的數據進行歸類后,可以將該數據與預期風險進行關聯分析,例如我們有那么多的地址信息,由于我們業務的特殊性,一般都是同城內打卡,所以用戶注冊地、日常瀏覽的所在地、打卡地址,都應該在本市,且打卡地點不出意外的話,都應該距離設定的任務地址非常近。

諸如手機號歸屬地、銀行卡開戶地、身份證歸屬地,這三者可能不是在本地也正常,如在老家辦的身份證、手機號、銀行卡等,但是這三者應在省份層面,應該有一致性趨勢,例如一個用戶身份證是郴州的,銀行卡是泉州開的,手機號是衢州的,最后在宿州參加任務打卡,這風險就很大了。

由于我們業務的特性,一個打卡任務從發布到要求打卡完成,都不會超過1個月,且每次獎勵都不多(不到百元),所以瀏覽頁面所在地點與實際打卡地點大概率應該是在一個城市,臨近的城市都比較少,如果出現廣東省瀏覽了一個山東省的任務,最后打卡點是山東省,這風險也極大。

所以我們就可以列一下每個數據與最終風險的關聯系數。

5. 風險閾值設計

我們采用“可信度”計分,標記為s,單項最高100分,最低0分。如果一項數據可信度越高,則分數越高,相對而言風險程度就越低。

同時給每一項數據加一個權重值,標記為w,為方便計算,需要讓w1+w2+…+wi=1,即所有權重相加等于100%。

最終可信度分數 =?∑ 單項分數s x 單項權重w,可信度模式,也被稱之為健康分、健康度、信用分等。

(1)打卡地點,系數w假設為0.1

按要求就應該在任務要求的地點附近,我們采用經緯度距離計算的方式,判斷風險度:

  • d(距離)<=50米:可信度極高,單項+100
  • 50米 <= d < 200米:+80
  • 200米 <= d < 500米:+60
  • 500米 <= d < 1000米:+40
  • 1000米 <= d < 5000米:+20
  • d >= 5000米:+0

(2)打卡ip歸屬地,系數w假設為0.02

打卡ip歸屬地其實并不準確,由于網絡運營商問題或使用了虛擬專用網絡(Virtual Private Network),可能出現“漂移”,不過ip作弊難度相對于修改地址而言更難,所以還是有很大的價值。

  • 打卡ip歸屬地與打卡地點一致在同一個城市,可以增加打卡的可信度,單項+100
  • 不一致,單項+0

(3)其他ip歸屬地,系數w假設為0.03

注冊ip、瀏覽ip的歸屬地,和打卡ip有同樣的準確性問題,但是我們可以用離散度來衡量,一般情況,我們預期的用戶注冊ip、瀏覽ip與實際打卡ip都應該是同一個城市的,所以我們可以取注冊ip歸屬地、最近3天使用最多的ip地址歸屬地(需要占瀏覽記錄的30%以上,如果沒有則為空)、最近7天使用對多的ip地址歸屬地(需要占50%,如果沒有則為空),與打卡地點進行比對:

  • 其中0個同一個市:+0
  • 其中1個同一個市:+30
  • 其中2個同一個市:+60
  • 其中3個同一個市:+100

采用同樣的方法,我們可以對5W1H里面的每一項數據,都擬定一個權重、還有一套評分規則,就可以進行所有人員的風險評估了。

6. 模型測算

當我們梳理出所有風險相關的數據、擬定了權重、評分規則后,我們就完成了分析評估模型的初步設計,但是這個模型準不準,我們還需要進行測算。

我們會從系統中隨機抽取一定數量的、包含了已知作弊記錄在內的真實記錄,然后使用模型規則,算出可信度分數,然后查看可信度分布情況:

  • 已知的作弊記錄,是否多數分布于可信度低的區域。如果不在,查明是哪個指標權重或計算規則導致的,調整對應指標權重、計算規則
  • 其他可信度低,即風險高的記錄,人工核實是否真的作弊了,或者具有高作弊嫌疑。
  • 根據業務特征和運營經驗,分析分數分布情況是否符合預期的分布特征,如正態分布,即極高風險的和極低風險的應該都在少數,大部分處于中間區間。
  • 不斷優化權重配置、計算規則、多抽樣幾批真實業務記錄進行反復測算,提高模型的準確性
  • 總結不同可信度分值的分布區間特點,對記錄結果分類,如總分0-20為極危,20-40分為高危;40-60為低危;60-80為健康;80以上為優秀。

目前我們的模型是根據最終打卡記錄來計算的,保障任務獎勵的資金安全、發放給應得的用戶。但是有時候我們可以會需要根據用戶的歷史記錄,來評估對用戶維度的可信度,用來在任務報名節點就過濾掉部分用戶,這時候可能就要建立新的模型進行評估。

另外對于新用戶,沒有過多的數據時,可能就需要用更少的數據指標,來建立用戶維度的可信度等。

四、風控第三步:風險模型應用

我們根據任務的獎勵情況,任務獎勵越多,那被刷、用戶作弊的風險就越大,可能造成平臺的損失就越大,所以對其打卡記錄,根據可信度,采用不同的策略,以實現減少人力成本投入、提高安全系數的目的。

到此,我們就完成了風控系統的設計、應用全流程。但是風控模型不是一成不變的,是需要通過不斷積累的技術、數據,不斷迭代升級的:

  • 隨著業務場景的拓展、技術的不斷更新,我們可能采集到更多維度的數據,用于升級風控模型;
  • 那些“免審核”的優秀記錄記錄中,還是會隱藏著新的作弊手法、作弊風險,一旦被發現,我們也需要對風控模型進行更新,及時堵住漏洞,防止損失擴大;
  • 通過與第三方安全公司、風控系統的合作,不斷完善風控指標

五、總結

萬丈高樓平地起,5W1H作為我們日常生活、工作中最實用的方法論之一,對于基礎的風控模型設計也一樣適用,通過一定的分類,把雜亂無章的線索整理歸類,讓其特征得以顯現。

實際生產實踐過程中,由于法律法規要求、用戶體驗需要等,可能還未必能采集到那么豐富的數據;另外所需要面對的業務,復雜度也可能高得多,很多風險隱患可能深藏于錯綜復雜的業務流中,不容易被察覺。此時我們就需要設計更復雜的風控模型,如通過灰色關聯分析來設計權重、使用機器學習來識別風險等等,路漫漫其修遠兮,吾將上下而求索。

#專欄作家#

iCheer,公眾號:云主子,人人都是產品經理專欄作家。房地產/物業行業產品經理,Python編程愛好者,養貓發燒友。

本文原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 陳總:你這廢物寫的都是什么狗屎,來公司就是騙吃騙喝騙錢的嗎?你給我滾蛋

    來自北京 回復
  2. 我旁邊的那個小伙子就是參考的這個

    來自四川 回復
  3. 5w的思路適合很多地方,作者分享的很詳細!期待更新

    來自安徽 回復
  4. 哪些地方都用到5W1H,這么多的思維模型要多多學習,感謝作者

    來自江蘇 回復