如何用數據分析框架應對反欺詐風控問題
編輯導讀:隨著互聯網的發展,詐騙手段也越來越高超,不少人都深受其害,因此更加凸顯了反欺詐風控的重要性。本文將從數據的角度來講反欺詐風險的存在和防控的方法,希望對你有幫助。
有時候也在想,為什么我們要做反欺詐風控,做這類風控的意義在哪里,對于沒有風控經驗的人,如果使其理解風險的存在以及控制的可能性。本文將從數據的角度來講反欺詐風險的存在和防控的方法。風控最核心的要素是數據,要想通過數據驅動風控,且能夠挖到背后的根本原因,需要有全面完整的數據分析思維框架。
作為風控人員,一般遇到的工作場景有兩類:
一、發現風險
黑產為了騙取平臺的利益并將其最大化,通常使用相關作案工具,比如模擬器、云手機等模擬正常用戶行為,以便繞過風控平臺的監測,因此為了更精準快速地識別數據里的異常,需要有一套分析流程和框架,筆者根據自己的工作經驗,通常通過自建的風控指標體系,并輔助監控體系來實現這一目的。
1. 風控指標體系
與數據分析同行類似,風控的指標體系也需要反映出:發生了什么?為什么發生?如果持續這樣下去會發生什么?以及我們能做什么?但因為具體業務場景不同,無法像正常同行給出具體諸如DAU、GMV、ROI這么一個統一的標準,不過可按照主次分為一級、二級和三級三類指標。一級指標:指的是對業務指標產生最直接最核心影響里的風控指標,且通過其數據的變化可下鉆挖掘根本原因或預測未來發展趨勢。一級指標通常是最精煉的,一般在1~3個以內,且最好也能直接對業務產生關聯,筆者目前使用的是關乎風控質和量的兩個指標:準確率、關聯核心業務的量級占比指標,前者是質,后者是量,因為涉及具體業務,此處量級不便明說。
二級指標:指的是最直接導致一級指標變化的度量,且其自身也包含很豐富、可下鉆挖掘的信息,通過對其分析可確定研究或者調查方向。二級指標通常維持在3-5個左右,筆者目前使用的維度是各類決策結果命中率、場景、渠道以及規則id。這四類指標都直接對一級指標產生核心影響,通過對其數據變化的監控可以快速定位風險問題。
三級指標:指的是在發生風險問題是,可以直接定位到問題所在點的度量。三級指標一般不可繼續下鉆,不過可以直接反映出用戶行為特征,給業務帶來什么樣的結果。三級指標的種類比較豐富,包含基礎數據、行為數據、設備指紋數據等等,通過分析它們直接的變化可直接定位風險發生在的具體特征,比如具體的業務子線、用戶類別、操作環境等等。
2. 監控體系
因為風控在明,黑產在暗,無法做到實時投入人力做相關的分析和排查,因此需要完善有效的監控體系輔以完成:也就是不僅需要納入上述指標,并且還需要及時預警。筆者目前通過兩種方式完成:自動化預警通道:通過對歷史存量數據建模,達到對未來流量數值的波動預測,并通過郵件、短信、電話等載體方式預警給運營人員。筆者目前主要針對總流量、一級指標、部分二級指標做相關的自動化預警。
人工預警通道:由于自動化預警需要基于歷史存量數據進行預測,對于剛剛上線或者尚無規律可循的業務流量,則需要通過人工預警通道加以實現。筆者目前主要通過風控相關產品的接口來實現上報,上班的時效也是準實時的。
此外,風控大盤也是監控體系里的一個核心工具,大盤可將上述指標可視化,通過實時數據的線上監控,達到快速響應的效果,筆者目前的大盤內容大致可分為三個領域:
3. 數據質量
由于業務線多而雜,容易導致數據質量參差不齊,從而引發風控指標的變化幅度很大,因此,大盤需展示對各個基礎維度的數據質量監控,比如用戶基礎數據、行為數據、設備指紋數據是否存在空值。
4. 指標
通過與上下游數據做對比、與同時間范圍內的其他維度數據進行細分比較、或者按照時間維度做趨勢展示,讓運營人員對各類指標的變化一目了然。
5. 系統性能
通過對各個業務線的調用時長、規則策略的報錯數量的展示,及時發現影響基礎性能的指標變動。
二、解決風險
通常到了這一步就是如何去防控風險的操作了,與日常的數據分析一樣,主要也是利用分析思維解決是什么風險以及如何處置的問題。網上有多種數據分析的方法,此篇不做贅述,主就思維來簡要總結一下。前面在發現問題上主要是發現異常值或者拐點,也就是通過數據挖掘發現風控問題,在找到問題點以后,思路就到了如何配置規則策略來防控,筆者目前的經驗如下:
1. 熟悉每一個指標,包括其指標的各項基礎統計屬性數值
每個指標都是可量化的,通過了解其基礎統計指標值,比如均值、眾數、中位數、最大值、最小值等,可掌握數據基本特征,這些基本特征就是挖掘風控異常特征的基石。因為風控需要挖掘出異常用戶,因此通過分析當前指標數據特征,并輔以對比性分析、分組分析、聚類分析等多種方法,可挖掘出異常用戶。
2. 熟悉每個特征背后的風控和業務意義
每次欺詐類風險產生的背后都包含了具體的某個業務以及黑產對應的攻擊方式,了解業務才知道防控/對抗的策略側重點在哪里,通過指標的層級分析,定位了到了具體風險特征,策略才有方向所指。舉個具體的實例:如果發現注冊環節有大量同IP多賬號的特征,如果此刻業務又有拉新送禮包的活動,那說明此刻存在批量注冊的風險,如果還發現這批用戶有虛擬號碼的特征,則說明大概率是被羊毛黨做了批量腳本注冊了。因此在策略方面就需要多考慮幾個與羊毛黨相關的規則策略來識別。以上只是一個大概思路,因為對抗的頻率和風險特征反復無序,因此在發現問題和解決問題這兩個大的節點上,其實還需要熟練的數據分析操作和快速應變的方法,其捷徑就是多參與對抗、多積累經驗、多掌握數據分析的各類技巧和方法。
作者:小瑪,某金融公司風控分析師一枚;專注風控多年,持續更新風控系列文章;“數據人創作者聯盟”成員
本文由@一個數據人的自留地 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自pexels,基于CC0協議
想了解下‘關聯核心業務的量級占比指標’具體指什么啊
應對反欺詐風控問題;需要發現問題,解決問題,需要熟練的數據分析操作和快速應變的方法,其捷徑就是多參與對抗、多積累經驗、多掌握數據分析的各類技巧和方法,一步步進步