科普帖:懂了這些名詞,你就已經是個“風控人”了

3 評論 13446 瀏覽 77 收藏 27 分鐘

本文主要是一個科普帖,把當前互聯網風控業務內部各環節遇到的一些特定名詞給大家嘗試做一些淺嘗輒止的介紹。

序言篇

風控其實是一個很寬泛、很有歷史感的概念,在不同的公司形態、業務職能上都會有風控的存在:如并購業務中的風控、股債匯業務中的風控、財務職能中的風控、法務/審計職能中的風控。在金融領域,風控已經有近百年的概念,廣泛應用于信用評級、量化投資等領域,也產生了諸多經典的風控模型,如金融的小伙伴熟知的KMV、creditmetric、Copula函數等模型。

而在本篇中提及到的風控則是一個相對較新的概念,屬于互聯網大背景下涵蓋網絡安全、信息安全、統計/機器學習等內容并結合企業自身業務發展衍生出來的一門新興交叉學科。而在這塊常見的應用場景主要包括電商和網絡信貸場景,這是與之前的風控截然不同的地方,也對互聯網大背景下的風控從業人員有了不一樣的要求。

業務篇

本篇會簡要介紹目前在一些名詞概念,這些名詞會是在互聯網企業的風控業務中經常遇到的,所有的互聯網公司應該都會遇到下面這些手段的攻擊。因為我本身不是技術出身,所以在下述的介紹中只能做到淺嘗輒止。

此篇建議風控初級運營人員瀏覽。

手機號碼、驗證碼則成為了許多網絡平臺的“通行證”,為了“迎合”市場的需求, 就有了一整條配合用戶注冊網絡平臺賬號的“產業鏈”。

1. 卡商

這條產業鏈的源頭是卡商,所謂卡商就是手里擁有大量手機號的個人所有者

這些手機號的來源主要有以下幾方面:

(1)物聯網卡

物聯卡業務是中國移動、中國聯通、中國電信面向物聯網用戶提供的采用物聯網專用的段作為MSISDN的移動通信接入業務,通過專用網元設備支持短信等基礎通信服務,并提供通信狀態管理和通信鑒權等智能通道服務,默認開通物聯網專用的短信接入服務號和物聯網專用APN。這張卡可以用流量、發短信、就是不能打電話。物聯網卡只針對企業工業級應用,不針對個人市場,如共享單車里面就是用到了這樣的物聯網卡。

(2)虛擬手機號

即虛擬運營商號段,170/171號段,這塊大家應該比較熟悉了,暫不多表。

(3)境外卡

因為越南等國用的信號與我國相同,所以越南這邊的手機卡在我國是可以收到短信的,且因為不需要實名所以需求也較為強烈,筆者曾經在某群內看到大量售賣境外卡,每張售賣10-15元,每張卡后續新用戶盈利完全可以cover住成本。

(4)真實注冊的運營商號碼

在部分地區,因為基層運營商有業務考核壓力,所以當有人愿意大量辦卡的時候其實基層運營商是很愿意配合的。因為管理不規范這樣的操作風險的存在導致大量的真實號碼流入產業鏈當中。

2. 貓池&設備農場

當卡商擁有大量的手機號之后,需要大量承載手機號的硬件設備,于是貓池出現了。

貓池是一種集成了多路短信收發模塊的高性能工業級短信貓設備,支持多路并發從而可滿足大量短信收發的應用需求。類型按可接入手機卡數量分為:單口貓池、八口貓池、16口貓池、32口貓池、64口貓池等,隨著2G到4G的過度,現今一般可以插16-128張卡不等,按實用功能分:普通短信貓池、普通聲訊貓池、彩信貓池、GPRS/WAP四合一貓池等 。

而隨著互聯網網站防御對抗的升級(如語音驗證碼的出現),這種通過貓池來進行批量賬號生成的手法已經漸漸遇到了瓶頸,為了更好的服務好“需求”(除了注冊之外,刷投票、刷流量、刷閱讀量同理),承載的硬件設備也從貓池升級到了“手機農場”。

顧名思義,手機農場是用大量的廉價手機組成“設備池”,并依賴“群控”工具完成批量操作,這就比貓池設備高級了,隱匿性和真實性更高。

(手機農場)

3. 接碼平臺

接碼平臺,或者也可稱之為驗證碼平臺。它類似于手機卡市場的“淘寶”,卡商將自己的卡號放到平臺上售賣,而羊毛黨或者其他有驗證碼需求的人則可以直接在平臺上購買號碼,接收短信,卡商平臺提供軟件支持、業務結算等服務,通過業務分成獲利。

(某接碼平臺客戶端)

一張從未做過驗證碼服務的卡,在平臺上一天的收益大約有15-25元,根據驗證碼的屬性不同,卡商和平臺的分成比例也不同,語音類驗證碼五五開,短信類驗證碼三七開,卡商占七成。

4. 打碼平臺

而在產業鏈的主鏈條中,還有一些輔助工具的加入,才能配合該鏈條運轉,比如打碼平臺就是個很好的例子。在注冊、搶購過程中都會遇到驗證碼的存在,而這個時候打碼平臺就派上用場了。

打碼平臺的本質是“人肉打碼”,很多打碼平臺需要跟網賺平臺進行合作,因為網賺平臺的用戶量比較大,這種每天輸入一些驗證碼就能賺錢的平臺是很多用戶比較喜歡的。網賺平臺通過金幣的形式給用戶發放,金幣累積一定數量后可進行提現。

在網賺平臺上的傭工可以勾選想要接收的驗證碼復雜度,有選擇題、填空題、鼠標點擊類型等等,每種驗證碼的積分不同,驗證碼難度較高的積分較大些,同時網賺平臺夜間工作給的積分也會多。

(打碼平臺流程圖)

目前隨著人工智能的發展,圖像識別技術已經越來越精準,很多簡單的字符驗證碼已經不能夠有效阻擋機器行為,使用簡單的OCR識別工具即可進行識別,稍微復雜的可以結合機器學習等進行高準確率的識別,大大提高了“工作效率”。

5. 偽基站

偽基站設備是嫌疑人私自組裝生產的一種高科技儀器,主要由主機、筆記本電腦組成,能夠強制連接用戶手機信號,攝取一定半徑范圍內的手機信息,可以任意冒用手機或公用服務號碼強行向用戶手機發送短信。

偽基站的主要特點,是可以隨意更改發送的號碼,可以選擇尾號較好的號碼,還可以使用尾數為10086或95588等號碼,使手機用戶誤以為真的是移動公司或工商銀行發送的短信。利用偽基站設備發送帶有木馬鏈接的短信、利用木馬盜取公民重要信息(如銀行卡信息、短信驗證碼)已經成為非常普遍的一種犯罪方式。

《中華人民共和國刑法修正案(九)》規定:

“違反國家規定,擅自設置、使用無線電臺(站),或者擅自使用無線電頻率,干擾無線電通訊秩序,情節嚴重的,處三年以下有期徒刑、拘役或者管制,并處或者單處罰金;情節特別嚴重的,處三年以上七年以下有期徒刑,并處罰金?!?/p>

6. 短信嗅探

GSM 協議中2G 網絡架構是開源的,它本身傳輸數據時也沒有加密,這就導致短信內容是明文傳輸的,這就給不法分子提供了可乘之機詐騙者可以利用GSM 2G網絡的設計缺陷,在不接觸目標手機的情況下,獲得目標手機所接收到的驗證短信,盜取用戶支付寶、微信或者網銀中的資產。

犯罪團伙基于2G移動網絡下的GSM通信協議,搭配專用手機,組裝成便于攜帶易使用的短信嗅探設備。通過號碼收集設備獲取一定范圍下的潛在的手機號碼,然后在一些支付網站或移動應用的登錄界面,通過“短信驗證碼登錄”途徑登錄,再利用短信嗅探設備來嗅探短信提取短信中的驗證碼。

大家的銀行卡、身份證號等隱私信息也早早就被泄露在網上,那么資金盜刷對于詐騙分子來說就是輕而易舉的事情,由此掌握目標的四大件:手機號碼、身份證號碼、銀行卡號、短信驗證碼。通過獲取的四大件,實施各類與支付或借貸等資金流轉相關的注冊/綁定/解綁、消費、小額貸款、信用抵扣等惡意操作,實現對目標的盜刷或信用卡詐騙犯罪。

因為,一般短信嗅探技術只是同時獲取短信,并不能攔截短信,所以不法分子通常會選擇在深夜作案,因為這時,受害者熟睡,不會注意到異常短信,等到受害人發現的時候早已經銷贓完成。

7. 模擬器/改機工具

對于硬件信息的修改已經成為非常重要的手段,而對于硬件信息的更高手段也是愈發多樣。手機模擬器一種常見的軟件,常見于各類薅羊毛活動,采用多開方式手動操作或是結合模擬點擊腳本,進行攻擊行為,一般模擬器也具有修改設備信息的功能。

(模擬器可以完成手機型號修改、IMEI修改、位置修改等功能)

改機工具通過劫持系統函數,偽造模擬指定手機(模擬器)的設備信息的APP,能夠欺騙廠商在設備維度的檢測。改機工具會從系統層面劫持獲取設備基本信息的接口,APP只能得到偽造的假數據。Andriod和iOS都有很多相應的改機工具,Andriod改機大部分都基于Xposed框架,需要Root,iOS大多基于Cydia框架,需要越獄。

系統篇

本篇會主要介紹風控系統內部的一些功能及概覽,以及支撐起風控系統運轉的一些功能模塊,不同家企業基于自身業務的差別風控系統可能也有差別,此處會介紹一些較為通用的風控系統功能模塊。

此篇建議風控初級產品人員瀏覽。

1. 風控決策引擎

風控決策引擎是風控的大腦,即在各環節通過一大堆原始數據的輸入,通過負面名單、規則策略、模型結果等方面的綜合輸出,以實現最終決策的作用。跟人的大腦作用類似,通過外界要素的輸入做出正確的判別,這塊后續還涉及到一個錯誤反哺優化的迭代機制,所以一個決策引擎的強大是一個風控系統能

下圖為一個典型的風控決策引擎應該具備的基本功能(只做功能展示作用):

(1)??支持節點無限分叉

(2)??支持各類邏輯、計算、深度挖掘類的規則

(3)??支持多種處理結果返回,通過、拒絕、人工、預警、加驗短信等

(4)??靈活的規則庫,可以做到秒級實時上線

2. 設備指紋技術

設備指紋并不是一個新的概念,而是在風控工作中常遇到的,即對某一設備的唯一標記,即“設備的身份證”,早期的時候大家喜歡用IMEI\IDFV這樣的要素作為設備的身份識別標記。

但是前文也提過,更改設備參數已經是一個非常容易實現的東西,所以設備指紋技術就應運而生??偟膩碚f是通過采集設備多方面的要素,并通過一定的權重和算法加密之后得到的一串字符,目前有多家安全乙方公司提供類似的服務,因為各家的權重、算法設置不同,所以不能通用。另外,設備指紋技術除了安卓、IOS、H5之外,隨著小程序應用的盛行,對于小程序設備指紋的采集也是個較大的挑戰。

常見的設備指紋采集要素(很小部分的要素):

目前來看沒有一家能夠有效的識別不同的設備,這塊也是個攻防對抗不斷優化提升的過程。

3. 知識圖譜技術

欺詐案件(比如身份造假,團體欺詐,代辦包裝等),且會涉及到復雜的關系網絡,這也給欺詐審核帶來了新的挑戰。

知識圖譜,作為關系的直接表示方式,可以很好地解決這兩個問題。首先,知識圖譜提供非常便捷的方式來添加新的數據源,知識圖譜本身就是用來表示關系的,這種直觀的表示方法可以幫助我們更有效地分析復雜關系中存在的特定的潛在風險。

(點代表人,線代表人與人之間的關系)

通過知識圖譜可以識別

  1. 團伙識別:通過某些關系可以將一個團伙全部鏈接起來;
  2. 身份偽造:即某個人的身份資料在知識圖譜不同的案件中出現了矛盾;
  3. 貸后失聯:通過知識圖譜協助貸后,找到與失聯人有關系的聯系人。

而知識圖譜在風控引擎中的應用也可以通過規則、模型等實現。

知識圖譜具體的構建方式研發人員感興趣可以自行搜索相關資料。

模型篇

該篇內容會涉及到一些建模類的東西。模型這個東西本身構建過程中會涉及到很多數理統計類的理論,所以建模人員需要有相當的數學背景。該部分不會介紹如何去建模,而是主要介紹一些模型的基本概念、結論,幫助大家理解。

此篇不建議風控建模人員瀏覽,因為你們都會!其他的風控小伙伴可以靜下心來認真看下,其實理解起來并不那么神秘,理解之后你就可以試著跟建模的同學撕逼了:

你的模型效果不好,我不用??!

1. 分類模型與評分卡

1.1 分類模型

分類模型是風控中最常用的模型之一,即在一堆樣本中判定哪些有可能是好用戶哪些有可能是壞用戶,所以換句話說,風控是人工智能最容易介入、也是介入較領域。

目前在風控中用的較多的分類模型包括決策樹、邏輯回歸、神經網絡、隨機森林等,這些模型本身就具備著分類的功能,通過一堆歷史上帶有標簽的數據并結合min(損失函數)的過程完成訓練,期望可以通過綜合一系列帶有區分度的指標得到一個綜合評分,以期可以實現對某一個樣本進行評價的目的。

模型本身其實是一個很有溫度的東西,根據一堆冷冰冰的原始數據的輸入能夠得到一個比人的直觀感知更科學、更定量的結果,難道不是很有趣么。其實在建模的過程中,其實因為損失函數的設定,本身已經把人的直觀認知融入到模型當中,在建模的過程中已經添加了人的感情因素在里面,就跟女媧造人一樣:用一堆冰冷的泥土去賦予生命,建模的過程回頭再看看也是如此。

1.2 評分卡

評分卡模型是分類模型中的一種特殊表現形式,我們直觀看到的評分卡大概是類似于以下圖表的,即不同的x變量會給與不同的分數,比如年齡在一定區間內的加m分,在另外一個區間給n分,看著是很隨意,但是實際不然。

評分卡模型本質核心是基于邏輯回歸模型衍生的,根本上是結合企業的業務形態并結合邏輯回歸當中各個參數前面的系數進行轉換(如根據模型中年齡前面的系數進行轉化),具體轉換過程暫不表述

上圖為某一典型的評分卡效果演示

2. 模型評價指標:混淆矩陣、ROC與KS

評價指標指的是一個模型做出來了,他的效果怎么樣呢?這塊的指標理解清楚了,也更方便的幫助業務人員跟建模人員撕逼。

很多作者在寫有關評價指標的時候運用大量的字母、公式等,讓讀者讀起來非常吃力,我很不喜歡這種方式,但是實際上這塊的只管理解是非常簡單的。

在1的描述中,我們構建了一個模型,y=f(Xi),于是對于所有樣本,基于這些樣本的自變量Xi,我們可以得到每個樣本對應的y值,這個y值代表的就是這個樣本逾期的概率。(下述來自于實驗樣本結果)

2.1 混淆矩陣

混淆矩陣不能作為評估模型的唯一標準,但是混淆矩陣是算模型其他指標的基礎,后面會講到,所以對混淆矩陣的理解是必要的。

模型跑出來的“Y”值為每個客戶的預測違約概率,可以理解為客戶的有多大的可能違約。把Y等分分段,通過每分段內的區間人數和實際壞用戶的標簽進行比對,可以得到下述圖表。

我們從上圖發現,橫軸越大其bad率越高,而混淆矩陣就是基于上述的預測結果生成的。

我們取任何一個x值進行分段,如x=0.5,x<0.5我們認為是好人,x>0.5我們認為是壞人,但是這樣的認定會有誤差,即有可能把實際的好人誤判為壞人,也有可能把實際的壞人漏過判為好人,這就形成了在這個分界點下的混淆矩陣(即綠的是對的):

每一個x值(即分界點)都會形成一個混淆矩陣,而每一個混淆矩陣都會有很多判別指標:如accuracy、TPR、FPR,就是基于TP\FP\FN\TN四個值的加/除,請讀者自行百度,我也不記得了。

2.2 ks值

KS(Kolmogorov-Smirnov)用于模型風險區分能力進行評估,指標衡量的是好壞樣本累計分部之間的差值。好壞樣本累計差異越大,KS指標越大,那么模型的風險區分能力越強。

KS值的計算也是基于上述的混淆矩陣。KS的計算步驟如下:

  1. 計算每個評分區間的好壞賬戶數;
  2. 計算每個評分區間的累計好賬戶數占總好賬戶數比率(good%)和累計壞賬戶數占總壞賬戶數比率(bad%);
  3. 計算每個評分區間累計壞賬戶占比與累計好賬戶占比差的絕對值(累計good%-累計bad%);
  4. 然后對這些絕對值取最大值即得此模型的K-S值。

說人話就是在某個分割點對應的混淆矩陣中,壞人被識別出來的比例(70%的壞人可以被識別出來)-誤殺好樣本的比例(如30%的好人被錯當成壞人了)。

因為分割點可以有無數個,我們可以得到一個曲線,max(壞人被識別出來的比例-誤殺好樣本的比例)的點即為最佳KS值。

在建模中模型的ks要求是達到0.3以上才是可以接受的。

除了上述兩個評價指標之外,還有基尼系數、PSI、AUC等多個評價指標,主要評價的目的是判定模型的區分度、穩定性等,讀者有興趣可以自行搜索學習。

結語篇

當前大數據背景下的互聯網業務形態,給風控這個已經很古老的名詞又賦予了新的意義、新的內涵、新的使命,互聯網業務形態的復雜性、數據爆炸特性,導致風控的玩法也愈加多樣。本文主要是一個科普帖,把當前互聯網風控業務內部各環節遇到的一些特定名詞給大家嘗試做一些淺嘗輒止的介紹。

業務、系統、模型各職能模塊間是相輔相成的,無論做哪方面的工作,理解更多的工作內容才能打破職能模塊間的壁壘、更好的去推進工作!

 

作者:獨孤qiu敗,微信公眾號:互聯網風控那些事兒(anti_fraud_share),互聯網行業風控產品經理,定期分享互聯網風控相關業界動態、系統設計方案、模型算法

本文由 @獨孤qiu敗 原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自 Pexels,基于 CC0 協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 在上家公司負責風控系統開發,風控運營問我打碼平臺是什么,我說是不是跟鑒黃有關系,太業余了…… 要是早看過這篇文檔就好了

    來自北京 回復
  2. 很有借鑒意義

    來自廣東 回復
  3. 深入淺出,通俗易懂

    回復