為什么我認為無監督學習在反欺詐中的應用場景是一場噱頭?

0 評論 7540 瀏覽 10 收藏 16 分鐘

近些年來,“無監督學習在反欺詐中的應用”這一概念非?;穑欢鴱膽脠鼍耙约皩嶋H效果來看,這更像是一場被扭曲的騙局。

很久沒更新這個公眾號,翻一下歷史記錄,上一篇文章都已經是年前了。年前的文章中的coming soon中就說過想寫一篇關于無監督學習的文章,不過萬惡的拖延癥一直阻止著我,趁著出差在火車上更新了這篇稿子。

最近聽到比較火的觀點(項目目標、工作計劃等)就是:我要在反欺詐工作中應用無監督學習的算法,其實這樣的論點在2015年的時候就已經零零散散地聽到了。

最近這一年多因為互金風控發展的原因,這個論點開始頻繁現身于各大交流論壇、公眾號文章,這種感覺就像無監督學習算法是一個先進的手段,不用無監督學習就證明你的反欺詐水平很low,隱隱間,感覺有一種販賣焦慮的咪蒙雞湯~

再到后來,我甚至發現一點統計背景都沒有的做風控的人在各種場合都開始大談無監督學習,用自己對無監督學習一點模糊的認知來體現自己是個走在領域前沿的行業專家,感覺有點歪風盛行。

一、一個領域何種場景下會使用新方法?

無監督學習和有監督學習都是出現了幾十年的方法,每一類方法下面都有好幾大類經典的算法,在風控之外的領域他們都因為算法的不同特性有了很好的落地應用,那為什么這幾十年來風控行業都在用有監督學習來做模型,而從我的行業了解狀況來看,無監督學習很難有成熟的落地應用。為什么這兩年無監督學習突然又被炒起來來呢,是因為發生了什么變化么?

其實我們都知道,一個方法/工具與特定場景能夠產生新的化學反應的原因無外乎以下三點:

(1)這是一個新的方法/工具,過去從來沒有出現過。(2)這個方法/工具以前已經有,但是因為條件受限制,在該場景中從來沒有人使用過。

(3)特定的場景發生了新的業務外延,讓這個方法/工具有了新的用武之地。

1. 是因為無監督學習的方法剛剛出現嗎?

很明顯不是,好幾類經典的無監督學習方法出現時間估計有一百年時間了(此處我沒有細細考察,希望指正),而有監督學習當中經典的邏輯回歸方法應該是在1950年之后出現的事情,所以這不是一個新的方法。

2. 是因為無監督學習在反欺詐場景中的使用條件限制嗎?

很明顯也不是,限制一個學習算法在場景中的應用最大的束縛無外乎就是計算速度的問題,而在有監督學習中,很多算法的計算量遠遠大于無監督學習。所以肯定也不是硬件和軟件條件的限制。

3. 是因為反欺詐業務中出現了新的特征和業務外延嗎?

這是目前認為反欺詐中需要無監督學習的主要的論點:目前隨著互聯網形態的發展,互聯網對運營效率的提升同時也帶來了非面對面交易、高并發、非結構性數據的反欺詐難點,傳統的專家規則和有監督學習難以解決錯綜復雜、變幻莫測的欺詐形式,如果能夠用無監督學習自動的把相似的點全部聚集在一起,就可以找出欺詐團伙。???

是的,看起來很有道理的樣子,感覺也能說得通,但是實際上真的是如此嗎?

二、無監督學習在反欺詐中的應用怎么就火了?

無監督學習在反欺詐學習中的應用這個論點火起來的心路歷程大概就是:

(1)A(行業KOL):

有人邀請我去風控論壇做演講,講點啥呢?

該講的都講過了,怎么體現我逼格更高呢?

好像前幾天在網上看過無監督學習在反欺詐應用的例子,雖然我們公司也沒怎么應用落地,那就講無監督學習吧。

(2)B(部門leader):

又要寫明年規劃了,怎么樣才能把工作規劃逼格抬上去呢?

好像前兩天在論壇上看過有家同業好像用無監督學習了,那我寫上去吧,好不好用到時候再說。

(3)C(剛入行萌新):

看看網上一些大佬老說無監督學習應用在風控領域是一個方向,我也趕緊學習學習,看看能不能趕上潮流前沿
以此輪詢~

而這類觀點之所以被認可,無外乎因為
(1)懂業務不懂模型的風控人:說的是啊,壞人都具有相同的特征,無監督學習確實能夠把壞人聚類。

(2)懂模型不懂業務的風控人:說的是啊,無監督學習把不同的人進行分類,他們業務就能找到壞人啦。

這個邏輯就是雞生蛋還是蛋生雞的問題。

業內有一家一直號稱做無監督學習算法的風控乙方,該家公司的創始人背景也很牛,一直在業內號稱要用無監督學習解決反欺詐難題。很多投資人會覺得這是一個新興的領域,公司領導也覺得這是非做不可的(有點像鉆石的營銷騙局)。在搜索引擎上用“無監督學習”、“反欺詐”做關鍵詞,你會發現,大部分的文章都是這家公司或者這家公司的員工發布出來的,標題也很驚悚——無監督學習改變反欺詐、無監督學習反欺詐是主流等等。

整理一下目前網上所謂的“典型的無監督學習做反欺詐”的流程:

(1)特征映射

(2)聚類算法

(3)分析、判斷欺詐屬性

簡單點說就是:

(1)找變量:幾百維甚至上千維變量,與有監督學習一模一樣。

(2)聚類算法:按照變量用聚類算法聚成集群,分成很多組,有可能需提前降維。

(3)看看這個組是不是欺詐:怎么看?看看有多少黑名單,看看怎么關聯在一起的。

問題來了,在線上實際應用的時候,你如何判斷這個組是不是欺詐?就因為組成員多就把這個組認為是團伙么,我怕你會被業務噴死?,F在最大的問題在于你把組分出來了,你如何給組定義?

為了認定這個分出來的組是不是欺詐,那就要根據這個組的特征,比如里面有多少壞用戶啊、是通過何種方式聚集在一起的啊,然后訓練一個模型判斷這個組是不是壞的?

等等,這不就是有監督學習了?針對一個個(集群)組來進行有監督學習?

針對集群的有監督學習,其實本質上還是集群中個體的有監督學習,比如該用戶所用設備關聯幾個壞用戶,一個WiFi網絡下有多少用戶申請類似。所以這個所謂針對無監督出來集群+對集群的有監督學習,本質上還是個體指標的有監督學習。

這個直觀的例子就是:我要從上海到北京,本來坐京滬高鐵直達就行了。你說不行,要先飛到武漢,再從武漢高鐵到北京,excuse me?有錢任性么。
另外還有一個問題在于:這個分組是并不穩定的,在不同的閾值和分組方法下,得到的分組結果天壤之別,這種不穩定在實際生產環境中又如何使用?

引申上面的例子就是:我要從上海到北京,本來坐京滬高鐵直達就行了。你說不行,中間要轉一道,從哪轉,不確定隨機的,這次是武漢,下次是重慶,在下次是廣州,excuse me?

三、實際效果又如何?

以上這個觀點,我從業內某家甲方做了幾十萬樣本(包括原本規則已拒絕樣本+通過樣本)的無監督學習測試報告反饋中摘取典型的幾個群組,看看號稱的無監督學習到底識別結果到底是怎么樣的?

這應該算是測試反饋比較有效的群組了,其他的聚集群組是不是敢在生產中實際應用,群組里面的效果表現如何,很難保證。這樣的群組分類,本質上就是一種有監督,一種用實際結果來證明挑出來的這個群組是壞群組的不科學的驗證方法。

另外,這些規則策略應該都是專家規則里面直接做的,為什么要多次一舉畫蛇添足繞這么大一圈,效果也沒好在哪里。

有些小伙伴會說,你看不是多識別出來了幾筆?

其實,大概率那是專家規則的閾值?。ū热玳撝禐?,所以通過了2個人),新樣本進件是有次序的,第一筆第二筆欺詐總是不容易被識別的。就算這個算法應用到生產當中,他也沒辦法在前兩筆就識別出來的,本質上還是一樣的效果。

所謂的無監督學習,繞了一大圈回來,還是得依賴專家規則+有監督學習,多出來的那一步。這里想到2個不知道是否真假的故事:

(1)聯合利華引進了一條香皂包裝生產線,結果發現這條生產線有個缺陷:常常會有盒子里沒裝入香皂??偛荒馨芽蘸凶淤u給顧客啊,他們只得請了一個學自動化的博士后設計一個方案來分揀空的香皂盒。博士后拉起了一個十幾人的科研攻關小組,綜合采用了機械、微電子、自動化、X射線探測等技術,花了幾十萬,成功解決了問題。每當生產線上有空香皂盒通過,兩旁的探測器會檢測到,并且驅動一只機械手把空皂盒推走。

中國南方有個鄉鎮企業也買了同樣的生產線,老板發現這個問題后大為發火,找了個小工來說:“***給老子把這個搞定,不然你給老子爬走。”小工很快想出了辦法:他花了90塊錢在生產線旁邊放了一臺大功率電風扇猛吹,于是空皂盒都被吹走了。

(2)在太空中由于失重,無法使用圓珠筆或者自來水筆進行記錄,對此美國宇航局投入大量資金,開發了可以在失重條件下寫字的太空用自來水筆,而前蘇聯的宇航員則簡單地用鉛筆寫字解決了這個問題。

雖然故事可能是假的,但是話粗理不粗,為了營造一個噱頭,是不是資本推動的噱頭就不好說了,把本來能夠很簡單解決的事情包了一個無監督的外衣,其實在反欺詐的實質上沒有任何改變。

過去,我一直用有監督的各類算法解決遇到的風險問題,我也理解無監督學習的實現機理。但是,我知道無監督學習在反欺詐的業務落地層是極其困難的,能夠落地的所謂的無監督學習本質上都是有監督學習。

四、總結

從研究生開始,就開始做企業財務風險預警,所以對各類無監督、有監督的算法都會有比較深的涉及;過去幾年來,從研究生畢業一直做反欺詐相關的工作,從電商做到信貸,算是站在反欺詐業務的第一線,黑灰產對抗、風控系統設計、策略體系設計等等。其實風控的人一定要懂一點算法背后機理、也真正地做過業務,才知道到底什么樣的算法是最有用的。

對于無監督學習在反欺詐場景中的實際應用場景的可行性,我是持懷疑偏負面的態度的,有沒有可能說是資本推動的噱頭或者騙局我不敢說(我在跟投資機構的溝通中對這種方法表示了質疑),但是至少目前我沒有看到任何有實質性改觀的應用場景。無監督學習是一個門檻很低的學習方法,在其他領域已經有非常廣泛的涉及了,但是在反欺詐領域,暫時沒有看到有意義和實際效果的應用落地。

更進一步的,反欺詐本身也是對人性的考量,機器永遠在人性這塊代替不了人??恐欢褦祿o來由的做聚類從反欺詐業務的底層來看就不怎么牢靠,連有監督學習都需要認真去考量人性,更何況無監督學習呢?

此篇文章無意抹黑任何人或者任何企業,純粹行業的技術探討。

 

作者:獨孤qiu敗,微信公眾號:互聯網風控那些事兒(anti_fraud_share),互聯網行業風控產品經理,定期分享互聯網風控相關業界動態、系統設計方案、模型算法。

本文由 @獨孤qiu敗 原創發布于人人都是產品經理,未經許可,禁止轉載

題圖來自 Unsplash,基于 CC0 協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!