誰是狼人:模型的建立與應用

0 評論 2466 瀏覽 11 收藏 11 分鐘

相信很多小伙伴們都玩過狼人殺的游戲,今天,作者將從狼人殺這款游戲出發,來和大家一起談討下數據與模型。

數據挖掘1:誰是狼人

玩過狼人殺的小伙伴們知道,狼人殺的魅力就是妥善利用各種信息,并加以推斷,找到狼人玩家。對于新手而言,拿到狼人牌后,多半會顯得緊張、結巴、語無倫次,甚至直接會在話語中暴露出狼人身份,坐實狼人身份。

而高玩在拿到狼人牌時,會很好隱藏自己身份,使得普通玩家難以判斷。那么問題來了,誰是狼人?

誰是狼人——淺談模型的建立與應用

現實中,這樣的“狼人”并不少見。

在信貸場景下,借貸者借錢后可能會惡意逾期不還,成為一個“狼人”。

“引狼入室”是借貸機構所不愿見到的,因此他們也想出了一些辦法來識別借貸者的身份,比如人工驗證借貸者的學歷、收入、征信等信息。一段時間后,機構開始頂不住了,借錢的人太多了,審核不過來。而且由于審核方式單一,很多“狼人”巧妙利用各種方式通過審核,繼續坑錢。

雖然一定程度上可以對審核規則進行更新,但“狼人”總能找到新的缺口,通過審核。這可愁壞了借貸機構,這造成的損失誰頂得住??!

模型本質2:機器學習

不過,再會玩的狼人都會在言行上透露出狼人的本質。他們一言一行中總會給出細微但有價值的信息,積少成多,最終幫助我們揪出他的狼尾巴。只是,我們如何利用好這些信息呢?

誰是狼人——淺談模型的建立與應用

隨著大數據的崛起和機器學習的應用,借貸場景下的“狼人”開始無所遁形,我們可以掌握其更多維度的信息,幫助我們去判斷借貸者的好壞身份,比如app安裝偏好、地理位置等信息。

然后合理的運用機器學習建模方法,就可以將這些信息妥善利用起來,讓“狼人”露出原形。這可樂壞了借貸機構,終于有解決辦法啦!

模型3:邏輯與統計的勝利

狼人殺本就是個邏輯推理游戲,需要參與者能夠準確抓住那些有助于我們判斷的信息,并理性、客觀地分析,最后找到狼人。只有這樣,我們才能鍛煉出“神預言家”的能力,并在不同對局中,都能準確找到“狼人”。

誰是狼人——淺談模型的建立與應用

模型的運作就像一個機械化工廠,不同于人工審核(手工作坊)的方式,它更精密、準確,面對海量、多維度、弱特征的信息(如網絡行為特征、地理信息等)時,仍可以高效率完成判別,大大提高工作效率,并且保證質量。

模型基礎之一4:數據

紙上得來終覺淺,絕知此事要躬行,光知道玩法是不行的。

要想成為狼人殺推理高手,最重要的就是多玩、多分析。一方面,要進行大量對局,加深我們對狼人殺游戲玩法的理解;另一方面,也要和不同的人對局,獲得足夠多的玩家信息,便于我們了解玩家。

誰是狼人——淺談模型的建立與應用

同樣的,模型再好也需要數據支撐,數據的好壞是決定模型效果的最重要一環。一般情況下,對于已有的海量數據,我們都需要進行處理,如填補變量缺失值、組合變量、衍生變量等。

1. 特征篩選

由于狼人殺局內信息繁多,我們只需要挑選比較有價值的信息進行分析,場外信息和無關信息需要過濾,否則會降低我們分析的嚴謹性和可信度,從而不被其他玩家信任,這對于自詡“高玩”的我們肯定是太不能接受了。

誰是狼人——淺談模型的建立與應用

游戲尚且如此,建模就更不能馬虎了。建模中,必須要對樣本特征進行嚴格的篩選,把對業務上有解釋意義的變量納入模型。

否則,面對你的建模結果,別人會一臉渴(meng)求(bi)地問:身高怎么就對一個人的逾期率產生了影響?實際操作中,我們會對諸如手機號、設備所在經緯度這樣的變量進行剔除,選擇個人興趣偏好、多頭得分等有解釋意義的變量進入模型。

2. 樣本與標簽選擇

苦練之下,終有所成,我們的狼人殺技術已經相當厲害了。正準備一展才華時,才發現他們要玩斗地主?;艁y之下,被地主打的落花流水,郁悶難當。

總結經驗,就是先明確要玩什么,再去做準備。

誰是狼人——淺談模型的建立與應用

建模也是一樣。我們的建模是基于信貸場景下的。并且,根據不同的業務需求,建模所需準備也不同。對于貸前、貸中和貸后三個場景,我們對于“狼人”的定義和認知也是不同的。

貸前階段,我們不知道借貸者是否是“狼人”,只是用模型去判斷他的身份,避免“引狼入室”,但總會有遺漏;貸中和貸后階段,我們發現了那些溜進來的“狼人”,這時,就需要對他們壞的程度進行確定,以采取進一步的手段和措施。

這里,發現“狼人”和判斷“狼人”有多壞需要用到不同維度的信息,這就要求在建模中要選擇同業務需求相一致的樣本數據。

模型基礎之二5:算法

終于,我們愉快的進行了幾場狼人殺游戲。并且發現,每個人的思考邏輯、分析角度都不太一樣。有的人只根據當前輪次的發言進行分析,有的人則傾向于將多輪次的發言綜合起來分析,也有人選擇劃水,使得分析的結果也各不相同。

誰是狼人——淺談模型的建立與應用

面對同樣的業務需求,我們也可采用不同的建模方法。當然,不同建模方法之間互有優劣,具體如何采用,需要結合實際,妥善選擇。信貸建模最為常用的當屬LR,但其在大數據應用方面稍顯遜色。實際中,我們更傾向于使用GBDT進行建模。

模型評估6:誰是“神預言家”

愉快的時光總是短暫的,游戲結束了。但這是否是幾場高質量的對局?誰會是那個“神預言家”?

一般而言,需要通過多次對局、甚至和不同玩家多次對局才能判斷玩家的推斷能力。該玩家在某局推測的準確性多高?是否在不同局中都能保持這樣的準確率?

誰是狼人——淺談模型的建立與應用

模型完成后,也需要驗證其準確性和穩定性,看它在其他樣本(測試集、跨時間窗口樣本)上的效果是否準確、穩定。

如果效果不好,則需要考慮重新調整樣本(變量再篩選、再組合等)、模型參數,直到模型表現好為止。很多時候,這并不是一蹴而就的事,需要多次反復進行。

模型之痛7:巧婦難為無米之炊

經過廢寢忘食的練習,我們終于成為了狼人殺高手。本以為會在游戲中練就火眼金睛,鏟除狼人,帶領隊友走向勝利,卻發現,己方全是“豬隊友”,身為平民的我,無法獲取足夠信息,導致判斷失誤,痛輸對局?;蛟S此時,我們已經不能再玩低端局了。

雖然我們可能對建模方法的使用了如指掌,但沒有足夠有效的數據,我們也很難訓練出一個好的模型。當前雖然是大數據時代,但對于很多小微企業、甚至很多大企業而言,如何獲得數據都是他們所無法解決的痛點,即便掌握優秀的建模技能,但缺乏數據驗證,也難以做出好的模型。

 

本文由 @融慧金科 原創發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自 Unsplash,基于CC0協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!