銀行和大廠的一次數(shù)據(jù)交易
編輯導(dǎo)語:隨著信息化和互聯(lián)網(wǎng)的快速發(fā)展,數(shù)據(jù)交易已經(jīng)成為社會(huì)熱點(diǎn)。與信息技術(shù)緊密融合的金融行業(yè),伴隨著信息化程度的提高,與互聯(lián)網(wǎng)大廠的和合作越來越頻繁。那么當(dāng)大廠和銀行聯(lián)合建模之后會(huì)發(fā)生什么呢?一起來看看吧!
之前寫過一篇:銀行和大廠的一次聯(lián)合建模慢銀行在聯(lián)合建模之后,借由快大廠的數(shù)據(jù)和流量,短暫地解決了獲客問題。
但好景不長,該模型效果衰減地非常厲害,通過率也掉了一個(gè)水平,當(dāng)初建模未料到行業(yè)將如此下行,采用的樣本過于優(yōu)質(zhì)?,F(xiàn)在不得不面對(duì)更下沉的客群。
不管是那次聯(lián)合建模過程中,還是之后,慢銀行和快大廠涉事雙方都對(duì)那次合作不置好詞。他們唯一達(dá)成了的共識(shí)是,聯(lián)合建模太麻煩了。但合作是上層戰(zhàn)略,總是要維持和推進(jìn)的。
于是,快大廠提議,可以輸出我們內(nèi)部的數(shù)據(jù)標(biāo)簽作為標(biāo)準(zhǔn)產(chǎn)品給你們,這些數(shù)據(jù)不僅風(fēng)險(xiǎn)區(qū)分效果好還很穩(wěn)定。慢銀行雖然明知其套路,但迫于形勢(shì)惡劣,還是覺得可以一試。
畢竟,標(biāo)準(zhǔn)產(chǎn)品省去了聯(lián)合建模的麻煩,同時(shí)也避免了建模樣本過少導(dǎo)致過早失效的問題。于是,原班人馬把上個(gè)項(xiàng)目成立的微信群,“快與慢聯(lián)合建模群”,改成了,“快與慢數(shù)據(jù)產(chǎn)品合作群”。
只是聯(lián)合建模時(shí)快大廠的負(fù)責(zé)人,已經(jīng)離職了。據(jù)說是因?yàn)楫?dāng)時(shí)合作太費(fèi)勁,受不了了,也據(jù)說是在快大廠已經(jīng)待了兩年多了,該走了。(不知道我為什么特意想黑一下)曾經(jīng)發(fā)生的故事,或多或少,或變或沒變,地再次發(fā)生了。
一、立項(xiàng)會(huì)議
有了之前的經(jīng)驗(yàn),這次兩方都沒怎么寒暄,就直奔主題了。慢銀行因?yàn)閷?duì)上次合作不滿意,這次主動(dòng)提了很多要求。你們那什么什么交易數(shù)據(jù)要加工這些字段,提供給我們。
此處可以代入,天貓?zhí)詫毦〇|拼多多等電商交易數(shù)據(jù),也可以代入花唄借唄白條金條等支付借貸數(shù)據(jù),等等。你們那會(huì)員等級(jí)數(shù)據(jù)要提供給我們。
此處可以代入支付寶會(huì)員等級(jí)、芝麻信用分,京東京享值、小白守約分,微信支付分等。另外,你們的賬齡數(shù)據(jù)要給我們。還有,你們提供什么模型評(píng)分給我們?是你們的A卡、B卡還是什么模型的評(píng)分?你們?cè)趺唇ǖ哪P???nèi)部怎么用的?……快大廠,沒有話說。
項(xiàng)目是VP層級(jí)的,老板發(fā)了死命令,要服務(wù)好對(duì)方。慢銀行指定了一個(gè)同學(xué),當(dāng)然還是那個(gè)慢A,快大廠也指定了個(gè)同學(xué),也還是那個(gè)快B。此外,雙方增加了策略同學(xué)的參與,分別是慢C、快D。慢A和快B仇人見面分外眼紅,但工資讓他們學(xué)會(huì)了安分和合作。
二、數(shù)據(jù)準(zhǔn)備
關(guān)于標(biāo)準(zhǔn)產(chǎn)品,慢銀行體現(xiàn)了其專業(yè)性,提出的數(shù)據(jù)維度非常豐富,把快大廠的數(shù)據(jù)資產(chǎn)挖的是干干凈凈,多一個(gè)不能多,少一個(gè)不能少。
那是因?yàn)槁鼵同學(xué)參考了芝麻信用變量的維度,依葫蘆畫瓢,再排除了快大廠相對(duì)比較缺失的信息,提出了這么一個(gè)變量清單。芝麻信用的65個(gè)變量列表如下,其中標(biāo)紅的是8個(gè)核心變量。
覆蓋信用歷史、行為偏好、履約能力、身份特質(zhì)、人脈關(guān)系五個(gè)維度,正所謂“五大護(hù)法齊上陣,信用風(fēng)險(xiǎn)忙下場(chǎng)”。關(guān)于芝麻信用,我寫過揭秘:芝麻信用是怎么做的。
明顯可以看到,阿里系在人脈關(guān)系上是多么的弱勢(shì),該部分信息主要都在騰訊和運(yùn)營商手上。
不僅如此,慢C還提出了這些變量分段的要求,例如天數(shù)類的、金額類的、次數(shù)類的分段區(qū)間怎么設(shè)等等。只是最終分段還是要結(jié)合快大廠大盤數(shù)據(jù)分布情況再做定奪。
快大廠的策略同學(xué)快D秉著“最大化達(dá)成合作目的,最小化合作效果”的宗旨,剔除了其中一些過于敏感的數(shù)據(jù),并進(jìn)一步限制了變量分段數(shù)量。需求最終提給了模型同學(xué)快B去加工,這處加工費(fèi)了快B半條老命。
不僅四處問人這些字段的取數(shù)邏輯,好不容易加工好還總有變量分布不符合預(yù)期。過程中,快D找出了無數(shù)個(gè)問題點(diǎn),以至于快B天天吐槽快D事兒多。百年之后,快B終于改好了這些變量加工的代碼,對(duì)著大盤跑批了近兩年的數(shù)據(jù),并校驗(yàn)了分布穩(wěn)定合理。
同步慢銀行時(shí),還被慢C同學(xué)質(zhì)疑了-1和0取值上的不合理。
三、策略制定
慢銀行要了快大廠的大盤數(shù)據(jù)分布情況后,從行內(nèi)提取了10w樣本,讓快大廠的模型同學(xué)快B回溯。隨后,慢銀行的模型同學(xué)慢A,對(duì)這些字段進(jìn)行了IV和KS的計(jì)算,效果差強(qiáng)人意。沒有人驚喜,也沒有人發(fā)怒。
于是,慢A做了非常詳細(xì)的數(shù)據(jù)分析,回匹了行內(nèi)的客群標(biāo)簽,計(jì)算了變量每組下的風(fēng)險(xiǎn)水平。然后,交給了慢C制定策略。慢C操起了所謂的經(jīng)驗(yàn)之錘,寫了一堆case when,得到了最終的風(fēng)險(xiǎn)評(píng)級(jí),繼而測(cè)算了各類人群結(jié)構(gòu)上的占比、通過率、風(fēng)險(xiǎn)、額度水平等等。
寫了一些結(jié)論,做了一個(gè)文檔,獲得了行內(nèi)認(rèn)可??霥苦求了半天,以方便更好的監(jiān)控服務(wù)效果為由,要到了這個(gè)毫無營養(yǎng)的文檔。如獲至寶地同步了快B和廠里的老板。
四、數(shù)據(jù)部署
標(biāo)準(zhǔn)產(chǎn)品的部署顯然跟慢銀行都沒關(guān)系,但即便如此,誰說又能小瞧呢?快B和快D首先討論了,客群要包括哪些。大盤用戶數(shù)量巨大,全都算人數(shù)太多了,很多人也沒有有效數(shù)據(jù)。
于是按活躍度選定了一個(gè)客群。然后討論了接口服務(wù)的困難。要輸出的字段有大幾十個(gè),這些字段都是要推送線上的,跟模型分的一兩個(gè)字段部署完全不一樣。導(dǎo)致這個(gè)部署作業(yè)既吃資源,又耗時(shí)長。
于是一致決定月更。但日后隨著大盤活躍用戶增加,該作業(yè)的執(zhí)行和推數(shù)效率仍可能存在風(fēng)險(xiǎn)點(diǎn)。最后再制定了數(shù)據(jù)監(jiān)控的方案。
快B同學(xué)每月跑數(shù)完成后要校驗(yàn)所有字段的分布,并郵件正式通知相關(guān)方。再第一時(shí)間推送線上接口,同時(shí)確保推送服務(wù)的有效性。對(duì)待這些需求,快B只是覺得他們吵鬧。
四、我說
這次合作,慢A和快B兩位模型同學(xué)都淪為了工具,非常弱勢(shì),“人為刀俎,我為魚肉”。沒辦法,他們是“牛逼哄哄”的算法工程師,數(shù)據(jù)產(chǎn)品又不是模型,跟他們有什么關(guān)系。
算法工程師往往不等于風(fēng)控同學(xué)。在數(shù)據(jù)產(chǎn)品合作這個(gè)項(xiàng)目過程中,他們被策略同學(xué)教做人了。我相信這對(duì)他們來說是一件好事。算法工程師不應(yīng)該只會(huì)算法。
如果你只會(huì)對(duì)確定的樣本、確定的特征、確定的標(biāo)簽,建一個(gè)所謂的大數(shù)據(jù)模型,不管這個(gè)模型是LR,還是XGB,還是神經(jīng)網(wǎng)絡(luò),還是圖算法,其實(shí)都是不夠的。但,這在國內(nèi)往往是吃得香的。
有一類很難的面試考點(diǎn)叫system design,國外大廠很喜歡考,國內(nèi)也有很多考的了。風(fēng)控模型本應(yīng)該也是一樣,如何對(duì)遇到的問題設(shè)計(jì)合理的解決方案,比模型本身重要的多得多。
但,還是有很多算法層面的面試仍然是XGB參數(shù)、AUC、KS等??疾斓挠肋h(yuǎn)都是候選人有沒有在認(rèn)真準(zhǔn)備面試?!按嬖诩春侠怼?,我理解不了這句話的解析意,我就是想用其表面意。
#專欄作家#
雷帥,微信公眾號(hào):雷帥快與慢,人人都是產(chǎn)品經(jīng)理專欄作家。風(fēng)控算法工程師,懂點(diǎn)風(fēng)控、懂點(diǎn)業(yè)務(wù)、懂點(diǎn)人生。始終相信經(jīng)驗(yàn)讓工作更簡單,繼而發(fā)現(xiàn)風(fēng)控讓人生更自由。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于CC0協(xié)議
原來是我太膚淺了,以為兩者 關(guān)系只有錢,沒想到還有那么多的聯(lián)系,學(xué)到了
總感覺銀行和大廠之間唯一的關(guān)聯(lián)就是貸款,看完之后才明白想的太簡單了
我能不能說,看見的第一眼我想到的竟然只有錢,看完之后才恍然大悟。原來是這個(gè)樣子。