百家風控公司揭秘系列4|京東系聚信立公司及產品調研報告
調研了上百家從事風控數據業務的公司,有行業大牛也有各種低調開展業務的,在不會泄露各公司太敏感信息的前提,本著客觀的角度及學習的態度,逐一揭秘各家公司的征信風控產品及數據源特色。本期的目標將是京東金融系的【聚信立】
1.聚信立公司背景
在【百家風控公司揭秘系列3|京東系ZRobot公司及產品調研報告】里已提到,上海誠數信息科技有限公司(下稱“聚信立”)屬于京東布局金融大數據領域的重要一步,于2014年12月(在上篇文章中的日期寫成了2015年,這里更正下)獲得A輪京東投資的2800萬人民幣。截止目前為止,京東(占股19.6%)成為聚信立除羅浩(占股29.3%)這個創始人外的第二大股東。(羅皓在上海令儀里也是大股東,這里不做計算)
京東大數據布局下的ZRobot的詳細分析可以查閱【百家風控公司揭秘系列3|京東系ZRobot公司及產品調研報告】,京東萬象后續會單獨有篇幅分析。
現在進入正文:
聚信立是什么公司?其創始人羅浩又是何許人?整個公司有什么值得京東投資?
抱著這些疑問,獵人逐步分析。
首先,看看聚信立的創始人羅皓的背景。獵人在搜索引擎找到羅皓的一份個人簡歷。從簡歷上可以看到,羅皓碩士畢業后的
第一份工作(2004年10月開始)在通用電氣資本公司待了將近3年,職位是風險建模分析師,職業期間有負責過通用電氣資本第二代風險評分卡,涉及申請,用戶行為和催收幾個板塊、信用額度優化的算法等工作。然后第二份工作在渣打銀行待了1年多點,職位是“現貸派”個人貸款風險控制經理,工作包括現貸派產品第一代風險條款政策及開發了第一套基于數據的風險評分卡和欺詐評分卡等。
然后在美國發現金融有限公司(前摩根史丹利子公司)任職決策科學團隊主管并待了4年,主要負責帶領團隊負責消費者信貸運營、信貸市場&催收及商業智能&管理信息系統開發等工作。
羅皓的三份完美的工作經驗,為其在信貸領域的算法、策略及用戶數據運用等打下了堅實的基礎和深厚人脈(在這幾家大牛待了這么多年,人脈多少還是可以的)。
因此,從美國發現金融有限公司出來后,羅皓與2011年4月自己創辦企業了-上海英莫信息科技有限公司(這公司網址已無用),正式上線使用應該在年底,這家公司屬于IBM全球企業家計劃項目公司 ,公司業務主要是做社交數據挖掘,為消費者品牌,營銷&公關公司提供基于社會化數據的商業智能服務。整個團隊都來自于包括GE Money、渣打銀行、Morgan Stanley等的信用卡數據挖掘工程師,結合銀行的數據挖掘技術和社交媒體的屬性,他們能夠很好的幫助品牌商定位到自己的粉絲群和潛在消費者。簡單來說,羅皓將必生所學,開始進行實際應用,只不過是在社交數據這塊發力,業務偏向于營銷板塊。
英莫公司在2012年1月左右獲得紐信創投天使輪投資。但英莫公司實際運營周期持續了1 年 7 個月,期間的主打產品微決策是Infomorrow旗下產品,它是一款精準的免費的微博營銷、微博推廣決策工具,幫助品牌在微博營銷和微博推廣中決策更簡單,投放更精準。
羅皓的第一創業的成績不太理想,或許是由于做營銷板塊,需借住龐大的用戶數據,并且不同的社交數據清洗挖掘后,能應用在細分行業業務場景的效果也不好控制,且由于社交數據存在于少數的社交平臺上,屬于其數據壁壘,很難完全開放給羅皓這樣的社交數據挖掘公司。沒有源源不斷的足量用戶數據,無法獲得客觀的數據變現期待,或許是英莫這家公司無法生存的主要原因。
羅皓的英莫在2013年6月停止運營后,與7月份又注冊了上海誠數信息科技有限公司(以下簡稱“聚信立”),整個公司的戰略定位為金融公司提供風控數據,這些數據來源主要是通過用戶授權獲得非傳統風控數據,如通話信息、消費數據等互聯網信息,對客戶風險特征進行描述,并提供給金融機構,供其做相應的后續決策。
截止目前為止,聚信立服務的金融機構超過1300家,包括傳統的銀行、消費金融公司、網貸信息平臺等,目前日查詢量已超過百萬。
聚信立的產品體系依然很簡單,主打的兩款產品蜜蜂和蜜罐,都很賺錢。后面詳細解析。
這里先說說羅皓成立的新公司的融資歷程,可以看到聚信立剛成立就獲得老相識紐信創投的天使輪,看來聚信立創立之前也籌備已久。然后相對有影響力的一筆就是京東金融的投資,金額不是重點,主要是京東數據的存在給予了聚信立強大數據挖掘發揮作用的進一步機會。
【獵人說】羅皓的兩家公司,是一種戰略的重新定位與調整。英莫的核心競爭力在于算法模型及數據挖掘技術,但缺少了數據來源及數據量,雖然可以通過與第三方數據合作,但長久下來不是最好的選擇,數據自主性太弱,主動權掌握在數據公司而不是英莫。
聚信立恰好相反,通過搭建爬蟲接口,針對金融信貸等利潤空間較大的領域,完善爬蟲技術,然后將技術接口給做金融信貸等業務的機構使用,為機構爬取用戶授權的社交網站,電子商務網站,移動運營商,公積金,網上銀行,水電煤,航空公司網站等數據,對這些數據進行分析后,可以提供個人身份基本信息、收入支出信息、興趣愛好、個人影響力、社會關系等方面的相關分析報告。在服務過程中,沉淀數據,在擴展商戶時,及將業務賣出去,也將數據入口鋪開了,一舉兩得。
2.分析其主打產品及數據底層組成
聚信立旗下主打2款產品現金牛產品-蜜蜂和蜜罐,一款新產品(公測中)信問,一款附加值產品-信貸行業報告(本文不分析),及多款爬蟲接口。
首先解析下數據源產品-爬蟲接口。
爬蟲接口作為一個可嵌入式的場景化數據實時來源,在很多時候都是非常必要有的。這里需要科普下,信貸風控決策及規則,主要是判斷用戶還款能力及意愿,還款能力一般通過負債情況、有無穩定工作收入來源等判斷,對應的數據信息可以從央行征信報告、用戶信用卡信息、社保公積金等方面參考;還款意愿主要通過還款信息及逾期信息、通訊行為交叉判斷近期狀態等方面評估,對應的是央行還款信息及逾期信息詳情,信用卡還款信息及逾期信息詳情、運營商的通訊記錄交叉核驗等。根據數據需求,聚信立主要開放了可以爬取這些數據的爬蟲接口。
【獵人說】據了解聚信立現在有的爬蟲接口,可授權爬取總計1200家網站覆蓋所有電商、社保網站,90%以上的公積金、主流保險網站。爬蟲接口原理很簡單,就是數據公司提供一個具備識別授權網站結構,將對應數據提取的一個API接口,只要用戶提供授權信息即可。難度在于不同的網站后臺的數據展示結構不一樣,所以需要一一匹配;另外則是反爬蟲機制,各類平臺都不希望用戶信息可以被第三方獲取,因此會不斷優化反爬機制,類似增加圖片識別,拼圖等。做這類數據其實算是反爬與爬蟲技術間的博弈。
聚信立爬蟲接口主要覆蓋以下數據類型(由于數據敏感,部分圖片已迷糊化處理):
央行征信爬蟲接口
授權爬取個人互聯網央行征信簡報。數據字段包括:身份信息、信用卡逾期及透支信息、逾期賬戶明細、信貸信息、信貸逾期信息、個人查詢記錄、機構查詢記錄等
【獵人說】此類數據,一般多是銀行機構或者需要上報央行征信的金融機構使用。通過此類報告,可以詳細看到用戶已有的貸款金額及時間周期、還款意愿等詳細信息。信用卡方面信息加上信貸類信息基本可以判斷此類用戶的主要負債情況。除去一些沒上征信的分期及現金貸,綜合還款能力及資產狀態可以做出初步的額度預審了。但隨著民間征信數據的交互越趨頻繁及豐富,后續的用戶信貸記錄需要央行及民間征信相結合才更準確。部分高利貸這些抽屜協議式情況還沒有很好的得知途徑。
三大運營商結構化數據(聚信立報告)
爬取數據包括個人信息、半年賬單、通話記錄、短信記錄、上網記錄等。
【獵人說】很多人其實都沒怎么查詢過自己的運營商號碼的通話記錄詳單,但這些對于數據公司來說,是一個可多維度交叉挖掘的數據寶庫。詳細后臺,看官們可以自行登錄運營商后臺自行查詢。聚信立提供的爬蟲接口,可爬取用戶授權登錄后的所有信息,然后通過一定的維度細分規則和數據轉換規則形成自己的運營商風控報告-蜜蜂。
學歷學籍爬蟲接口
授權可獲取學歷數據、學籍數據及學生身份驗證數據。
【獵人說】學歷學籍信息主要通過用戶授權的學信網中獲取。剛需數據是學籍院校名稱、專業名稱、學制、入學日期、學歷狀態、層次及學歷的畢業時間、畢業院校、學習形式、學歷類別、學歷層次及專業名稱等。類似之前的被禁的學生現金貸,可通過學歷學籍來判斷其身份,阻斷其申請信貸產品。學歷學籍在某些機構的風控策略中,可作為還款能力及意愿的聚類判斷標準規則。
信用卡賬單爬蟲接口
支持國內主要銀行信用卡的額度和賬單分析,同時支持各大主流郵箱信用卡賬單分析。一般可以得知信用卡信用卡額度、取現額度、本期還款額、賬務明細、交易明細等內容。
【獵人說】信用卡爬蟲授權有兩種,一種是單信用卡賬戶查詢授權,一種是信用卡賬單綁定郵箱授權查詢。單信用卡賬戶授權查詢可以獲得的是單一信用卡賬單信息。一般授權信用卡賬單綁定郵箱授權查詢比較簡便,只不過需要有辨識假郵件信息的能力。多張信用卡額度總計一般用來評估用戶負債情況,取現額度評估用戶是否急需錢、賬務明細評估還款意愿、交易明細評估用戶消費偏好和習慣是否良好。
社保爬蟲接口
獲取個人信息、最后一次繳納時間、單位繳費金額、個人繳費金額、繳費技術、社保種類及繳費時間等。
【獵人說】上文說到社??梢杂迷谂袛嘤脩舻氖欠裼谐掷m的還款能力。繳費基數可以反推用戶的扣稅工資金額,雖然很多時候企業為了幫助員工進行避稅,基本工資會按繳稅最低標準上報,到時無法判斷正式的工資信息,這個多數情況無太大影響。需要留意的是部分騙貸用戶,在養社保,制造有穩定工作的假象。
保險爬蟲接口
主要獲取保險機構、保險產品類型、投保金額、保費、繳費情況,持續繳費次數及時間等。
【獵人說】一些高額保費的保險,側面體現用戶的繳費能力,持續繳費次數及時間體現用戶的財務狀況是否穩定,一些保險類貸款產品非常樂意給繳費滿三年的保單客戶提供保費30-60倍的貸款額度,利息還很低,此類用戶的風險在他們看了是非常低的。
蜜蜂報告
蜜蜂報告主要適用于消費金融公司、國內大型P2P、銀行及小貸公司等。該報告主要將用戶授權的基于互聯網上的大部分行為信息,經過清洗、整合、分析和翻譯,實現互聯網信息的交叉驗證,以此來判斷用戶的風險點。
采集規則:將申請人的身份信息與運營商、電商數據等進行交叉驗證,判斷用戶的風險點。
主要爬取平臺類型:
- 運營商:移動、聯通、電信,大陸全部支持
- 數據采集內容:借款人查詢當日往前推半年(約6個月)的通話記錄
- 主流電商:淘寶、京東
- 數據采集內容:借款人購物訂單的100頁左右,每頁約10-20條左右購物記錄。
- 對接方式:API接口+網頁版 ,可同時使用,也可任選其一。
整個采集流程分3步,第一步是用戶個人信息填寫,第二步是運營商授權爬取,第三步是電商平臺授權爬取。這3步填完后,就是一個大約5-10分鐘的等待,這里涉及到爬取數據時間及數據爬取回來后的轉化時間,然后獲得相應的處理后的結果報告。
用戶需要輸入的信息包括:姓名、身份證號碼、所在地區、居住地址、手機號、緊急聯系人及關系和聯系方式。
運營商授權爬取
只需要輸入服務密碼即可。主要獲取相關號碼的基本信息、賬單信息、通話記錄、上網記錄、短信詳單等。頁面還很人性化的提供重置密碼功能,方便多數不記得服務密碼的用戶修改密碼使用。
電商平臺授權爬取
爬取電商平臺賬戶內的基本信息、送貨地址、訂單信息等。
【獵人說】蜜蜂報告授權獲取和爬取的數據,單獨來看沒什么特別的。但如果用作交叉驗證的方式對應分析,可以看出是有很大關聯的。首先,個人基本信息中居住地址會與電商平臺中獲取的收貨地址交叉匹配,若填寫的居住地主不在收貨地址列表中或定點距離范圍,可以判斷用戶填寫信息有虛假可能;緊急聯系人在一定的渠道能力,是可以直接通過手機號識別,這個聯系人是否有不良行為記錄,這樣可以判斷該用戶所在群體的欺詐概率,間接也會對其有影響;運營商獲得的詳單等數據,通過處理可以知道包括通話清單中的各個電話標簽,如果都是些借貸公司或收債公司的電話,那這個用戶就很可疑,若用戶的通訊常在地點,可以與填寫的居住地址再做一次判斷,若經常在上海通話,但居住地卻在廣東省內,這就很可疑;通話記錄的各個手機號可以通過手機號多層次匹配識別,是否黑產關聯或不良團體中人;通話詳單記錄中可以與之前填寫的緊急聯系人手機號交叉匹配,若通話詳單都無通話記錄,填寫的緊急聯系人的真實性有待考究;電商平臺中獲得數據,最優價值,一是收貨地址,這里可以知道公司地址,常住地址,親戚朋友地址等;二是消費記錄,從消費記錄清單可以知道你的消費偏好,家里有哪些人,消費能力水平等;三是收貨人聯系方式,在用戶失聯時,可以在這里獲得另外的聯系方式,觸達用戶催收。蜜蜂報告的模板我就不貼在這里了。
蜜罐報告
區別與蜜蜂報告的多維度,蜜罐報告相對更細化點,主要就是告訴你這個用戶是否有欺詐行為,是否命中黑名單,其聯系人是否是黑名單或與別的黑名單有關聯。
黑產關聯是根據“近朱者赤墨者黑”的原則,原理是通過識別直接聯系人名單中是否有黑名單、黑中介、騙貸團伙等,根據各家的規則有不同的匹配。直接聯系人指在你的通訊錄中匹配的,一階則為你的直接聯系人命中的黑名單等人的通訊錄中命中的黑名單,二階為一階聯系人中命中的黑名單人的通訊錄中的黑名單。
【獵人說】由于蜜罐屬于非授權類的反欺詐產品,其報告生成依賴于自身的數據量及維度,外接第三方數據等。生成此類報告,需要有以下數據識別渠道支持:個人信息要素基本驗證、根據身份證號碼或手機號可以匹配到的黑名單庫、根據手機號可以得知關聯聯系人的是否黑名單或黑產集團,多頭借貸詳情查詢及撞庫功能反推的是否在互聯網金融APP有注冊行為等。
信問
信問現在出了2.0版本,1.0版本沒怎么細問這里不詳細說明。信問是基于知識庫的問題引擎,根據用戶答題行為、答題結果,結合社會心理學、個體心理學及行為心理學的理論基礎,利用機器學習自動化建模分析,提供答題者的可信度評估,屬于邏輯驗真風險控制維度。
目前主要場景有3個:用戶填寫的地址的真實性,主要通過根據文本內容精準匹配地址、校驗地址真實性,并驗證是否用戶本人的地址;用戶公司真實性,主要通過多累數據整合處理,準確匹配到企業,并根據知識庫判斷用戶是否屬于該企業;職業真實性,基于全方位的職業信息知識庫,對用戶選擇的職業進行辯真校驗。
地址驗真類大概流程是:用戶選擇常住地址,然后聚信立信問后臺通過將用戶輸入的地址在經緯度上進行定位,然后將定位的地點一定范圍具有標識性的馬路、大廈、風景、商店等通過文字或圖片形式作為選擇題供用戶判斷,以此來判別用戶是否真的經常在此地出沒。
【獵人說】信問這類產品,通過真人主觀填寫的信息,通過技術手段定位或其他方式識別客觀真實性。從產品形態來說,公測版有點簡單,用戶填寫時,用搜索引擎是很大概率可以找到答案的。就是不知道在這個判斷評分中填寫時間這個規則占評估比重有多少。真實填寫的時間正常比用搜索引擎查到后填寫的時間短,但如果提前知道內置的邏輯,還是有方法突破的。
3. 總結
公司定位:聚信立是打著互聯網社交數據建模及分析服務商的旗號,干著傳統信貸的風控的事,只不過通過爬蟲手段將社保、公積金、保險等用戶資質證明的獲取便捷性提高了,可用性也提高。爬蟲手段同時解決了用戶授權和一手數據的來源,規避了未經用戶許可獲取相關信息的規定。通過獲取到的數據源,經過聚信立對與行業數據的理解解析整合出來的數據報告是其競爭特色。
市場戰略:聚信立為了能夠拿到以上個人的公開或者相對隱私的信息,通過B2B2C的方式,也就是與各信貸機構及渠道合作,進而向他們的客戶提供服務。比如你到一家小貸公司去申請貸款,這家公司就會告訴你,可以選擇到聚信立這個平臺上去開個快速互聯網資信證明(蜜蜂)。通過這種方式,既拿到了合作機構的用戶數據,也降低了推廣的難度。
產品戰略:覆蓋數據來源(爬蟲)-數據建模分析(風控建模)-數據報告(蜜蜂、蜜罐)-數據創新應用(信問)-數據整合行業報告(信貸行業報告)全流程,既保證一手數據源的實時獲取,也提取了信貸風控最需要的幾個維度滿足風控需求。
數據戰略:提供爬蟲工具,降低信貸機構獲取用戶授權查詢的各種資質信息難度的同時,同步獲取了相應的數據給予數據加工增值提供了可能。相較于阿里入股高德、收購微博股份這樣的財大氣粗的收集數據的做法,聚信立的這種通過B端渠道去驅動用戶主動授權并提供數據的方式,幾乎零成本,很適合小的創業公司。而一些不用強授權的數據,可通過第三方渠道獲取。
相關閱讀
百家風控公司揭秘系列2|華道征信&億美軟通公司及產品調研報告
百家風控公司揭秘系列3|京東系ZRobot公司及產品調研報告
最全互聯網金融6大板塊風控研究框架:監管政策、行業模式及合規要點
#專欄作家#
大數據獵人,微信公眾號:大數據獵人,人人都是產品經理專欄作家。多年金融科技行業相關戰略研究、行業分析、商業模式及產品體系研究經驗,擅長政府數據+企業數據+公開數據多源數據融合流通交易及應用
本文原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議
你好,咨詢一下,關于保險數據爬取大概是是什么方法?
個人ID lison1989