從事大數據征信行業,你必須知道這些

7 評論 25183 瀏覽 105 收藏 11 分鐘

如題,若你從事大數據征信行業,這些是必須知道的。

征信行業歷史起源

征信機構始于19世紀30年代的美國。雛形是一些商業調研機構,服務民間或銀行借貸業務,獲取信息途徑通過招募些調研人員去街巷走訪,然后逐漸形成規模及規范化。

作為起源之地,美國有3大征信機構都有百年歷史,例如全國性3大個人征信機構益博睿、艾荃法克斯、環聯。3大征信機構數據源95%相同、覆蓋90%美國人??梢钥闯雒绹恼餍艛祿采w率是非常廣的。其征信服務覆蓋行業也非常多。在美國個人征信收到嚴格的監管,監管法律也非常健全,目前企業征信基本不受監管。

中國征信行業歷史起源

在中國,最早的專職征信機構是中華征信所,于1932年6月6日創辦。國內征信行業快速發展基本是2003年后開始。在這一年中國人民銀行征信管理局也成立了。2017年6月個人信息安全法出臺,整個征信行業對數據的敏感性輸出做了很大調整,很多敏感信息接口都主動關停。

中國央行征信覆蓋情況

國內,央行征信數據其實只覆蓋了3.8億左右的自然人,覆蓋率非常低,還有幾億人只有簡單的身份數據。美國已達90%以上,因此在國內單靠央行數據已經不太符合創新型的互金行業信貸產品。從而催生了各式各樣的數據公司(包括備案的征信機構)嘗試將非央行征信的電商、社交等數據應用于信貸風控,例如京東白條。

中國個人征信行業查詢規模情況

無論國外還是國內,企業征信的發展都不如個人征信。從國內央行征信查詢數據來看,2015年已達6.3億,這還只是央行體系內的數據查詢量,可見征信行業市場可見還是非常巨大。以此類推,央行外的類征信數據市場規模應該也是非??陀^。

中國個人征信行業備案情況

在國內還沒有一家征信機構獲得正式牌照。之前沸沸揚揚的8大征信機構也只是屬于備案階段。國內2016年底備案有134家機構,最新公布的數據其實只有133家征信機構還在備案,經過全面的初步調研,僅有20%不到的征信機構是屬于有業務開展,其他的大多還在籌備和摸索階段。這些備案機構屬于正規軍,市場上還有很多數據科技公司也在做征信業務,但為了避開監管,多打著“信貸風控”等名號開展數據查詢的交易業務。而這些非正規軍卻非常有活力,各種創新的信貸模型產品層出不窮,具體哪些真的好用,還無法判斷。
后續將征信備案機構及非備案機構歸類為“大數據行業”機構

中國征信行業數據主要類型

征信行業使用的數據主要包括傳統央行的征信數據及互聯網征信數據。

互聯網征信包含的數據主要涉及傳統央行的征信數據、經營數據,身份數據、社交數據、消費/財務數據、乃至日?;顒訑祿?、特定場景下的行為數據等。嚴格來說互聯網征信數據大多數與個人信用是弱相關的,因此才有N中關系型算法來驗證各種數據相關性來判斷個人信用可靠性。

傳統征信體系的征信(央行)由于體制和技術等原因使用多限于金融行業,而互聯網金融平臺的大數據征信結果往往有在金融業外的更多應用。

中國互聯網征信行業數據類型

互聯網征信數據使用的比較多的主要有個人身份信息(個人基本信息、教育學歷信息、駕駛證信息)、個人消費相關數據(資產信息、興趣愛好、電商注冊行為),銀行持卡人數據(POS交易信息、個人借貸卡賬單信息、線上線下支付數據),互聯網用戶及行為信息(APP瀏覽數據、WEB瀏覽數據、地理位置信息),司法被執行信息(裁判文書信息、履約被執行信息、失信行為信息)、借貸黑名單高風險客戶名單(傳統金融、互聯網金融)、航旅信息(出行頻率、票務信息)、位置信息(實時位置、常用地址、出行軌跡)等。 但掌握這些信息的企業基本屬于行業內的巨頭,例如3大運營商、京東、淘寶等。

大數據的風控框架

基于國內的征信行業大調研,基于大數據的風控框架大致是這樣。一些枝節部分其實對應了貸前中后使用到的一些大數據及大數據的來源。其中對應不同環節使用的技術能力和數據源要求都不一樣。在P2P等高風險行業,使用多頭數據來做阻斷或獲客都可以。數據的使用不是一成不變,均要看行業、產品、風險定價等靈活使用。在支付環節,結合位置信息就成了反盜刷的功能。這里不一一舉例。

大數據風控行業類型

圍繞大數據框架的整體思路發展,大數據風控行業其實簡單來分有3種:個人/企業數據接口批發、個人/企業數據接口整合報告、個人/企業數據建模及分析系統。圖上均是行業內比較知名的一些機構。產品輸出方式:各類接口直接聯調調用、網頁版登錄查詢及管理、定制化風控報告、聯合建模。

個人征信模型通用簡版思路

最后說下非全自動的個人征信模型簡版思路:首先需要接入各種各樣的數據源,這些數據源需要與業務需求符合,其次將各類裸數據拆分,根據業務類型及其他規則進行特征提取,初步分類。然后,各類特征將根據不同算法逐一組合成對應模型,應用與不同業務場景。不同模型經過機器學習(監督學習及無監督學習)的方式,輸出相應分值,給與各模型相應的參考。最好還需要有經驗人士,根據得分進行最后的決策。

補充

1. 銀行機構等大型企業的信貸產品多以央行征信數據為主,非央行的大數據為輔。而消費金融及P2P等機構,因為面對的客戶群、產品及風險等原因,多以非央行大數據為主,基本不使用央行數據。

2. 國內征信行業合作伙伴默認征信系統有2套:央行征信系統和民間借貸征信系統。正常情況,銀行基本都接入了央行征信,因此銀行類客戶對自身信用記錄非常在意。但互金行業基本沒進央行征信系統,而是聯合成立了民間征信平臺。在民間借貸征信系統里,其實也會影響其借貸行為。特別是現在銀行的信貸產品及信用卡都開始使用多頭借貸這些數據輔助

3. 很多小貸公司卻只給多頭借貸名單上有還款能力的客戶借款

#專欄作家#

大數據獵人,微信公眾號:大數據獵人,人人都是產品經理專欄作家。多年金融科技行業相關戰略研究、行業分析、商業模式及產品體系研究經驗,擅長政府數據+企業數據+公開數據多源數據融合流通交易及應用

本文原創發布于人人都是產品經理。未經許可,禁止轉載。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 個人ID lison1989

    來自廣東 回復
  2. 請問 貸款產品畫像分類中的權責分類 指的是什么?

    來自上海 回復
    1. 應該想表述是否是抵押或純信用

      來自廣東 回復
  3. 滿滿的干貨,“N中關系型算法”有個錯別字,哈哈。

    來自上海 回復
    1. ??

      來自廣東 回復
  4. 干貨,受教了,最近在做政務信用平臺的業務,一直在思考做這個的意義,看了樓主的帖子之后有了很多的想法

    來自陜西 回復
    1. ??

      來自廣東 回復