互聯(lián)網(wǎng)大數(shù)據(jù)發(fā)展下的信用體系建設現(xiàn)狀(另附線性回歸模型建模方法)
通過本文,一起來了解下大數(shù)據(jù)發(fā)展下的信用體系建設現(xiàn)狀。
一、背景及現(xiàn)狀
2015年1月5日,央行印發(fā)《關于做好個人征信業(yè)務準備工作的通知》,要求芝麻信用管理有限公司、騰訊征信有限公司、拉卡拉信用管理有限公司等8家機構做好個人征信業(yè)務的準備工作。
2017年4月21日,央行征信局局長萬存知在個人信息保護與征信管理國際研討會上透露,:綜合判斷,8家進行個人征信開業(yè)準備的機構目前沒有一家合格,在達不到監(jiān)管標準情況下不能把牌照發(fā)出去。
對于這8家機構存在的問題,每一家機構都想追求依托互聯(lián)網(wǎng)形成自己業(yè)務的閉環(huán),但每一家信息覆蓋范圍都有限,信息不廣、不全面,導致產(chǎn)品有效性不足,不利于信息共享。
2017年12月4日訊,中國互聯(lián)網(wǎng)金融協(xié)會第一屆常務理事會2017年第四次會議,審議并通過了協(xié)會參與發(fā)起設立個人征信機構(簡稱“信聯(lián)”)的事項?!靶怕?lián)”由互金協(xié)會與8家個人征信業(yè)務機構共同發(fā)起成立?!靶怕?lián)”將納入央行征信中心未能覆蓋到的個人客戶金融信用數(shù)據(jù),構建一個國家級的基礎數(shù)據(jù)庫,實現(xiàn)行業(yè)的信息共享,以有效降低風險成本。
二、國外信用評分FICO Score
FICO評分系統(tǒng)采集客戶的人口統(tǒng)計學信息、歷史貸款還款信息、歷史金融交易信息、人民銀行征信信息等解釋變量。違約率即為被解釋變量。通過邏輯回歸模型計算客戶的還款能力,預測客戶在未來一段時間的違約概率。經(jīng)由違約率對應的信用分數(shù),最終輸出最終分數(shù)并確定不同自變量對違約率的影響程度。
- 違約歷史(Payment history),權重 35%
- 債務負擔(Debt Burden),權重 30%。
- 信用歷史(Length of credit history),權重 15%
- 信用種類(Types of credit used),權重10%。
- 新申請信用(Recent searches for credit),權重10%。
三、國內(nèi)個人征信業(yè)發(fā)展情況
中國首批8家個人征信公司
芝麻信用管理有限公司:
螞蟻金服旗下,阿里體系;芝麻信用分”于2015年1月28日正式上線;
騰訊征信有限公司:
騰訊旗下;”騰訊信用分“于2017年8月8日上線,目前信用分產(chǎn)品公測中;
北京華道征信有限公司:
銀之杰、北京創(chuàng)恒鼎盛、清控三聯(lián)、新奧資本分別持有北京華道征信40%、30%、15%、15%的股權。清華控股集團持有清控三聯(lián)100%的股權;
中誠信征信有限公司:
隸屬于中國誠信信用管理集團(該集團成立于1992年,前身是經(jīng)中國人民銀行總行批準設立的中國誠信證券評估有限公司)
深圳前海征信中心股份有限公司:
平安旗下全資子公司
中智誠征信有限公司:
董事長是盛希泰,全國青聯(lián)常委并金融界別秘書長,中央國家機關青聯(lián)副主席。曾任華泰聯(lián)合證券有限責任公司董事長;
鵬元征信有限公司:
是中國最早成立的商業(yè)征信機構之一,其最早建設的“深圳市個人信用征信系統(tǒng)”從2002年8月開始運行,目前所能提供的個人和企業(yè)征信服務已經(jīng)覆蓋全國;
拉卡拉信用管理有限公司:
聯(lián)想系;
中國個人征信業(yè)發(fā)展的三個核心要素
芝麻信用—數(shù)據(jù)來源
- 基本信息:學歷,單位郵箱,職業(yè)信息,駕駛證
- 資產(chǎn)情況:車輛信息,房產(chǎn)信息,公積金、支付寶賬戶余額
- 信用消費:信用卡賬單、微貸還款記錄、水電煤繳費、罰單
- 消費數(shù)據(jù):賬戶活躍度、消費層次、繳費層次、消費偏好
- 信用足跡:花唄履約,螞蟻借唄履約,未來酒店履約
負面記錄:
- 其他授權管理
- 人行征信報告:杭州數(shù)立信息技術有限公司提供
- 城市信用報告:杭州市公共信用信息平臺:五險一金,信用記錄,
- 淘寶消費行為及銀行征信系統(tǒng);
……
芝麻信用—主要評級要素及模型原理
四、當前P2P小額貸款APP風控模式
- 有數(shù)據(jù)基礎及能力的:自行構建自家產(chǎn)品的征信系統(tǒng)用于風控;
- 無數(shù)據(jù)基礎及能力的:接入有能力的平臺,(芝麻信用等8家,或同盾等其他反欺詐大數(shù)據(jù)公司);
- 接入央行征信系統(tǒng);
- 接入商業(yè)銀行小額貸款規(guī)則+自家數(shù)據(jù)及黑白名單;
五、引申:風控(信用分數(shù))模型建立方法
數(shù)據(jù)收集:假設收集10萬條數(shù)據(jù),每個數(shù)據(jù)包括5*10(5個大類,每類10個指標)個屬性(樣本空間即屬性空間為50),標記信息為:要預測的變量。(違約率,還款能力)
數(shù)據(jù)清洗及處理:清除非規(guī)范值,缺失值,異常值等。
機器建模學習過程:將數(shù)據(jù)隨機抽取分成訓練集及測試集,其中用以學習模型的訓練集占85%(8萬5000條),用于驗證模型的占15%(1萬5000條)。
邏輯回歸建模:采用邏輯回歸進行建模,采用 BIC 的方法選擇模型,通過模型得到每個變量對是否違約的影響系數(shù)。同時歸納出違約用戶及非違約用戶的特征。
衡量模型的預測效果:采用指標 ROC(Receiver Operating Characteristic)曲線或者 AUC(Area Under Curve)值等數(shù)據(jù)模型效驗邏輯回歸模型結果。
得出信用分:通過線性變換可以將預測概率 P 轉化為 350 至 900 的用戶得分 Q,Q=X+Y×P。輸入一個新用戶的50個數(shù)據(jù)指標,從而得出對應的預測概率P,從而得出信用分Q
不斷訓練及優(yōu)化模型:用戶不斷的更新新的數(shù)據(jù)指標,每個指標下不斷積累新的數(shù)據(jù)量,同時不斷的新的用戶進來。通過新的數(shù)據(jù)訓練優(yōu)化邏輯回歸模型。
參考資料:https://cosx.org/2016/05/credit-scoring-model-in-internet-credit-reporting
FICO Score體系詳解:https://www.cnblogs.com/nxld/p/6364341.html
作者:阿發(fā) ,3年互聯(lián)網(wǎng)用戶運營/會員運營經(jīng)驗
本文由 @阿發(fā) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉載。
題圖來自unsplash,基于CC0協(xié)議
看到標題進來的,果然是標題黨。前面的現(xiàn)狀暫且不論,后面的建模的論述太簡單。1、說的是線性回歸,文章里面,連LR都沒描述;2、數(shù)據(jù)收集,收據(jù)來源,數(shù)據(jù)的定義是什么;3、數(shù)據(jù)清洗和處理,除了你簡單說的,還有數(shù)據(jù)尺度的調(diào)整,比如正太化數(shù)據(jù),標準化數(shù)據(jù)等;4、建模學習過程,不是LinearRegresion,怎么又成了LogisticRgegrsion了,并且分離訓練數(shù)據(jù)集和評估數(shù)據(jù)集的方式有很多,即便采用你的分離訓練數(shù)據(jù)的方法,訓練數(shù)據(jù)集和評估數(shù)據(jù)集的比例也存在問題,建議0.67:0.33的比例;5、衡量模型的預測效果,這個描述問題就更大了,ROC和AUC是評價分類器的指標,分類器的指標… 最近一直在學習相關的東西,不小心多說了一些..
標題太大,內(nèi)容太簡單