8億鐵路大數據在風控、助貸及用戶分層等近20個場景的應用解析
根據相關專業機構及專業人員的實際應用效果反饋,鐵路數據在風控策略及助貸業務的客群資質識別都有非常明顯的效果。本文詳細解析覆蓋8億人的鐵路數據,希望可以給到各部門伙伴一定的參考。
目錄:
前言
一、覆蓋8億群體的12306歷史發展
二、鐵路客運用戶畫像系統
2.1系統總體架構設計
2.2對接系統及數據
2.3數據處理的類型
2.4鐵路系統主要數據源分布
三、基于用戶行為的用戶畫像
鐵路旅客畫像
四、鐵路用戶畫像實現步驟
4.1數據源分析
4.2客票特征數據
4.3客票原始數據
4.4目標分析
4.5標簽計算
4.6鐵路用戶特征
4.7鐵路用戶出行特性
五、客列車分類【主要關注GCD列車】
高速動車組列車(G字頭)
城際動車組列車(C字頭)
普通動車組列車(D字頭)
直達特快旅客列車(Z字頭)
特快旅客列車(T字頭)
快速旅客列車(K字頭)
普通旅客快車(普快)
普通旅客列車
臨時旅客列車(L字頭)
旅游列車(Y字頭)
六、指標分析邏輯舉例
6.1單個指標分析
6.2多指標分析
6.3通過旅客周轉量及客流量做分析
6.4通過客運量做分析
6.5常住地界定
七、用戶畫像系統鐵路公司對外應用場景
7.1核驗服務
7.2精準營銷
7.3業務預測
7.4風險識別
八、用戶畫像系統的應用
8.1征信服務
8.2用戶核驗系統
九、鐵路數據應用場景及價值
9.1社會價值
9.2經濟價值
十、結語
前言
在個人金融風控場景,常見的數據除了基礎核驗外(身份證2要素、銀行卡3/4要素、運營商3要素)外,運營商爬蟲(現禁用)、央行征信(持牌機構使用較多、助貸機構及金科使用較少)、民間借貸記錄、設備行為統計形成的用戶畫像等,社保、公積金、電商數據由于數據的開放性問題,其實使用的不多。
然后由于最近半年的數據行業的緩存及敏感數據的外泄或與高利貸合作的不良行為,導致主營運營商爬蟲及民間借貸記錄2類數據產品的機構被查,相關產品無法對外,引起了大部分包括銀行在內的相關風控策略的大調整及產品調整。
很多行業的伙伴都在愁,有無什么數據來源合規安全且可以在一定程度上替換運營商爬蟲及民間借貸記錄數據效果的,航旅及鐵路或者是相對有效的。
根據相關專業機構及專業人員的實際應用效果反饋,鐵路數據在風控策略及助貸業務的客群資質識別都有非常明顯的效果。
之前已經分析過航旅數據,這次詳細解析覆蓋8億人的鐵路數據,希望可以給到各部門伙伴一定的參考。
鐵路數據部分字段維度是這樣的:
一、覆蓋8億群體的12306歷史發展
12306網站于2010年1月30日(2010年春運首日)開通并進行了試運行。用戶在該網站可查詢列車時刻、票價、余票、代售點、正晚點等信息。
2011年06月12日,京津城際鐵路率先試水網絡售票。
2011年9月30日,所有動車組線路實施網上訂票。
2011年11月20日,Z字頭全部直達特快列車車票實施網上訂票。
2011年12月23日,鐵道部最終兌現在年底前網絡售票覆蓋所有車次的承諾。
2013年11月20日,12306新增支付寶支付通道。
2013年12月6日,改版后的12306網站上線。
2013年12月8日,12306手機客戶端正式開放下載。
自2015年11月26日鐵路春運售票工作啟動以來,截止12月15日,鐵路部門共發售火車票1.7億張,其中,通過12306網站發售車票突破1億張,已占到售票總量60%。自2011年推出網絡購票以來,12306網站累計發售火車票35億張。
自2017年7月17日起,乘坐G、D字頭列車的乘客可以通過12306網站或客戶端提前預訂動車上的飯菜以及站外的食物。同時,如果是通過電話、車站窗口、代售點、自動售票機等其他方式購票,也可登錄12306網站或移動客戶端,從首頁選擇“訂餐服務”,輸入車次和聯系人信息后,同樣能進行點餐,可以通過微信和支付寶實現快捷支付。
另外,已經訂好的旅客,如果要進行網上退票、改簽、變更到站,系統會自動提醒旅客進行退餐,在實體窗口進行了以上操作的旅客,也可在網上自行辦理退餐。【意味著,鐵路體系的用戶餐飲消費記錄最早可以溯源到2017年7月?!?/strong>
2019年5月,來自中國國家鐵路集團有限公司的統計顯示,系統年售票量已超過31億張,日售票能力達到1500萬張,高峰時每秒售票量達700張,網頁瀏覽量超過1500億次/天?;ヂ摼W售票占鐵路售票總量的82.8%,12306已經成為世界上規模最大的實時票務交易系統。【10000次瀏覽量才有1張票成交,萬分一的成交率。這其中應該大多都是搶票軟件帶來的流量?!?/strong>
中國鐵路客票系統作為全球交易量最大的鐵路票務系統,已服務8億人群,并有3億12306網站注冊用戶,2億12306客戶端總裝機量。
目前,12306互聯網售票占比最高超過80%。
鐵路客運快速發展積累了大量數據,這些數據產生于系統運行、業務運營、旅客出行等各個環節,對它們的整合和分析可為管理部門提供決策支持,為運營部門業務開展提供支撐,為旅客用戶提供更個性化、更好的社會化服務。因此,充分發掘和利用這些數據資產,可為鐵路產生巨大的價值。
中國鐵路客票團隊從2012年開始進行大數據的應用技術研究,針對數據采集、存儲、處理、共享、可視化及數據安全等形成技術積累和人才儲備,對客運業務及運營需求進行數據歸類、模型建立和經驗總結,將技術與應用結合實踐,搭建小規模的大數據平臺,并在部分業務系統中開展試點應用。
【鐵道部是在2011年年底前實現網絡售票覆蓋所有車次,代表鐵路+互聯網已初步實現,互聯網化過程會產生大量線上數據,這就需要鐵路部門開始建設相應的數據治理平臺及數據在內部應用的嘗試】
二、鐵路客運用戶畫像系統
大眾出行的工具無非就是自行車、摩托車、汽車、客車、鐵路、航空、海運等。鐵路作為人們出行的重要交通工具之一,一開始也只是想著或者只提供單一的快速出行服務。但互聯網的高速發展、給予了鐵路更便捷的購票方式體驗,而高速鐵路班次的開通為注重出行質量的群體多了一個選擇,這樣的基礎環境下,鐵路用戶的數量增長很快。
但其實還是會持續面臨競爭對手汽運、空運的競爭,并且互聯網時代用戶都習慣了一條龍的服務。即便是傳統的鐵路服務也不能不隨之升級轉變,逐漸往生態合作的方向嵌入出行鏈前后的產品服務,提升用戶體驗,提升競爭能力,也為鐵路集團延展了更多的收入入口。
例如站車WIFI運營服務、互聯網訂餐、約車、酒店、旅游等延伸服務系統,延伸服務的開發為鐵路客運一站式服務提供了基礎。維護客戶關系的核心的保障核心服務質量的同時,給與客戶出行鏈條全方位的增值服務。
與之匹配的,將原本的客運決策系統,僅能基于客座率、運行圖、旅客出行規律等提供決策服務的,重新升級打造成為增加針對旅客購票行為、出行行為、訂餐行為、站車WIFI上網等數據進行深入挖掘的的用戶特征的分析系統,滿足不同旅客的個性化產品服務需求。
鐵路客運用戶畫像系統對內不僅能夠為鐵路12306互聯網售票系統、站車WI-FI運營服務系統、互聯網訂餐服務系統等鐵路各個系統提供旅客群體分析、用戶異常行為發現、客運產品智能精準營銷、廣告投放等服務,對外可以為第三方企業提供數據核驗、精準營銷方案等服務。
【旅客群體分析及用戶異常行為發現等,其實都需要相關場景板塊用戶參與頻次夠多才可以實現,單純依靠鐵路體系的沉淀數據,進展會相對較慢。另外對外服務的產品能力其實是參考運營商體系搭建的,鐵路數據核驗=運營商3要素核驗,鐵路客戶精準營銷=運營商精準營銷。從單的客群覆蓋率來說,鐵路是比任一一家運營商的覆蓋都大的,但從頻率和維度來說,鐵路之前的數據沉淀肯定還是有待提高的?!?/p>
鐵路客運用戶畫像系統綜合考慮了分布在業務系統專網、鐵路服務內網、鐵路服務外網等網絡中的相關服務系統,構建了安全可靠的數據采集子模塊以及數據服務子模塊,在保證各鐵路客運信息系統正常運行的情況下,能夠進行業務數據采集存儲,深度挖掘潛在的價值,并將分析結果運用到各個業務系統內,提高各個信息系統的服務質量。
客運用戶畫像的規劃起因:
- 一方面,鐵路企業無法依賴傳統的運輸服務來分析旅客的特征及分類;
- 另一方面,隨著鐵路的競爭對手(航空、公路等)對旅客用戶標簽特征的越來越重視,這種反差會直接導致鐵路高價值旅客的大量流失。因此才有鐵路公司自行打造客運用戶畫像系統的念頭。
2.1系統總體架構設計
鐵路客運用戶畫像系統需要與鐵路12306互聯網售票系統、客運營銷系統、站車WIFI運營服務系統、互聯網訂餐系統等進行數據交互,考慮跨網數據傳輸、設備資源分布等情況,鐵路用戶畫像系統主要在鐵路服務內網建設。
鐵路客運用戶畫像系統按照鐵路服務內外網安全規范進行建設,利用數據及服務接口通過安全平臺組件實現業務系統專網、鐵路服務內網、鐵路服務外網等部署的相關系統與鐵路客運用戶畫像系統間的數據交換。
2.2?對接系統及數據
無論是鐵路12306互聯網售票系統、客管系統、清算系統、客服系統、財保系統、短信平臺、支付平臺等客運生產和服務系統,還是來自于客運相關的延伸服務系統互聯網訂餐、廣告和站車Wi-Fi運營服務等系統。由于系統構建的時間不同,采用的技術不同,系統中存儲的數據類型和格式也千差萬別,要把這些數據都納入到鐵路客運用戶畫像系統中,經過加工和整理后才能使用。
2.3?數據處理的類型
根據鐵路信息系統的數據特點,主要涉及的數據來源包括網站和手機交易終端的業務交易數據、網站和手機APP的瀏覽行為日志數據、線下設備的傳感器數據、安全設備的圖像視頻數據、通信設備的信令數據等。
根據數據的格式分成結構化、半結構化兩大類;根據數據來源的業務時效性要求可以分成批量離線運算、準實時分析運算、實時流式運算、實時數據檢索等類別。
2.4 鐵路系統主要數據源分布
作為數據存儲和處理的基礎平臺,鐵路客運用戶畫像系統需要從多個客運生產、服務系統以及延伸服務系統中進行數據采集。
(1)鐵路客票發售和預定系統
鐵路客票發售和預定系統(簡稱“客票系統”)主要包含旅客實名信息、鐵路客票數據、訂票存根等。
鐵路客運用戶畫像系統可以從客票系統獲取旅客購票和出行的相關信息。
(2)鐵路12306互聯網售票系統
鐵路12306互聯網售票系統為旅客提供了互聯網售票渠道,該系統產生了大量的用戶登錄、查詢、購票、支付等日志數據,以及用戶的基本信息,包括姓名、身份證號、手機號、郵箱等。
鐵路客運用戶畫像系統可以從鐵路12306互聯網售票系統獲取旅客購票行為方面的信息。
(3)鐵路旅客運輸管理信息系統
鐵路旅客運輸管理信息系統(簡稱“客管系統”)是以客運管理和服務人員為用戶,集客運乘務管理、站車交互、旅客服務于一體的綜合管理信息系統,實現了旅客運輸管理和服務信息的共享。
鐵路客運用戶畫像系統通過接口可以從客管系統獲取客運管理和服務方面的相關數據。
(4)鐵路旅客運輸清算系統
鐵路旅客運輸清算系統以清算規則為依據,通過創建清算數據庫、構建清算模型和規則庫進行清算處理,為運輸企業提供收入費用的清算和資金結算服務,同時利用智能分析和數據挖掘技術為運輸企業提供輔助決策支持。
鐵路客運用戶畫像系統可以從清算系統獲取費用清算方面的相關數據。
(5)12306客戶服務系統
12306客戶服務系統是鐵路服務客戶的重要窗口,系統采取語音自助、人工在線、網站查詢、客戶信箱等方式,為社會和鐵路客戶提供客貨運輸業務和公共信息查詢服務,并受理旅客投訴、咨詢和建議,累計了大量的旅客的反饋數據和問題處理方式集。
鐵路客運用戶畫像系統可以從12306客服系統獲取旅客咨詢、反饋、投訴方面的信息。
(6)鐵路財產保險信息系統
鐵路財產保險信息系統是為適應鐵路保險業務快速發展的需要,以保險核心業務系統、電子商務系統、財務系統為重點,利用既有鐵路信息資源,構建的保險信息服務體系,實現了投保、承保、理賠、客戶服務等保險業務全流程的電子化、網絡化。
鐵路客運用戶畫像系統可以從鐵路財產保險信息系統獲取投保、理賠方面的相關信息。
【投保理賠方面的數據,用在意外險營銷場景比較直接,另外可以根據投保及理賠情況,給與保險機構一定的核保風控參考作用】
(7)短信平臺
短信平臺與現有交易業務系統緊密結合,提供短信息收發功能,目前主要包括鐵路12306互聯網售票系統注冊用戶的注冊通知、購票通知、行程通知等數據,有助于提升用戶體驗和實現精準營銷。
鐵路客運用戶畫像系統可以從短信平臺獲取用戶在驗證、訂票等環節的一些操作信息。
【短信驗證碼的注冊、溝通及行程通知可以明確用戶的出行前的行為,只不過無是否真實出行的反饋。因此如果只關注出行前的行為,部分短信運營商的數據庫中也可以獲取?!?/p>
(8)支付平臺
電子支付平臺為業務系統提供支付功能,支撐客戶進行業務辦理,如互聯網購票、窗口POS購票、辦理貨運業務等。
鐵路客運用戶畫像系統可以從電子支付平臺獲取客戶辦理業務或者產品銷售過程中支付環節的相關信息。
【為鐵路公司提供支付能力的支付機構,其實可以通過用戶在鐵路體系的支付行為獲取用戶的出行頻率及次數,在鐵路生態體系消費情況,從而對外輸出一定的用戶相關的鐵路標簽產品?!?/p>
(9)延伸服務系統
延伸服務系統酒店預訂、餐飲服務、廣告、定制服務和站車Wi-Fi運營服務等子系統,主要包括用戶的查詢、訂閱、廣告點擊、服務定制等方面的數據,鐵路客運用戶畫像系統可以從延伸服務系統中獲取的相關數據。
【延伸服務系統的服務,例如酒店預訂這塊,除非鐵路相關APP的用戶粘性很強或者有大的優惠力度,要不然感覺這個業務起量非常難。另外餐飲這塊現在就自身體驗來看,覆蓋率(用戶購買率)其實也一般般,原因是受限于用餐時段限制及餐品及價格影響,后續這塊如果有優化,或者可以有較大的提升。至于廣告等服務的用戶數據適合非常垂直的服務場景,與營銷推送及風控的場景匹配度還是非常有限?!?/p>
(10)外部系統
除上述內部系統外,可以通過接口從氣象、航空等外部系統獲取主要航線的架次、起飛時間、票價等,重要地區的氣象數據等。
三、基于用戶行為的用戶畫像
1. 鐵路旅客畫像
鐵路旅客用戶畫像系統是通過對鐵路用戶的行為數據、交易數據等進行采集、加工和分析,形成用戶精準畫像數據,為旅客提供精準服務推薦和個性化的客運服務,對內提升鐵路客戶服務能力和行業核心競爭力,對外支撐精準廣告投放以及開展數據增值服務。
鐵路旅客用戶畫像系統的建立填補了鐵路信息化的一項空白,通過對鐵路用戶的行為數據、交易數據等進行采集、加工和分析,形成用戶精準畫像數據,支撐精準廣告投放和精準服務推薦,為用戶提供更個性化、更好的社會化服務,有利于鐵路部門提升客戶服務能力、提高信息資源收益和核心競爭力。
鐵路客運用戶畫像系統實現了標簽體系、標簽場景、標簽生產、標簽輸出以及價值分析功能,該系統從用戶、時間、標簽三個維度構筑鐵路客運用戶標簽,能夠整合鐵路客運各個信息系統多觸點、全渠道的用戶數據,進行多維度分析建模,自動化生成用戶標簽,服務業務場景。這些功能滿足了企業對大數據應用全面性、深入性、易用性這三方面的需求。
鐵路客運用戶畫像系統的標簽主要從統計方法角度,可以分為事實標簽、業務標簽、模型標簽、外部標簽;從標簽業務角度,可以分為用戶基礎標簽、交易類標簽、出行類標簽;從時間角度,可以分為近7天標簽、近30天標簽、近90天標簽、近一年標簽等。標簽結構如圖所示。
四、鐵路用戶畫像實現步驟
構建用戶畫像包含以下步驟:
4.1?數據源分析
構建用戶畫像是對用戶行為數據的抽象表示,所以需要的數據源包括用戶相關的所有數據。首先針對用戶行為數據進行分類,將數據分成靜態數據和動態數據。靜態數據主要包括人口屬性、社會屬性、賬戶屬性、商業屬性等;動態數據包括訪問行為、接觸點行為、交易行為等。
【鐵路自身的風控系統,針對防黃牛、薅羊毛、惡意搶占票的數據基本都是以動態數據為主】
以下是鐵路體系比較全的數據字段,也是鐵路數據現在謹慎對外數據產品來源維度。
4.2?客票特征數據
購票日期、購票時刻、上車站、下車站、購買席別、購票方式。
4.3?客票原始數據
- 始發日期、車次、運行區間、列車始發時間、上車站、下車站、售票時間、售票方式、席別名、上車人數等;
- 席別名:特等座、一等座、二等座、無座;
- 售票方式:窗口售票、窗口訂票、網上訂票、自動售票、快通卡(京津城際客運專線特有方式);
- 城市節點信息:城市名稱、行政級別、各年城市人口數量等級、各年人均GDP、各年人均可支配收入等;
- 路網信息:車站數據錄入,包括車站名稱、車站代碼、車站類型、車站等級、車站里程、所屬路局、所屬城市等;
- 列車信息:列車開行車次、始發終到站、上車站、下車站及區間運行時間。
4.4?目標分析
由于標簽和標簽規則需要業務專家參與進行制定,所以定義好畫像的目標是至關重要的。通過對目標的確定和數據的分析,定義出對應的用戶標簽(興趣、偏好、需求等),最終為用戶打上標簽。同時定義出來的標簽根據業務的不同,可以分成事實標簽、業務標簽、模型標簽、反饋標簽等類型。
以下標簽維度,其實嚴格來說,僅靠鐵路體系的數據肯定是不能完全挖掘出來,因此鐵路應該是有接入了其他的用戶數據維度或者其投資支線機構有相關的維度數據才能補充完整。
- 反饋標簽:有房一族、有車一族、富豪人群、企業高管、出行達人、價格敏感。
- 模型標簽:高消費人群、目的預測、消費指數、影響力指數、價值評分、潛在分析。
- 業務標簽:旅客定位、活躍度、出行等級、出行規律、接觸點、出行喜好。
- 事實標簽:人口屬性、社會屬性、會員屬性、消費習慣、出行記錄、出行方式。
4.5?標簽計算
(1)標簽計算模型參考
根據標簽的特征,鐵路客運用戶畫像系統標簽的計算方法可以分為規則計算、統計分析、歸納總結等,適于規則計算的標簽有性別、年齡、籍貫等,可以通過身份證號碼識別,統計分析類主要有出行次數、購票次數、出行時間分布等,根據業務規則通過統計計算獲得。歸納總結類,主要是根據用戶標簽屬性進一步通過數學模型歸納總結用戶屬性,如常駐地等。
(2)基礎標簽計算參考
用戶的基礎標簽主要包括用戶的證件號、姓名、手機號、籍貫、年齡、性別等,其中證件號、姓名、手機號等都可以根據用戶的實名制信息或者注冊信息直接獲得。
(3)統計類標簽計算參考
主要是根據旅客交易行為數據進行計算,可以獲得旅客的交易頻次、出行偏好、消費水平等特征的數字化體現,為旅客群體分類提供了重要的數據基礎。在鐵路客運用戶畫像系統中,用戶的統計類標簽主要包括購票次數、退票次數、購票金額、出行里程等,這些標簽根據統計周期分為近一年、近9個月、近半年、近3個月、近7天等5大類。
根據旅客的出行、交易、偏好等信息進行計算,以某旅客為例的統計標簽計算如下所示:
- 用戶出行標簽:近3月乘車總次數、近1年乘車總次數、近1年車費消費總金額、近1年乘車總里程、近1年總旅行時長、近1年乘車總里程。
- 用戶交易標簽:近1年訂單總數量、近1年交易未支付總張數、近1年作為乘車人退票總次數、近1年作為乘車人改簽總次數、近1年車票掛失次數、近1年改簽數量、近3月作為乘車人退票總次數、近3月作為乘車人改簽總次數。
- 用戶偏好標簽:近1年普通席別乘車數量、近1年高端席別乘車次數(軟臥、高軟、特等、商務)、近1年互聯網購票比例、近1年手機購票比例、近1年提前0-24小時購票比例、近1年提前24-48小時購票比例、近1年提前48小時以上購票比例、近1年G等級列車乘車比例、近1年D等級列車乘車比例、近1年C等級列車乘車比例。
特征分析舉例,近一年提前0-24小時購票比例判斷該旅客出行有無計劃及頻率占比、近一年GDC等級列車乘車比例判斷消費水平、近一年手機購票比例判斷手機購票頻次等。故通過對旅客統計類標簽的計算結果進行分析,可以基于某一個特征或者少數特征組合對旅客進行群體劃分。
基于以上鐵路用戶的基本出行標簽數據,金融風控環節如何使用? 營銷環節如何形成用戶畫像?我們先來看看鐵路用戶數據背后的含義。
4.6 鐵路用戶特征
鐵路用戶特征主要包括:性別、年齡、收入水平、職業特點(個體商人、企業老板、公職人員、自由職業),家庭環境等因素。
(1)年齡與性別
不同年齡與性別出行者,在出行目的與出行次數上存在差異。年齡介于18-55歲之間的城市居民,其出行目的主要是工作、學習、出差、探親、旅游、訪友等等,并且其出行頻率要顯著高于其他年齡段的城市居民。女性頻率顯著低于男性出行頻率。隨著出行者年齡的額變化出行者對出行時間、出行方式、車次的偏愛會呈現一定的差異。
(2)職業
旅客出行行為的選擇將會在一定程度上受到個人職業的影響。按照職業的不同,大致可以將出行者分為自有職業人員、個體商人出差、政府企事業單位等部門的公務員公務出差,以及中低收入者、學生出行等幾大類。
比較來看,公務員在出行過程中喜歡選擇快速、舒適、安全、高效的出行方式,對于價格敏感度較低,自有職業人員在出行時對價格敏感程度相對較高。學生群體,因為可以半價乘坐火車的原因,則學生中絕大部分更傾向于選擇鐵路這一方式出行。
(3)收入
收入高低會直接影響絕大出行者的出行行為。不同收入水平階層的出行者由于其日常生活習慣的不同,出行行為存在著明顯的不同。收入較高、經濟能力較強者,鑒于其對生活質量的要求,其在出行中更愿意以高價錢獲得更好的、更舒適的出行環境。
出行者會在個人經濟承受能力與出行需求之間尋找一個相對的平衡點,此外,出行者的出行目的與出行路線的選擇也會直接影響其出行行為。
例如不同的收入水平選擇的交通工具肯定不一樣,同一區間的收入水平的群體選擇相同的交通工具的不同檔位的服務肯定有區別。
(4)樣本年齡及收入結構
這里收集某調研報告中的調查樣本年齡分布數據:
調查樣本年齡結構:
4.7 鐵路用戶出行特性
出行工具、出行距離、出行目的(工作、學習、出差、旅游、探親、訪友)、出行費用、出行時間。
(1)出行工具
市內:步行、自行車、摩托車、小汽車等。
私人交通方式;常規公交、軌道交通、出租車等公共交通方式。目的:通勤、通學、休閑娛樂、購物、回程等。
城市群城際間出行:公路、鐵路、水運、航空及城際軌道交通。城市群一般半徑為400KM,公路及鐵路更具競爭優勢。目的:公務、商務、出差、旅游、探親訪友等。
(2)出行距離
出行距離的長短會直接影響到出行者的出行行為。例如在出行距離較短時,出行者大多會選擇自駕、乘公共汽車等公路方式出行,公路出行方式的多樣性也使得公路交通方式在短距離出行中具有很大的靈活性。
同時公路廣泛覆蓋的特點可以輕松實現門到門的便利旅行,而對于較長距離的出行,鐵路出行則會作為出行者的首要選擇,其主要原因是鐵路出行相對比較經濟、安全、快速與高校。
在運行速度與舒適程度的大大提高使得更多的人們在800-1000公里左右的出行時轉向選擇鐵路交通,但對于1000公里以上或者更遠距離的出行,由于鐵路覆蓋范圍的局限性,使得航空運輸占有一定的優勢。
(3)出行目的
工作、公務、經商、旅游、出差、訪友、購物、探親等。
不同出行目的的出行者,對交通運輸服務指標的要求也存在明顯的差異。例如:因公務問題的出行者,對價格的敏感性較小,他們更多的追求出行環境的舒適、高速與安全。而經商出行的出行者,則更加注重到達時刻的準時性,同樣的訪友、購物與探親等自費出行目的的出行者,會綜合考慮更多的因素,即如何在經濟能夠承受的情況下選擇相對快捷及及時的出行方式。
(4)出行費用
出行費用是出行者在整個出行過程中所支付的所有經濟開銷的一種綜合評估,也是影響出行者選擇出行方式的主要因素。出行費用分為出發地的市內交通費用、目的地市內交通費用以及城際間的交通費用三個部分。
以業務出行為主要出行目的的出行者,更傾向于選擇小汽車或者高速鐵路這樣的較舒適與便捷的出行方式,非業務出行的則選擇普通鐵路或者告訴大巴的概率大一些,。這可能是因為業務出行的費用來源通常為公費,出行者對出行費用不敏感,更加重視旅途上的舒適性與便捷性;非業務出行一般為自費,出行者對出行費用較敏感,更加看重各交通方式的經濟性。
(5)出行時間
出行時間分三個部分,出發地市內的出行時間、城際間的出行時間和目的地市內的出行時間。不僅出行的距離影響總出行時間,而且換乘的方便程度也有所相關。
五、客列車分類【主要關注GCD列車】
1. 高速動車組列車(G字頭)
2009年12月26日起,武廣高鐵開行23趟列車,依據規定,武廣高鐵開行高速動車組的車次有個新字母打頭,為“G”,寓意為“高速”。目前在設計時速為300公里或350公里的線路上運行時,最高時速為300公里,鐵路系統標準念法為“高**次”。例如:G字開頭1號車G1001次就是武漢站~廣州南站直達列車。
2. 城際動車組列車(C字頭)
2008年8月1日,京津城際鐵路正式對公眾運行,新啟用車次為C+4位數字,意為城際列車,目前最高時速是300公里,鐵路系統標準念法為“城**次”。京津城際的車次范圍是C2001~C2282次。例如:武漢城際列車的車次范圍是C5001~C5720。
3. 普通動車組列車(D字頭)
目前,在設計為每小時300公里或每小時350公里的線路上行駛時,最高速度為每小時250公里。當在設計為250公里/小時或200公里/小時的路線上行駛時,最大速度為200公里/小時。
4. 直達特快旅客列車(Z字頭)
最高速度是每小時160公里,鐵路系統的標準代碼是“直行時間”。其中大多數是整排軟座,少數汽車配備硬臥和硬座,只有一些汽車停在終點站所在的火車站和/或鐵路局內的大車站。這種火車是空調火車。
5. 特快旅客列車(T字頭)
最高時速140公里,鐵路系統標準念法為“特**次”。跨局特快全程只停省會城市、副省級市和少量主要地級市等特大站或直達,管內特快全程一般只停地級市。此類列車為空調列車。
6. 快速旅客列車(K字頭)
最高時速120公里,鐵路系統標準念法為“快**次”。全程??康丶壥蓄惖闹写笳?,也有少量直達的。此類列車95%以上為空調列車。其中K1-K2000為跨局列車,K7001-K9850為管內列車。
7. 普通旅客快車(普快)
范圍是1001-5998,即快速客運列車,??吭诳h級市和大多數縣級大中型車站,大約有40列這種類型的火車。其中,1001-1998是長途列車跨越3局或更多局的本地列車,2001-2998是跨越2局的列車,4001-5998是短途列車鐵路局內的本地列車。
8. 普通旅客列車
簡稱普客,或慢車,正規的說法中沒有“普慢”。范圍為6001-7598,??看蟛糠挚梢酝?康恼军c。由于票價低廉,列車基本上“站站?!?,很受沿線乘客喜愛。
9. 臨時旅客列車(L字頭)
在客流高峰期間運營的臨時快速客運列車??吭诳h級市和大多數縣級主要車站,鐵路系統的標準代碼為“臨時”。這種火車通常在春夏季和國慶節期間行駛??缇峙R時旅客列車通常沒有空調,這也被稱為“農民工專列”。
10.?旅游列車(Y字頭)
只有極少數的旅游列車使用這個數字,鐵路系統的標準代碼是“旅行時間”。其中Y1-Y498是局間列車,Y501-Y998是管內列車。
目前只有北京,天津存在這種列車,運行區間為北京北站~延慶站/沙城站,天津站/北站~寶坻/薊縣。
- 動車組列車:一等座、二等座、部分列車有商務座;還有部分夜間運行的動車組列車有軟臥。
- 直達特快列車:以軟臥為主,部分列車掛有硬臥和硬座或高級軟臥;
- 特快列車:硬座、硬臥、軟臥、部分有高級軟臥或軟座;
- 快速列車:硬座、硬臥、軟臥,很少一部分有軟座;
- 臨時旅客列車、普通列車與快速列車基本相同;
- 城際動車組列車:一等座、二等座;
- 高速列車:一等座、二等座、商務座。
六、指標分析邏輯舉例
6.1?單個指標分析
頭等艙的多數有錢人;折扣票據的多是普通階層且提前有計劃的,或出游的或定時出差的;當天往返或隔天往返的基本都是商務出行;節假日往返的多是旅游或探親。
6.2?多指標分析
年齡+價格:低年齡+折扣票據屬于正常資質用戶層;低年齡+正常票價或頭等艙的不是富二代就是創業老板;中年+折扣票據的或是旅游客群或是普通階層;中年+正常票據屬正常階層;中年+頭等艙偏老板階層(公務艙結合分析類似)。
往返地+身份證歸屬地:目的地與身份證歸屬地一致的,一般是回家探親的;出發地與身份證歸屬地一致的,一般是常駐城市(可結合出發地次數增強判斷)。
出行頻率+目的地:出行頻率高的,目的地基本一樣的,基本是商務出行,且屬于高端商務了,業務穩定的;出行頻率高,但目的地經常變換的,大部分是開拓市場的或者是經常出游的。
另外,鐵路出行黑名單可用來判斷用戶失信行為,能出現在出行失信名單的用戶,證明在出行過程中有出現嚴重的不良行為,那保不準其在真實貸款后,會有不還款或者在催收環節惡意辱罵催收人員的行為。
只不過這部分人群數量過少,出行黑名單是從2018年下旬才逐漸按月公布,每期公布名單一般幾百到上千個失信人度等,當信貸公司每天幾萬幾十萬的調用過程,只為查詢這個幾千個航旅失信名單,實際應用價值不大,也會增加中間的查詢耗時,影響用戶體驗。
6.3 通過旅客周轉量及客流量做分析
2018年每月份全國鐵路旅客周轉量及客流量
2018年全國鐵路客流量為33.75億人次,旅客周轉量為14147億人公里,人均運轉里程為419公里。
2017年全國鐵路客流量為30.84億人次。
2017年全國鐵路旅客周轉量為13457億人公里。
2017年全國鐵路旅客人均運轉里程為436公里。
2018年一到十二月份全國鐵路主要指標完成情況表:
這個數據表可以根據當前建模溯源要求自行補充分析,主要是從月份周期中先定位大部分人群的出行目的、家鄉位置等,非特殊月份進行商務、出差、通勤的分析會更精確。另外出行人次及公里數在給政府做人口遷徙流動決策分析時比較有用。
6.4 通過客運量做分析
2018年全國各大鐵路局的客運量排名:
NO.1 上海局(客運量:6.78億人;客票收入:768億元)2018年發送旅人人數6.78億人,(2017年6.28億人),同比增長7.8%??推笔杖敕矫妫?018年768億元,(2017年703億元),同比增長9.2%。
NO.2 廣州局(客運量:4.7億人;客票收入:579.5億元)2018年發送旅客人數4.7億人,(2017年4.134億人),同比增長13.7%。廣州局旅客發送人數增長量排第一,增長幅度排第5。客票收入方面,579.5億元,(2017年511億元),同比增長13.4%,增量第一,增幅第六。
NO.3 北京局(客運量:3.2億人;客票收入:456.7億元)2108年發送旅客3.2億人,(2017年3.07億人),同比增長4.3%;客票收入方面,456.7億元,(2017年430.7億元),同比增長6%。
NO.4 成都局(客運量:2.93億人;客票收入:289.3億元)2018年旅客發送人數,2.93億人,(2017年2.45億人),同比增長19.4%,增量排名與增幅排名均排第三位??推笔杖敕矫妫?018年收入289.3億元,(2017年222億元),同比增長30.2%,增幅排第三。
NO.5 沈陽局(客運量:2.37億人;客票收入:185.5億元)2018年旅客發送人數2.37億人,(2017年2.35億人),同比增長1%;客票收入方面185.5億元,(2017年178.3億元),同比增長4%。
NO.6 南昌局(客運量:2.36億人;客票收入:230億元)2018年旅客發送人數2.36億人,(2017年2.22億),同比增長6.4%;客票收入方面,230億元,(2017年210億元),同比增長9.4%。
NO.7 武漢局(客運量:1.84億人;客票收入:212億元)2018年旅客發送人數1.84億人,(2017年1.76億人),同比增長4.5%;客票收入方面,212億元,(2017年193.7億元),同比增長9.5%。
NO.8 濟南局(客運量:1.46億人;客票收入:153.8億元)2018年旅客發送人數1.46億人,(2017年1.35億人),同比增長7.4%;客票收入方面,153.8億元,(2017年145.4億元),同比增長5.7%。
NO.9 鄭州局(客運量:1.35億人;客票收入:146.7億元)2018年旅客發送人數1.35億人,(2017年1.27億人),同比增長6.8%;客票收入方面,146.7億元,(2017年135億元),同比增長8.6%。
NO.10 南寧局(客運量:1.15億人;客票收入:99.4億元)2018年旅客發送人數1.15億人,(2017年1.03億人),同比增長12.1%;客票收入方面,99.4億元,(2017年86.6億元),同比增長14.7%。
NO.11 西安局(客運量:1.11億人;客票收入:126億元)2018年旅客發送人數1.11億人,(2017年9071.6萬人),同比增長22.6%,增幅全路第一,增量2054.7萬人,增量也排到了第4位;客票收入方面,126億元,(2017年96.4億元),同比增長30.6%,客票收入方面,西安局增幅同樣位居第一。
NO.12 哈爾濱局(客運量:1.1億人;客票收入:82.7億元)2018年旅客發送人數1.1億人,(2017年1.12億人),同比增長﹣1.3%,18個鐵路局里面唯一一個負增長的鐵路局;客票收入方面,82.7億元,(2017年80.7億元),同比增長2.4%。
NO.13 太原局(客運量:7520.7萬人;客票收入:50.4億元)2018年旅客發送人數7520.7萬人,(2017年7313萬人),同比增長2.8%;客票收入方面,50.4億元,(2017年45.7億元),同比增長10.2%。
NO.14 蘭州局(客運量:6082.7萬人;客票收入:56.99億元)2018年旅客發送人數6082.7萬人,(2017年5006萬人),同比增長21.4%;客票收入方面,56.99億元,(2017年48.74億元),同比增長16.9%。
NO.15 昆明局(客運量:5463.5萬人;客票收入:56.9億元)2018年旅客發送人數5463.5萬人,(2017年4759.6萬人),同比增長14.7%;客票收入方面,56.9億元,(2017年43.6億元),同比增長30.5%,客票收入增幅排名第2。
NO.16 烏魯木齊局(客運量:3802.5萬人;客票收入:51.2億元)2018年旅客發送人數3802.5萬人,(2017年3557.9萬人),同比增長6.8%;客票收入方面,51.2億元,(2017年46.3億元),同比增長10.7%。
NO.17 呼和浩特局(客運量:3566.6萬人;客票收入:24.7億元)2018年旅客發送人數3566.6萬人,(2017年3467萬人),同比增長2.8%;客票收入方面,24.7億元,(2017年24.2億元),同比增長2.3%。
NO.18 青藏鐵路公司(客運量:1636.4萬人;客票收入:21.5億元)2018年旅客發送人數1636.4萬人,(2017年1480.3萬人),同比增長10.5%;客票收入方面,21.5億元,(2017年19.9億元),同比增長8.1%。
以上羅列的數據目的是找出鐵路出行頻率最高的城市集群,然后結合城市集群的經濟發展及就業工資分布,可以交叉獲取群體的資質能力。出行頻率不高的城市集群或者是線下金融機構可以考慮的布點選擇或者通過其他出行工具數據補充軌跡信息,獲取群體資質能力。
6.5?常住地界定
根據聯合國經濟和社會事務部統計司在《人口和住房普查原則與建議》中的建議,常住地可按照以下標準界定:
- 在最近12個月的大部分時間一直居住的地方,不包括因度假或工作引起的短暫出行;
- 至少在最近12個月一直居住的地方,不包括因度假或工作引起的短暫出行。
旅客出行一般是從常住地出發經過一個或多個目的地后返回常住地,完成一次出行。對于普通旅客,旅客在目的地的停留時間要遠小于在常住地停留的時間。鐵路出行數據可以描述旅客乘坐火車的出行軌跡,通過分析旅客的出行記軌跡、在目的地的停留時間,利用邏輯判斷、概率計算等方法可以判斷旅客每次出行的起點,從而可以利用旅客一年以上的出行數據推斷旅客的常住地。
基于出行數據識別常駐地:
利用鐵路旅客出行數據推斷常住地信息,受出行數據質量影響,影響因素主要有:
- 出行次數過少:部分旅客在統計周期內的通過鐵路的出行次數過少,不能形成有效的出行回路,無法在出行起點與出行終點之間確定常住地,這些旅客的常住地不能通過鐵路出行數據進行識別。
- 行程不連續:綜合交通背景下,旅客可組合多種交通方式完成出行,導致鐵路出行數據在整個行程上是不連續的,該類型旅客需要結合其他交通方式的出行數據進行判斷。
- 多出行起點:鐵路出行數據可能構成多個出行回路,旅客出行時可能存在多個不同的出行起點,該情況下可選取比重最大的出行起點作為常住地。
- 目的地最大停留時間:根據不同的出行目的,旅客在目的地的停留時間一般會有一個時間上限,當旅客在目的地的停留時間過長時旅客可能存在多個常住地,該情況有效無法識別旅客常住地。
七、用戶畫像系統鐵路公司對外應用場景
鐵路互聯網售票系統上線以來注冊用戶已經超過3.5億,乘車用戶超過8億,每天都產生海量的用戶行為日志數據。隨著鐵路12306互聯網售票系統,站車WIFI運營服務、廣告平臺、互聯網訂餐等系統數據的不斷規范和收集,數據中已經囊括了鐵路客運多年的運營數據,包括對客票產品的清晰描述和定位、對旅客的行為收集可達“可視化”程度、對延伸產品的轉化的理解等方面,急需從平臺囊括的萬千數據中,借鑒當前互聯網產品的發展模式,找尋適合鐵路發展的數據增值應用,提高鐵路客運的整體效益和服務水平。
鐵路客運用戶畫像系統實現對全路局交通場景的信息以及延伸服務產生的數據進行交互、匯集、共享,通過數據清理和挖掘分析,為各種鐵路客運服務系統進行資源管理、分析與服務提供支持。同時,根據具體的客運業務系統的需要,進一步開發擴展支撐功能。
增值服務主要針對六個方面:核驗服務、精準營銷、業務預測、風險識別、征信服務。它們都是構建在精準刻畫的用戶畫像的基礎之上,其往往存在目標人群定位不準確、輕視用戶行為兩個問題。而我們的目標是建立精準的“用戶畫像”,以來支撐構建出準確的用戶分群和利用機器學習算法構建的精準營銷(個性化推薦)系統、預測系統、風險識別系統、征信服務系統等。
7.1?核驗服務
2015年年底央行發布的《非銀行支付機構網絡支付業務管理辦法》。這份新的非銀支付管理辦法于2016年7月1日起正式實施。其要求支付機構為客戶開立支付賬戶的,應當對客戶實行實名制管理[45]。
無論從保障消費者權益、防范非法活動、降低支付風險、促進行業發展等那個角度來看,第三方支付實名制都是一件利國利民的好事。但在推行和實施的過程中,無論監管機構,還是支付機構,如能更好的兼顧用戶體驗,才能把好事辦好。畢竟第三方支付行業勝在高效的支付效率和較低的用戶交易成本,而差的用戶體驗必然增加用戶交易成本甚至降低支付成功率。這無疑不利于仍然處于起步階段的網絡支付行業持續發展。
忙于響應監管、卻疏于兼顧用戶體驗,支付寶、微信支付等主流第三方支付平臺近期對于實名驗證流程的大步推進,也讓不少用戶不由叫苦。各第三方支付平臺急切需要簡化用戶核驗流程,在提高用戶體驗的情況下完成用戶的核驗,故需要借助外部系統提供的核驗服務。
而鐵路為了保障鐵路旅客生命財產安全,維護旅客運輸秩序幾年前就開始實行實名制,旅客通過互聯網、電話等方式購票時,購票人需要提供真實準確的乘車人有效身份證件信息;取票時,應當提供乘車人的有效身份證件原件或者復印件。
目前鐵路互聯網售票系統注冊用戶突破3.5億,乘車旅客信息超過7個億,全部旅客信息都是通過實名制核驗的。所有的數據都是真實可靠的,所以鐵路客運用戶畫像系統可以對第三方服務平臺提供身份核驗服務,發揮鐵路旅客數據的價值,降低第三方支付平臺實名制實施的難度。
當然鐵路的身份核驗服務肯定不如公安部的身份核驗服務覆蓋率、準確性及時效性,對于一些非涉及資金及敏感信息的場景,鐵路的身份核驗服務可以使用。
7.2?精準營銷
對于互聯網的營銷原本就屬于數據驅動的領域,大數據更是提供了一個前所未有的機會,以大數據為基礎的智能營銷是行業發展的必然趨勢。
近幾年為了滿足旅客現代化、多元化、全行程、綜合性的出行服務需求,提高鐵路整體形象,按照“統一規劃、協同建設、分級管理、資源共享”的組織原則,建設鐵路客運延伸服務系統,開展餐飲服務、酒店預訂、旅游預訂、定制服務、行程信息服務、站車商業、體驗店等圍繞旅客出行的業務服務和各業務銷售渠道的廣告管理業務。
隨著鐵路延伸服務的不斷完善,鐵路客運互聯網產品個數和種類快速增長,信息過載是鐵路客運大數據環境下最嚴重的問題之一。這種瀏覽大量無關的信息和產品過程,無疑會使淹沒在信息過載問題中的用戶不斷流失。
推薦系統作為有效緩解該問題的方法,受到工業界和學術界越來越多的關注。如何充分利用豐富的用戶反饋、社會化網絡等信息進一步提高推薦系統的性能和用戶滿意度,成為大數據環境下推薦系統的主要任務。用戶需要花費大量的時間才能找到自己想買的產品。
根據旅客的興趣特點和購買行為,向用戶推薦用戶感興趣的信息和商品。為了解決這些問題,鐵路客運用戶畫像系統需要構建個性化推薦系統。
該系統是建立在海量用戶畫像系統的應用數據挖掘基礎上,進行準確定位產品與用戶關系的智能服務系統,常見的算法有:協同過濾、基于內容的推薦、基于人口統計學的推薦,為了兼顧各個算法的優點,采用混合推薦算法,為鐵路延伸服務系統傳入不同推薦算法的推薦的產品列表,以幫助鐵路延伸服務為其用戶購買產品提供完全個性化的決策支持和信息服務。
7.3?業務預測
(1)旅客流量預測
鐵路以其運量大、速度快、低效能、污染少、安全可靠等不可替代的優勢,逐漸成為了城市間公共客運系統的骨干架構。然而,單一地考慮某一條線路的走向、站點位置,而未從全局整體規劃考慮,就不可避免的造成資源的浪費。
鐵路客運為了保持市場競爭力,實現利潤最大化,需要了解日常鐵路客運流量、淡旺季變動指數、冷熱門線路。其中,為了準確把握市場,需要對客流進行充分的了解和預測。
(2)餐飲服務預測大數據應用顯現出巨大的經濟價值。
正是由于餐飲行業競爭激烈而又利潤微薄,要想成功實屬不易,不少餐館開始轉向大數據以獲得競爭優勢。而對于餐飲業,大數據的關鍵在于數據分析的能力,有效的數據分析能力才可能產生高質量的結果。良好的數據資產將成為未來核心競爭力,一切皆可被數據化,鐵路客運系統目前服務的用戶量已超過7億,每天會產生大量的數據,這些數據的積累,有助于企業進行預測和決策。
基于鐵路客運用戶畫像系統收集的用戶行為數據,通過深入分析,用戶的基本信息、消費頻次、點菜口味、消費水平等都會被發現,并將其進行提煉,分析有助于企業進行預測和決策,并將其運用到餐飲行業“進、銷、存、管理運營”等四個重要節點。
(3)酒店服務預測
市場預測是酒店開展收益管理工作的基礎,其主要作用是為酒店收益管理人員獲取市場信息、掌握未來市場的需求變化情況,分析顧客的消費行為、實施客房預訂與存量控制,價格決策以及確定超訂量等提供必需的數據。同時,也為酒店管理者制定市場戰略和進行市場決策提供重要的參考依據。
(4)旅游服務預測
旅游行業是大數據應用前景最廣闊的行業之一,對用戶的行為分析,可以準確預知客流趨向,進而采取相應的措施疏導客流??梢灾烙慰拖矚g什么樣的產品,進而開發建設適銷對路的產品;還可以知道游客需要什么樣的公共服務,進而改進旅游公共服務。
通過鐵路客運的海量用戶行為數據,進行數據挖掘,可以準確的分析出旅游的客源市場在哪里、哪些產品是消費者關注的,這就為精準營銷提供了重要的數據支撐。
7.4?風險識別
(1)異常購票用戶識別
為了識別異常用戶主要使用兩種方案:用戶與客票系統交互日志;用戶常用聯系人之間的關系網絡。
用戶行為日志作為鐵路互聯網售票系統提供服務過程中,用戶與系統交互過程中產生的有關用戶訪問行為的數據,日志數據詳細描述用戶對互聯網售票系統的使用情況,通過對海量的購票日志數據進行數據分析,挖掘并提取出用戶異常購票行為特征,建立規則庫,根據規則識別出異常購票行為。
基于用戶的常用聯系人構建關系網絡,識別出異常用戶的子拓撲圖,根據識別出的子拓撲圖在全量用戶及常用聯系人的關系網絡中進行相似度計算,識別出危險性較高的用戶。
通過離線分析識別出異常購票行為和異常購票用戶的識別模型,當用戶在鐵路互聯網售票系統購票過程中,實時的收集該用戶的行為日志數據以及基本數據(個人信息、常用聯系人信息等),并與離線分析出的識別模型進行匹配,從而達到實時的管控和打擊黃牛黨刷票等行為的目的,維護了互聯網售票交易的公平性。
(2)羊毛黨識別
羊毛黨以多種形式存在于網絡里。虛擬多臺電腦設備并使用IP欺騙的方式,用軟件同時控制多臺智能終端做為肉機,在社區軟件里組成關聯群、招聘“兼職人員”等等,專業的羊毛黨可以用極低的成本獲取極高的收入,致使許多電商、O2O平臺損失慘重,甚至被搞垮。
運用技術手段,在注冊環節減少惡意軟件的入侵;提高領取門檻;完善用戶的信息審核,邀請用戶填寫仔細的個人資料,鎖定IP,設定最大閾值的注冊量,通過相關歷史數據,對已注冊用戶進行比對,通過規則對其進行識別等。
八、用戶畫像系統的應用
8.1?征信服務
大數據的發展對征信發展起到了非常大的促進作用,征信最早起源于消費分期,沒有定量的描述。進入大數據時代,用戶的行為數據得到了沉淀和積累,可以使用機器學習和數據統計的模型來計算和評估用戶的信用,從而促進社會誠信建設的快速發展。
通過鐵路客運用戶畫像系統建設和機制安排,將旅客的購票、訂餐、酒店預訂、旅游出行、廣告點擊等信息記錄下來,使之規范化、數字化、公開化,變無規律為有規律,變不可考為有證查,變不可知為能可知。
大數據征信面對的是鐵路客運所有的旅客行為數據以及上千個維度的評價指標。為了對鐵路客運浩繁復雜的數據進行實時、自動的挖掘和計算,鐵路客運用戶畫像系統借助互聯網、大數據、云平臺等新技術,需要創建一套以全路數據挖掘、旅客信用計算、對外服務三大核心技術為支撐的大數據征信模式,實現了旅客行為數據采集,行為信用計算的一體化和全自動化。不僅能夠為鐵路客運提供服務,也可以跟其他企業進行信用業務共享。
在金融風控及用戶分層場景,部分金融公司在建模過程也獲得不錯的反饋。特別一些P2P業務客群通過鐵路的標簽識別出相對優質的小部分客群,然后對這部分客群往銀行等優質金融場景導,其實也是在助貸業務做鋪墊。
8.2?用戶核驗系統
用戶核驗系統主要是根據鐵路客運用戶畫像系統計算出的用戶標簽為第三方提供用戶身份核驗服務,發揮鐵路旅客數據的價值,降低第三方支付平臺實名制實施的難度
設計用戶信用值計算模型。目前第三方軟件以“預付可提高排名”,“專享100M提速光纖”……為“噱頭”,吸引了大量的用戶借助其進行購票,嚴重的影響了公平公正的購票環境,為了打擊非正常購票用戶,上線了風控系統。
然而目前風控系統只是根據用戶登錄IP更換頻率、設備指紋更換頻率、余票查詢頻率、CDN地址更換頻率等角度實時的識別異常請求。海量的歷史數據還沒有進行更深一層的分析,還不能有效的挖掘出歷史數據的潛在的價值,后期可以根據用戶畫像系統提供的用戶的行為特征數據,設計用戶購票信用值模型,預測用戶惡意購票的指數,并對接風控系統實現異常用戶識別的模型,同時從離線和實時兩個方面更加高效的識別異常用戶。
九、鐵路數據應用場景及價值
以下圍繞鐵路數據在社會及經濟2個維度,簡單羅列相應的應用場景供參考。
9.1 社會價值
(1)為政府部門提供宏觀經濟分析報告
鐵路客流大數據及貨運大數據均體現覆蓋區域的人口流動及經濟變動情況,形成全國或區域化的宏觀經濟分析報告,可為政府部門提供全國及區域經濟變動情況,輔助政府部門實施更精確的宏觀經濟調控策略及手段。
(2)與執法部門實現聯防聯控
鐵路大數據已覆蓋全國超過8億的人口,是人民群眾出行的主要交通工具,因此鐵路部門可以與執法部門聯通,聯防聯控,及時發現犯罪分子的蹤跡,實現快速精確打擊抓捕犯罪分子的目的,保障鐵路出行安全及社會穩定。
(3)助力智慧城市的發展
通過對鐵路大數據的挖掘分析及提取,通過XXX打通各部委數據,打造適合智慧城市需求的數據產品,助力智慧城市的發展,實現對城市的精細化和智能化管理,從而減少資源消耗,降低環境污染,解決交通擁堵,消除安全隱患,最終實現城市的可持續發展。
(4)打造包括鐵路、高速、國道及海事等全面的交通運輸信用體系
通過整合共享公路建設、水運工程建設、道路運輸、水路運輸、安全生產、海事執法,以及鐵路、民航、郵政等領域的信用信息,與全國信用信息共享平臺、國家企業信用信息公示系統等國家級平臺進行對接共享。推動獎懲信息在行政許可、招標投標等業務系統中的應用,加快構建“守信者無事不擾,失信者利劍高懸”的獎懲格局。
(5)打造鐵路智慧供應鏈,支撐實現貨運跨界收益
鐵路智慧供應鏈利用鐵路物流平臺,實現上下游供應鏈及并行的商貿或生產供應鏈間的資源配置優化,促進物流服務產業鏈直接相關的商貿及供應鏈金融服務體系融合,并將通過“運貿融一體化”來獲取跨界收益。
(6)為優化交通接駁設施提供決策支持
不同區域、不同季節、不同時間的鐵路客運量是不一樣的,針對鐵路客運數據的統計分析,為各站點所在城市的交通部門提供交通接駁設施安排及規劃,為乘客帶來從鐵路出口直達城區中心或各景點區域地帶的無縫鏈接交通乘坐體驗。
(7)為打造旅游景點選址提供鐵路熱力數據支持
政府或投資機構可以選擇全國鐵路乘客熱力數據,從人口集中游玩的區域中挖掘適合打造新的旅游景點的數據支撐,或者為擴充景點區域提供可靠游客流量數據支撐。
(8)為政府實現流動人口監測提供人口流動數據做參考
外來人口大部分都是通過鐵路運輸實現的,特別是長距離遷徙。而外來人口是各個城市都需要重點關注的,不管是短期游玩還是長期居住。因此鐵路的客流數據可以提前告知各個城市監管部門,提前做好外來人口的流動監控。
(9)為物流園區科學布點規劃提供運力數據參考
鐵路歷年貨運數據可以支撐貨運起始地、中轉地及目的地三地的物流園區選擇,實現鐵轉路或路轉鐵的運力調配最優,降低運輸鏈條上各企業的物流運輸成本,提高裝卸貨及運輸的效率。
(10)為物流公司提供鐵路運輸信用體系的不良運輸企業名單,降低合作風險
鐵路運輸體系中涉及的關聯運輸企業數量眾多,這個合作過程中產生的不良運輸企業名單,可以為各物流公司在選擇合作伙伴時及時發現潛在風險,降低合作后的損失。
(11)為商業車險保費定價提供相關決策支持
商車保費定價中行駛里程、約定行駛區域、車型、投保車輛數、絕對免賠額等都會影響其定價,與鐵路貨運長期合作的車輛行駛區域相對穩定,里程也比較清晰,有利于車險公司實現更精確的車險保費定價。
9.2 經濟價值
(1)為保險機構提供經營決策支持
保險機構根據存量客群在保險機構及鐵路場景的活躍度,根據年齡、性別、艙位等級、頻次及出發到達地點等維度,打造不同保費、保額及保期的出行意外險甚至健康險或壽險等,實現千人千面千險的產品創新,滿足不同保險客群的實際保障需求。
根據中國銀保監會發布的2018年保險數據統計報告顯示,2018年保險業新增保單件數290.72億件,同比增長66.13%。其中,壽險本年新增累計保單0.89億件;健康險32.01億件,增長417.28%;意外險64.99億件,增長168.51%。
壽險、健康險及意外險年新增保單約98億件,均主要是與人相關的險種,因此在做營銷畫像可借助鐵路大數據達到更好的效果。假設保險機構20%的客戶是通過鐵路大數據優化經營決策轉化的,每次調用接口費用3元,則可為中鐵帶來58.8億元的年收入規模(鐵路大數據單次使用總費用按3元,以下例子同理)。
(2)滿足保險機構投保反欺詐需求
保險反欺詐主要針對車險及壽險產品,通過對鐵路大數據各維度的挖掘,結合外部風險數據,綜合判斷新增投保及存量續保客戶是否有投保欺詐行為的潛在風險。
而2018年壽險本年新增累計保單0.89億件,車險4.48億件,假設其中20%的保單的反欺詐是通過鐵路大數據實現的,則可為中鐵帶來3.2億元的年收入規模。
(3)為旅游機構提供經營決策支持
2018年國內旅游55.39億人次,而國家鐵路旅客發送量完成33.17億人次。鐵路旅客人次少于旅游人次,則可以鐵路人次數據作為評估標準。假設鐵路人次中有80%是通過鐵路出行旅游的(剩下20%為非旅游需求),則也有26.5億人次,其中平臺20%的用戶通過通過鐵路大數據優化經營決策轉化的,則可以帶來15.9億元的年收入規模。
(4)為銀行機構提供經營決策支持
隨著居民可支配結余資金的穩定增長,國人們對理財的潛在需求在持續提升。同時,互聯網網民人數穩定增長以及支付技術的快速發展等為互聯網理財的發展提供了基礎。
截至2018年12月,我國購買互聯網理財產品的網民規模達1.51億,則各大平臺需要對共15億的注冊用戶進行資質分層才能知道哪些是優質客群(轉化率按照10%反推計算注冊用戶數量),則可為中鐵帶來45億的年收入規模。
(5)為電商平臺提供經營決策支持
截至2018年12月,我國網民規模為8.29億,假設電商平臺用戶基本覆蓋網民,則電商平臺用戶總數也為8.29億元,如每人每年需要消費一次,電商平臺需要對這些用戶進行資質分層,判斷該向平臺用戶推送什么產品。假設平臺20%的用戶通過鐵路大數據優化經營決策轉化的,則可帶來近5億的年收入規模。
(6)為教育機構提供經營決策支持
2013年至2017年,畢業生總數從700萬人增至800萬人,年復合增長率為3.3%,并將于2022年達到930萬人。不斷增長的高校畢業生總數使其求職競爭更加激烈,畢業生們對職業技能培訓的需求增加。
截至2018年上半年,在線教育人數達1.72億,按照年30%的增長率,新增部分人數是通過鐵路大數據優化經營決策轉化的,則可帶來1.5億元的年收入規模。
(7)為酒店平臺提供經營決策支持
截至2018年12月,在線旅行預訂用戶規模達4.10億,較2017年底增長3423萬,增長率為9.1%,占網民整體比例達49.5%。網上預訂機票、酒店、火車票和旅游度假產品的網民比例分別為27.5%、30.3%、42.7%和14.5%。則酒店在線預訂用戶數量有近1.24億人,假設其中平臺30%的用戶通過鐵路大數據優化經營決策轉化的,則可帶來1.1億元的年收入規模。
(8)為網約車平臺提供經營決策支持
截至2018年12月,我國網約出租車用戶規模達3.30億,假設其中平臺30%的用戶通過鐵路大數據優化經營決策轉化的,則可帶來2.97億元的年收入規模。
十、結語
除了以上場景外,現在使用數據比較成熟也比較愿意花錢的,其實都是金融或與金融相關的風控場景、然后才是營銷獲客的客戶分層場景。而風控場景除了公安、銀聯、運營商及設備數據算是比較易得及實現比較多外,包括鐵路數據這些國有數據,99%的風控人員都基本沒接觸過,更別說運用在風控建模上了。
而現在大數據行業的發展已經是國家重點推進的,因此可用的數據維度其實會越來越多,不僅風控人員不僅需要時刻關注,并了解更多新的有效數據。各行各業與數據相關的其實都需要關注不同數據的應用邏輯,保持數據應用敏感度,這才可以將可得數據在合規的前提最快的應用起來,不管對內還是對外。
主要參考材料:
- 基于出行全過程的旅客城市群出行方式選擇,研究基于大數據的鐵路客運用戶畫像系統研究及應用
- 基于計劃行為學的旅客中長距離出行方式選擇行為研究
- 基于客票特征數據的我國高速鐵路旅客出行行為分析研究
- 基于鐵路出行數據的旅客常住地智能識別算法研究
- 其他網上公開相關材料
- 目前還沒評論,等你發揮!