專訪宜信高級副總裁、大數據負責人Joyce:當金融遇上大數據,能擦出什么火花?

2 評論 6795 瀏覽 7 收藏 20 分鐘

這兩年,互聯網金融的成長速度讓一些不可一世的傳統金融巨人也不禁打了個冷戰。倒不是因為互聯網金融業務的規模真的威脅到了傳統金融,而是伴隨它而 來的這股創新力量讓傳統金融行業中存在的問題和局限性暴露無余。所幸,已經有一些人開始意識到問題的緊迫性,當然,還有問題背后所蘊藏的巨大機遇。

Joyce Zhang 就是這些人中的一個。Joyce 是宜信 CEO 唐寧從美國挖來的一位資深大數據專家,現在擔任宜信大數據創新中心的 總經理。在來宜信之前,Joyce 曾經服務過 Hulu、Microsoft 等公司,主要負責的是基于大數據的推薦引擎、搜索平臺、廣告精準投放等技術系統的開發。Joyce 說:“一直想做些跨界的事情,而金融與大數據結合后會有很多可能性,這些可能性讓我充滿期待?!?/p>

問題出在哪兒?

目前,互聯網金融的體量還非常小。以 P2P 網貸業務為代表,截至 11 月其規模為 2450 億,而傳統金融行業擁有的資產卻是百萬億的量級。雖然在規模上的沖擊幾乎可以忽略不計,但這幾千億的背后卻是傳統金融不曾服務到的那些小微人群。當金融開 始走向普惠,問題也隨之暴露出來。金融的本質在于通過風險管理實現資本價值,可傳統金融的征信手法卻不能完全滿足互聯網金融業務的風控需求,這既包括覆蓋 人群的局限,也包括風控手段上的局限。我國缺失多年的社會信用體系正在加速現形。來看看下面幾點:

1、在央行有征信記錄的人不足全國人口 1/4

按照央行最新數據,目前央行征信系統中共有 8.4 億人,但其中有實際征信記錄的只有 3.2 億人。也就是說,全國 13 億多人口,有 5 億人在征信系統中只是一個身份證號碼,還有 5 億人完全不在系統內。有征信記錄的人只占到全國人口數的 23.7%,遠低于美國征信體系對人口的 85% 的覆蓋率。而在 P2P 蜂起之前,很多人并沒有注意到這件事。

2、央行征信中心的數據不是你想用就能用

目前,可以接入央行征信中心的金融機構有銀行、持牌照的第三方征信服務商以及部分地區的小貸公司(第一批于 6 月在上海獲批),P2P 平臺尚沒有接入資格。這無疑將加大 P2P 平臺的風控難度。不僅如此,P2P 平臺上的貸款人信息也不能被錄入央行征信系統,各家 P2P 成了一個個信息孤島,他們手中信用數據的價值也得不到充分開發。

3、傳統征信手段存在諸多局限

在數據范疇上,傳統征信數據來自于借貸領域,最典型的就是信用卡消費記錄,這就大大限制了征信數據的來源。 在征信思路上,傳統征信是用昨天的信用記錄來判斷今天的信用價值,這未見得就是最合理的思路。在征信技術上,傳統的方法是從線下采集信用數據,即使在 P2P 網貸業務中,也只能暫時照搬這套方法。

來看看目前國內 P2P 平臺的征信邏輯:先考慮用戶的數據拼圖里需要哪些資料,能夠電子化獲取的就電子化,不能做到的,就讓用戶自主上傳,然后通過其他線上或線下手段驗證。目前,以有利、積木盒子等為代表的與線下小貸公司或擔保公司合作的 P2B 網貸平臺更多是通過合作的小貸公司或擔保公司來獲取借貸人的征信數據,主要是電話征信和實地考察征信,這都是傳統金融機構的風控方式,效率比較低。當然,也有積極踐行線上征信的 P2P 平臺,比如宜人貸、拍拍貸??梢哉f,傳統的線下征信技術限制了數據來源和信用評估思路,而互聯網的技術、工具和思維具備了改變這一切的可能性。

其實,信用數據不僅僅是應用在金融領域中,生活中各種涉及履約的場景都需要人們的信用數據。在一個成熟的信用社會中,人們的每一項商業行為都應與他 的信用數據相掛鉤,從而形成一個信用數據的良性循環。也正因為如此,很多在美國做的風生水起的商業模式搬到中國來卻無法成功,比如各種短租業務,其核心問 題之一就是國內缺乏一套完善的信用評估體系。

宜信“大數據金融”的玩法

當金融遇上大數據,這個缺失已久的信用體系有了搭建的可能性,這也是唐寧成立宜信大數據中心的初衷。Joyce 將宜信在大數據金融上的探索方向描述為“金融云平臺”。

顧名思義,這會是一個開放的平臺架構:既能支撐宜信自己的 P2P 業務(比如宜人貸、與 eBay 合作的商通貸),也能開放給其他生態合作伙伴,讓這個生態中的伙伴們共同建設、共同受益。

  • 金融知識圖譜是平臺的基礎

金融云平臺擁有一般云平臺的特點:分布式存儲、分布式計算框架、虛擬化環境,但與一般的云平臺的差別在于,這是一個基于金融業務的云平臺,其中必然包含特定的業務邏輯。宜信將風控、反欺詐、獲客能力等核心的金融邏輯抽象出來,作為金融云平臺的內核。

金融知識圖譜是平臺的基礎,在這個基礎上能長出很多應用場景,比如獲客、實時授信、產品個性化推薦、貸后管理等。

知識圖譜這個概念最早是由 Google 提出的,是搜索引擎往下一階段演進的過程中發展出來的。這其中包含兩個方面:實體的畫像,實體間的關系

實體的畫像其實就是我們常說的“用戶畫像”,很好理解。而實體間的關系是 Joyce 特別強調的一點。原來做用戶畫像時,畫像之間是彼此獨立的,但這并不符合現實生活中的場景:人并不是獨立存在的,人與環境中的萬物都是有關聯的。如果說每 個人是知識圖譜中的節點,那么人與環境所形成的關系就是兩點間的線。當把“點和線”綜合起來分析時,我們對個人的性格特征、信用狀況、財富屬性都會有更深 層、更全面的理解。

  • 豐富的數據來源是平臺的養分

互聯網技術和工具的引入使得數據采集從線下逐漸轉移到了線上,也使得數據體量迅速變大。目前,宜信金融云平臺所采集的數據主要是以下幾類:

1、宜信已有的數據

宜信在 P2P 行業有 8 年積累,用戶已過百萬。實際上,只要與宜信有過接觸的用戶,不管是在哪個環節終止了接觸,都被視為宜信的重要數據資產。他們有的曾提交過信用報告、聯系人 信息、教育水平、工資單、銀行流水等一系列傳統征信數據,有的則僅僅留下了一些搜索和訪問數據。

值得慶幸的是,宜信自成立以來便非常重視數據的電子化,因此大大減輕了將線下數據進行數字化的工作量。不過,宜信業務線眾多,Joyce 告訴我們,將不同業務線里沉淀下來的數據打通也是一件很費勁的事情。

2、搜索引擎抓取

Zest Finance 的 CEO Merill 認為,信貸記錄屬于強變量,而當強變量缺失的時候,就可以參考多種弱變量(比如互聯網上的行為數據),將這些弱變量組合起來也可以服務于信用評估。

同樣是基于這種思路,宜信自己做了一個叫做“宜搜”的搜索引擎。在獲得用戶授權許可的情況下,搜索引擎會抓取用戶在互聯網上留下的電商購買數據、搜 索引擎數據、社交數據等多個維度的數據。除此之外,還有大量散落在網上的公開數據,這些數據也會被宜搜所抓取。這兩類數據將通過特定的算法模型轉化為信用 評估數據。

3、來自合作伙伴的數據

這里的合作伙伴既包括線上的也包括線下的,不過 Joyce 并沒有透露現在正在參與合作的公司有哪些。我猜測,線下的合作機構可能包括小貸公司、租車公司、房屋中介等可能產生業務協同的機構,線上的合作對象則有更多可能性了,比如各種互聯網金融服務商。

有一個繞不開的問題,那就是如何保證數據的真實性,其實這是所有的大數據分析都會遇到的問題。其實,任何人也無法保證數據完全真實、沒有噪音,可以做的就是對不同的數據源進行關聯和交叉驗證。Joyce 說:“我們并不是在盲目的追求線上實時授信,如果沒有足夠的數據來做交叉驗證,我們還是會采取線上線下相結合的方式?!?/p>

  • 機器學習是平臺的核心

采集數據的目的是通過相應的數據分析和挖掘技術輸出每個人的信用評估結果。在傳統的數據處理領域,分析師們處理的主要是結構化數據,而如今我們面對 的是從網上抓取的大量非結構化數據,如社交網絡的評論、用戶上傳的音視頻等。這些數據存在于包括文本、圖片、視頻、音頻等眾多的數據格式中,其中蘊藏的信 息需要深度計算才可以分析出來。這就需要通過機器學習進行智能化分析。

根據過往的業務經驗,Joyce 團隊會給這個“挖掘機系統”預設一些規則引擎(可以理解為一些基礎的算法),引導系統做出一些基本的判斷和決策。比如,沒有收入的人會被直接排除在借款人群之外。

但是,這都是些基礎規則,而且是基于現有數據和經驗生成的。一旦充入大量新數據,這些既有規則引擎則會發生變化。無論是修訂現有規則還是獲得新的規則,都需要通過機器學習來實現。

當然,機器學習是一個動態的過程——要通過不斷加大數據變量來修正機器學習的模型。只要池子里變量的維度多到一定程度,模型就會趨于穩定。舉個例 子,如果你買一支股票,你的收入就全都取決于這只股票的漲跌;但如果你分散投資 1000 支股票,從統計學角度,即使其中一只股票暴跌,也不會對你的整體資產走勢產生影響。只要數學邏輯正確,采用的變量越多,模型就越準確。而且,數據維度的不 斷豐富也能讓機器在不斷學習的過程中變得越來越智能。

宜信的第一批機器是在今年 4 月上線的,里面正跑著數以萬計的變量。未來,收集和整理數據的門檻會降低,而利用機器學習進行數據分析和挖掘的能力會成為關鍵。

數據的價值

人人有信用,信用有價值。大數據能改變的不僅是金融行業。在一個真正市場化的社會中,各行各業都對個人信用評估有訴求,因此,基于大數據的個人信用 評估結果可以成為很多商業活動的基礎。如今,通過將用戶的互聯網行為數據轉化為 “互聯網信用”后,這些數據也開始變得有價值起來。

  • 數據定價

既然數據都是有價值的,那么是否可以給數據定價?“應該理解為價值交換”,Joyce 更正了我的說法,“數據的價值剛剛被喚醒,現在談定價、收費還為時過早?!?/p>

目前,宜信已經與一些線下機構和線上互聯網服務商建立了數據合作關系,但各家的合作方式都不太一樣。尤其是對于不同行業來說,服務提供商的訴求差異 巨大。Joyce 說:“我們也希望與不同合作伙伴來探討適合彼此的價值交換方式。經過一段時間的合作,我們會逐漸建立一套針對不同數據提供商的價值交換模型和方法論?!?/p>

  • 數據變現

Joyce 好幾次都提到了“數據變現”的概念?;ヂ摼W行業里有很多這樣的服務提供商:他們有用戶、有流量、有數據,但卻找不到自己的商業模式。又或者,即使有自己的商業模式,很多服務提供商手中的數據也遠沒有發揮什么作用。“數據變現”為他們提供了一個通過數據完成價值增值的思路。舉兩個例子:

  • 為商家提供額外的變現渠道。以宜信與 eBay 合作的“商通貸”為例:eBay 可以專注的做自己的電商生意,而如果 eBay 上的用戶或商家有分期或者融資的需求時,eBay 只需開通相應的頻道,并把用戶數據授權給宜信進行處理,宜信來完成用戶信用的評估并完成分期產品推薦、貸款實時授信等。
  • 幫商家提高用戶轉化率。中國有很多租賃場景都是需要交押金的,而交押金往往會影響平臺的轉化率。因此,宜信在與各種租賃公司嘗試一種合作: 租賃公司把用戶的信息給宜信,宜信再結合自己抓取的一部分數據對用戶進行信用評估,給出一個“信用價值”,從而免去用戶的押金,并扮演平臺的擔保方,甚至 能提供租后管理服務。

不是競爭對手,是盟友

國內想通過大數據做開放金融云平臺的不止宜信一家,別忘了最有名的那家——螞蟻金服。在螞蟻金服的成立活動上,其 CFO 井賢棟曾說過:“螞蟻金服將以小微企業和普通消費者為主要用戶,建立以數據、技術、交易這三個開放平臺為核心的金融生態,支持和幫助合作伙伴,共同為用戶創造價值?!?/p>

這和宜信的愿景不謀而合,不過,在 Joyce 看來,談彼此間的競爭還為時過早。在國內,通過大數據搭建信用體系這件事還處于非常早期的探索階段,大家各自有優勢,但還沒有誰已經走通了這條路?!叭绻磥碛锌赡埽覀兎浅芬馀c螞蟻金服合作?!?/p>

其實,除了宜信、阿里這樣打算做“生態系統”的平臺,大數據金融場內的玩家還有不少。比如各種尚未走到生態系統層面的第三方大數據平臺,舉幾個例子:國內最早提出做大數據征信的閃銀(類似 Zest Finance)、從 SaaS 系統切入數據服務領域的中科柏誠、為線下 P2P 公司提供大數據服務的數信網。另外,還有一些在利用大數據支撐自身互聯網金融業務的公司,比如拍拍貸(類似 Lending Club)、元寶鋪(類似 Kabbage)。

但是,所有機構手中的數據都是片面的數據,尤其是對于 BAT 這樣的巨頭來說。這也是為什么,在 Joyce 看來,平臺間的合作遠比盲目的競爭更有利于行業的成長?!斑@個市場非常大,完全可以容納多個開放平臺同時存在。如果有更多的人愿意踏踏實實的做金融開放平 臺,這對行業、乃至整個小微人群是非常有益的。”

即使是在未來的金融生態中,合作也應該大于競爭?!吧鷳B系統” 本身便是一種商業模式。金融業的生態系統長什么樣?它將以云計算、大數據為底層,信用體系為基礎,支撐包括支付、投融資、理財、保險、銀行等在內的多種業務。

“在美國,信用是一張個人通行證。而對于中國來說,這是我們走向一個真正市場化的商業社會的過程中必然會達到的階段。未來,我們會有多個信用評估機構,每個機構都有自己的一套信用評估體系,而大家對信用的認識能夠嵌入到各行各業的商業活動中?!?/p>

這大概就是在國外大數據領域鉆研了 15 年后卻帶著團隊義無反顧回到國內的 Joyce 想看到的一天吧。

 

原文來自:36KR

作者:張雨忻

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 去年看到這篇文章的的時候,也和第一位留言者一樣認為這是水文,但今天,在網貸之家的排名,看到宜人貸排名超過陸金所??赡芎髞淼娜丝吹竭@條消息,會覺得不以為然,但是陸金所真的排了很久的第一了?!斑@大概就是在國外大數據領域鉆研了 15 年后卻帶著團隊義無反顧回到國內的 Joyce 想看到的一天吧?!庇行r候真的要堅定不移的相信自己可以創造未來。

    來自浙江 回復
  2. 水文

    來自上海 回復