資深數據科學家告訴你:機器學習,如何促進互聯網信貸業務增長

2 評論 6642 瀏覽 34 收藏 12 分鐘

公司的日?;顒颖举|上都是為了帶來業務的持續增長。為了達成這一目的,各行各業的公司采取的方法會有所不同。今天,我們來探討一下在大數據背景下,蓬勃發展的消費金融行業,如何通過機器學習的方法實現業務增長。

消費金融行業天生是一個數據驅動的行業,它往往通過互聯網的渠道,非常便捷高效地對海量的消費者提供服務。從中,用戶數據沉淀了下來。有了數據就有了生產資料,我們才能更好地通過利用數據來實現業務增長。而機器學習就是一門能通過算法自動進行數據分析和挖掘從而達成業務目標的有效技術,它可以滲透到業務每個環節并提供針對業務目標的不斷優化。具體如何來操作呢?

基本上,對于一個業務問題,我們可以把它拆解為一系列的環環相扣的流程節點,當每個節點的問題都得到有效優化而解決的時候,業務自然會增長。以貸款產品或業務為例,我們可以用以下框架來表述:

這個框架將一個貸款業務增長問題用一個數學公式表示,即由大盤用戶數、貸款用戶占比、人均訂單數、訂單通過率和單價五個環節相乘。很明顯,在其它條件不變的情況下,任何一個環節的增長都會帶來最終業務收入的增長。而在這個框架的背后,則是由大數據、機器學習及人工智能等技術來支持,進而有效的優化或解決其中的某些問題。

首先,我們要解決產品的獲客或流量來源問題

在互聯網的背景下,目標用戶來源通常由自然流量和付費流量組成。自然流量通常是通過用戶下載了APP、朋友等人的推薦、新聞報道、渠道合作等途徑而帶來的。按照增長黑客的理論,比較理想的效果是產品形成良好的口碑而產生用戶病毒式傳播,從而帶來大盤用戶爆炸式增長。

這里要考慮的一個問題是哪些用戶愿意去分享傳播產品并且能帶來大量新增用戶。我們可以基于現有用戶數據用機器學習結合關系網絡圖挖掘算法去解決。

 

付費流量就是通過互聯網廣告投放帶來的。這種流量通常都是掌握在幾家大媒體手里,我們選擇廣告投放的時候必然要考慮投入產出問題,即如何制定合理的投放策略以高性價比來獲取用戶。機器學習技術能帶給我們解決方案。

舉個例子,如果我們通過搜索廣告平臺來獲取用戶,除了創意要考慮外,關鍵一點在于如何選擇關鍵詞以及如何為每個關鍵詞出價。關鍵詞決定了我們能獲取的目標人群范圍,基于大數據,機器學習技術能高效自動幫助我們選出哪些關鍵詞是我們應該考慮的。而在廣告競價過程中,有預算限制的前提下,關鍵詞的出價則可以用數學規劃或強化學習算法來解決。

第二,我們要考慮貸款用戶占比問題

在一個產品體系里,可能并非所有的大盤用戶都是貸款用戶。而且貸款是一種低頻行為,部分用戶不會一進來就貸款,而是會在有資金需求的時候產生借貸行為。因此,我們很有必要精準識別出那些真正有資金需求的人群或潛在貸款用戶。當這種人群數量不斷增加的時候,總體業務也會隨之持續增長。

在人群識別問題上,機器學習技術是一個高效的工具。人群識別往往可以建模為一個分類問題,通過將用戶的各種數據表示成特征,機器學習算法可以高效精準的識別出哪些用戶是需要貸款用戶。這是當今機器學習技術最成功的應用領域-有監督學習,有許多算法可以使用,比如LR,GBDT/XGBoost,隨機森林等等。

另外,基于用戶社交網絡數據,我們還可以通過圖計算挖掘的方式識別出其中的資金需求群體。針對這些潛在貸款人群,我們可以通過運營活動去觸達,促進他們成為我們的下單用戶,帶來業務增長。

第三,我們要考慮如何提高人均訂單量

這里的一個關鍵問題是如何提升用戶提交訂單率,這是一個可以長期通過機器學習算法迭代優化的指標。這主要決定于三方面的要素:用戶所屬的人群屬性、當前在產品上的行為屬性、以及何時以何種方式何種內容觸達用戶。

用戶的人群屬性是指用戶有無資金需求,是否費率敏感類人群,是否重復貸款類人群等等,這些用戶都可能會下單。用戶的行為屬性是要根據當前用戶在產品的上下文活動情況來判斷其是否會下單。觸達用戶就是要在恰當的時機以恰當的方式(比如短信、push、廣告資源位等)及恰當的內容(比如文案、免費券、紅包等)傳達給用戶從而促成其下單。

在這一環節,用戶畫像系統、推薦系統、自動化運營系統等等將一起配合運作高效地發揮作用,機器學習技術貫穿始終。通過這些系統,我們還可以建立用戶響應模型來促進用戶的活躍度,建立用戶流失預警模型而減少用戶流失,建立用戶LTV模型而提高用戶留存,這些都將有助于提高用戶提交訂單量。

第四,我們還要考慮如何提高訂單通過率

這是金融業務的核心環節-風控,它決定著整個業務能否良性持續發展。如果說前面幾個營銷環節是為了放量,那么風控環節是為了收,但要有的放矢的收。

風控效率的提高將有助于極大提高訂單的通過率。這里面有兩個關鍵問題要解決:用戶的欺詐概率和違約概率預估,分別對應用戶的欺詐風險和信用風險。我們要盡力把欺詐風險高或信用風險高的用戶拒于門外,把好用戶放進來。這涉及到如何精確的識別欺詐概率高的用戶和違約概率高的用戶。

在互聯網金融的環境里,這些都是比較困難的問題。一方面,用戶貸款是否按時歸還的反饋周期比較長,通常要一到兩個月才有表現;另一方面,用戶存在多頭借貸和團伙欺詐的行為,這些數據往往難以獲??;最后,經過風控系統后,絕大部分用戶已經被拒絕而無法表現出欺詐或違約,真正有表現的用戶比例往往可能不足3%,這帶來了后續模型建模樣本的有偏性和不平衡性。

基于大數據的機器學習技術將為這些問題提供有效的解決方案。機器學習模型的快速迭代機制有助于減輕反饋周期過長問題;結合第三方數據,應用圖計算技術將有助于識別多頭借貸和挖掘欺詐團伙;機器學習的半監督學習算法及針對樣本不平衡的算法有助于解決樣本有偏及不平衡問題。此外,在風控的信審環節,機器學習技術可以通過建模預測進行決策,極大縮短訂單審核時長,提高用戶體驗,促進業務量增長。

最后,我們要考慮訂單定價問題,即如何給用戶定貸款額度和貸款利率

這決定著整個業務的收入及利潤。貸款業務的定價本質是基于風險的定價,建立風險定價體系需要綜合考慮經營成本、目標利潤率、資金供求關系、市場利率水平、客戶風險等因素。

金融學里對風險定價問題有一套較完整的數學理論描述,我們可以借鑒實踐?;诖髷祿蜋C器學習方法進行風險定價,我們也可以去探索,目前來看還是一個開放性研究課題。

總結

總的來說,在這篇文章里,我們建立了一個業務增長的框架,來考慮貸款業務增長問題??梢钥吹?,在這樣的框架下,基于大數據的機器學習技術發揮著重要的作用,有助于解決各環節遇到的問題,不斷地優化各種指標,從而帶來業務的持續增長。在后續的篇章里,我們將會繼續分享我們的實踐,包含圍繞這一增長框架而生的各種產品、技術和算法。

 

本文由 @51智慧金融(微信公眾號) 翻譯發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自PEXELS,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 我想問下,收入的計算里為什么不將貸后的壞賬占比加上?

    來自江蘇 回復
  2. 歡迎交流和合作,作者微信號976619964,個人微信公眾號(51智慧金融社區)

    來自浙江 回復