基于XGBoost特征選擇方法在業務中的應用

0 評論 1494 瀏覽 8 收藏 6 分鐘

本文介紹了一種使用XGBoost機器學習方法來篩選具有高轉化潛力的客戶群體的策略。通過實例分析,我們展示了如何利用XGBoost模型進行特征選擇,以及如何根據這些特征設計精準的營銷活動,顯著提高營銷效果和業務收益。

一、應用場景

在營銷活動名單下發以及空網付費券包的人群篩選等推廣環節中,很重要的一個環節是如何準確挑選出最有潛力的客戶進行線上線下的營銷接觸,以求增加下單轉化,從而提升業務效益。

因此,在各類營銷活動中,我們需面臨如何準確識別有效用戶的挑戰。

本文將提出并應用一種機器學習方法—XGBoost特征選擇進行更為精細的營銷人群識別,從而協助我們更準確篩選出潛在的營銷目標群體。

二、解決方案

通常營銷目標群體含括了許多不同的特征屬性,如年齡、性別、寄件頻率、興趣區域、居住地、手機型號、常用寄件/收件類型等等。

我們可以運用機器學習的方法來確定具有高潛力營銷價值的目標群體特征,并據此制定針對性的營銷策略。

1. XGBoost概念

XGBoost是一種機器學習系統,全稱是eXtreme Gradient Boosting,簡稱XGB,是GBDT算法的一個變種。

它是一種監督算法,是boost算法的一種,也屬于集成學習,是一種伸縮性強、便捷的可并行構建模型的Gradient Boosting算法。它高效地實現了GBDT算法并進行了算法和工程上的許多改進,可用于分類、回歸,排序問題。

由陳天奇等人于2014年開發,以優化的方式增強其性能和速度。逐漸被越來越多的數據科學家采用,并在許多機器學習比賽中脫穎而出。

2. XGBoost基本原理

XGBoost算法的基本原理如下:

1)初始化一個弱學習器(通常是決策樹),并計算該學習器的預測值和損失函數;

2)算法計算損失函數對于當前預測值的梯度。梯度可以被理解為損失函數在當前預測值處的斜率,它給出了優化損失函數的方向;

3)算法使用新的學習器去預測梯度,而非真實的標簽。新的預測值等于原始預測值加上學習率乘以梯度的預測值;

算法反復執行步驟2和步驟3,直到損失函數達到最小值或者達到預設的迭代次數。最后,所有學習器的預測值被加權求和,得到最終的預測結果。

3. 數據模型應用流程

在探索中,我們總結了一套適用于線增業務中的數據建模流程,具體如下:

三、應用案例

以某頭部App電商退貨目標客戶篩選為案例,通過xgboost特征選擇方法實現目標人群的圈定,通過如下小程序彈窗形式進行營銷。

我們基于前6個月的歷史數據提取樣本:

1)目標變量: 退貨率;

2)自變量:會員等級、手機品牌、收件AOI區域、托寄物、性別、年齡、城市等等(由于類別存在中文分類,故采取獨熱編碼進行轉化)。

在完成樣本預處理后,我們構建XGBoost特征重要度模型(采用網格搜索尋找模型最佳參數),核心代碼如下:

通過模型,我們完成特征重要度輸出,具體效果如下:

根據模型結果輸出策略,電商退貨率高的客群特征標簽(也可以進行特征交叉組合),進而與電商收件高且無退貨的客群做特征交集,從而篩選出一個目標客群來做精準營銷。

活動策略通過AB測試評估,實驗組(通過本文提到XGBoost篩選特征人群)整體下單轉化相較對照組提升30+%,投放期間帶來直接增收數十萬元。

【備注:對照組1:為業務人員根據經驗圈選人群規則;對照組2:根據傳統決策樹方法圈選的人群規則】

本文由 @yyandbb415 原創發布于人人都是產品經理,未經許可,禁止轉載

題圖來自Unsplash,基于 CC0 協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!