借助Canvas黑魔法,實現營銷增益模型Uplift Model

2 評論 3593 瀏覽 10 收藏 16 分鐘

編輯導語:運營人員要如何結合數據分析,找到營銷敏感人群,提升觸達和轉化效果,降低營銷成本?不妨看看本文作者的案例剖析吧。在本篇文章里,作者結合Amazon SageMaker Canvas產品進行了營銷場景建模實踐,一起來看。

在后互聯網時代,隨著營銷成本的高漲,如何從存量人群中精準找到營銷敏感人群進行觸達,進而提高ROI一直是業務中重要的課題。

這樣的業務場景需求也同樣延伸到對數據分析師能力的考察上,例如有這樣一個高頻業務面試題:如果餓了么打算給用戶精準發券,如何預測哪些用戶會使用?

到業務層面討論問題,之所以要預測會使用優惠券的人群,目的是在成本有限的前提下,使營銷產出最大化,而這關鍵的一點就是要找出真正被營銷打動的人,即營銷敏感型人群。

一、營銷增益模型理論

在數字營銷領域,有一個經典的營銷增益模型uplift modeling,可以幫助我們達成該目標。

uplift模型根據營銷干預(比如優惠券)和干預結果(是否購買)兩個維度把用戶分為四類:

  1. 營銷敏感人群 Persuadables:不發送優惠券則不買,發送優惠券則購買;
  2. 自然轉化人群 Sure things:不論是否發送優惠券均會購買;
  3. 流失人群 Lost causes:不論是否發送優惠券均不會購買;
  4. 反廣告人群 Sleeping Dogs:不發送優惠券會購買,發送優惠券反而不買。

為達到營銷轉化效率最大化,我們的思路就是識別出營銷敏感人群(Persuadables)群體,對他們發放優惠券。

在討論如何找到營銷敏感人群之前,先來看看如何從數據層面定義這群人?因為數據預測是基于概率思維,所以可以把前面對人群的定義用概率替換:發券時,購買的概率大;不發券,購買概率小。進一步可以分別在發券以及不發券時計算期望收益,得到收益差。

這個收益差就是“增益”,增益越大,那就可以認為這個人受優惠券的影響越大,也就是說該人是營銷敏感型的概率也就越大。

所以,以終為始來看最終要得到的模型是怎么樣的:

  1. 輸入用戶、以及是否給券的信息,輸出期望收益(消費金額);
  2. 把給券和不給券時的金額做差,就得到優惠券對這個人的增益。

至此,我們就知道了模型的原理,現在需要去收集數據進行建模。但是又有一個問題:在同一場景下,我們是無法同時得到一個人給券時的消費金額和不給券時的消費金額。這是因果推斷中典型的反事實問題,該如何解決呢?

此時,我們要回歸到建模思維,這里的“人” 不是獨立的個體,而是一組特征集:比如都是25歲、男性、月均收入1w、居住在一線城市、未婚的小明和小亮,從營銷的角度,認為他們具有相同的畫像。從建模思維來說它們都是同樣的“人”。這樣我們就能得到同一個特征集的人,同時給券和不給券的期望收益。

OK,現在就可以從落地角度來看如何找到營銷敏感人群:

  1. 對人群進行分組,進行營銷干預測試,獲得樣本數據。
  2. 從業務層面出發,對用戶特征進行討論。
  3. 基于1.中回收的數據及2.中特征,進行uplift Modeling。
  4. 預測用戶營銷屬性(屬于哪類人群)。

接下來結合業務數據集做落地實踐。

二、建模實踐 Uplift Modeling

1. 營銷干預測試獲得數據

從人群中抽取樣本(64000人)進行測試:對一半會員32040人發券,剩余31960人不發券。

一段時間后,回收數據,結合現有會員標簽看看有什么數據可用:

具體對每個字段的解釋如圖所示。

2. 特征工程

使用pd.get_dummies()就能把數據中字符類型的分類數據進行獨熱編碼(one-hot encoding),形成如圖中的稀疏矩陣。

在理論部分, 我們說可以根據營銷干預(Treament)和干預結果(Response)兩個維度把用戶分為四類,但是在實際業務落地過程中,“反廣告人群”其實是很難檢測的,因此在給會員標記人群分類標簽時,根據反饋結果把人群分成以下四類:

  1. 營銷敏感人群 Persuadables | TR(Treament and Response),命名為0。
  2. 自然轉化人群 Sure things | CR(Control and Response),命名為1。
  3. 流失人群 Lost causes | TN(Treament and No-response),命名為2。
  4. 空白人群 | CN(Control and No-response),命名為3。

至此,我們就完成了特征工程,接下來進入建模階段。

3. Amazon SageMaker Canvas——機器學習建模

在理論階段,我們定義的營銷增益模型是用于預測給券后每個會員的增益,再圈選出增益最大的那部分人群定義為營銷敏感人群。

在實際落地時,有一種更簡單的邏輯,就是直接針對每個會員的特征,判斷該會員是屬于哪個人群,一步到位,然后對營銷敏感人群進行營銷即可。

在機器學習模型中,這屬于多分類模型(Multi-class classification),也就是說,建模的邏輯是輸入會員特征(features),輸出分類標簽(人群分類:TR | CR | TN | CN)即可。

features = [‘消費休眠天數’,? ‘累計消費金額’,? ‘曾使用優惠券’,? ‘曾使用買一送一券’,? ‘人群分類’,? ‘所在區域_農村’,? ‘所在區域_城市’,? ‘所在區域_郊區’,? ‘注冊渠道_手機端’,? ‘注冊渠道_線下門店’,? ‘注冊渠道_網頁端’]

基于標準的機器學習流程,到這一步,我們需要進行模型選擇、調參

  • 模型選擇:可以實現多分類的模型有很多,例如邏輯回歸、決策樹、隨機森林、XGBoost等,需要對不同模型的預測效果作評價對比,選擇最終落地部署使用的模型;
  • 調參:可以借助GridSearchCV工具幫助調參,但是這個過程往往也是最消耗時間、精力的流程。

其實這兩個步驟在實操中屬于較為機械、重復的步驟,為了提高效率,這里我使用亞馬遜云科技的黑魔法:Amazon Sagemaker Canvas來實現。

① 上傳數據

將在特征工程階段形成的數據集拆成建模數據集(train)和驗證數據集(valid)。把建模數據集上傳到Canvas后,它可以自動呈現出各字段的描述,幫助判斷數據的有效性。

在Target Column中選擇輸出的標簽:人群分類,Canvas能自動識別輸入與輸出之間的關系,例如在這個案例中,Model type部分就自動選擇了多分類模型。不必再擔心模型選擇恐懼癥。

② 建模分析

完成數據設置后,就可以進行建模(Standard build),因為Canvas會自動對模型參數進行調優(終于擺脫了被調參支配的恐懼),所以整個建模的過程耗時比較久。

本案例中,建模數據集一共是7.7萬行,11個特征,建模+調參的過程花費了3個小時。不過這個過程完全是在云端進行,絲毫不影響本地電腦進行其他任務(擺脫了以往在本地建模時不敢亂動的苦惱)。

最后生成的模型效果也很好,準確率達到了85%,Canvas會把不同特征在模型中的重要性列出來。在我看來,業務實戰中機器學習建模的重點除了在模型本身之外,還在于“可解釋性”,而這里呈現的特征重要性(Column impact)能幫助分析師在業務層面得到共識認可。

③ 預測

完成建模后,把驗證數據集上傳到Canvas,檢驗模型對新數據的預測準確性與泛化能力。

得到的預測結果如圖,自動把每個會員歸類到不同的人群標簽,及給出對應的概率值。

4. 模型評價

對落地而言,評價營銷增益模型的好壞在于是否能幫助業務增長。

從這個角度,可以借助IRR和NIR指標進行評價:

  • IRR (Incremental Response Rate, 營銷增益響應率) :用于衡量營銷活動帶來的購買率,也就是假設我們營銷活躍嚴格按照模型給出的人群建議進行營銷,最終目標人群中購買人數的比例 減去 非目標人群中購買人數的比例(即自然購買率),就認為是營銷增益模型帶來的增益。
  • NIR (Net Increment Revenue 凈增量收入) :計算營銷活動帶來的收益(假設商品利潤是10元,邊際營銷成本是0.15元)。

計算結果如圖,表示如果嚴格按照模型給出的目標人群進行營銷,最終能帶來的增益是 +18.98%,即2357.65元。

但是這個模型的結果是好是壞還需要有一個標準來做衡量,在實際業務中采用“通發”的策略作為基本策略(Baseline),計算結果如圖,通發策略只帶來了+3%的增益,與1771元。

明顯,此次通過Amazon Sagemaker Canvas黑魔法進行開發的營銷增益模型效果顯著。

三、產品體驗

在機器學習建模流程中,重業務邏輯的部分主要集中在數據清洗、特征工程環節,真正建模、調優的過程大部分情況下是比較機械、但難度高、耗時長,亞馬遜云科技把這部分繁瑣的工作單獨提出來打造成Canvas數據產品,能極大提高數據分析師建模效率的同時,能讓分析師把更多精力放在重要的業務邏輯構建上。

餅干哥哥用過同類型的國內某電商平臺的A產品。對于測試樣本比例、模型選擇、模型參數等,A產品需要使用者需要耗費較多精力進行測試,但是它卻無法提供線上的Gridsearch CV能力,所以使用起來成本較高,非常依賴經驗。

A產品界面

A產品界面

對比而言,Amazon SageMaker Canvas的使用及界面都是極簡風格,它把復雜的模型選擇、調參等過程自動化處理,使用者只需關注輸入前的特征工程,以及模型的預測落地即可。不僅是數據分析師,連運營業務、產品經理等人群不需要掌握復雜的算法原理、甚至是無需代碼都能輕松完成精準的模型開發,極大降低了機器學習的門檻。

最后,雖然Amazon SageMaker Canvas有提供諸如混淆矩陣及準確率、召回率、F1值、AUC值等評價指標,但例如在此次實操案例中,需要的評價指標是更靠近業務的計算邏輯,因此,如果Amazon SageMaker Canvas可以開放自定義驗證/評價邏輯的能力,能或許可以更好地幫助完成模型在業務落地的“最后一公里”。

 

本文由 @餅干哥哥 原創發布于人人都是產品經理。未經作者許可,禁止轉載。

題圖來自Unsplash,基于CC0協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 還沒有試過用可畫做ppt欸,下次可以試試,感覺非常的方便和現代化。

    來自江西 回復
  2. 餅干分析的很詳細專業性很強,就是代碼不太明白看不懂!

    來自湖北 回復