該把優(yōu)惠券發(fā)送給哪些用戶?一文讀懂Uplift模型

0 評論 16327 瀏覽 36 收藏 12 分鐘

編輯導(dǎo)語:隨著互聯(lián)網(wǎng)和人工智能的普及化,個性化營銷已經(jīng)滲透到了我們生活中的方方面面。而如何找到真正的營銷敏感人群,將更多的預(yù)算投入到可以帶來“增量”的用戶上,以提升整體營銷ROI,成為了后時代精細(xì)化運營的關(guān)鍵。uplift模型可以很好的解決這一問題,本文將介紹此模型以及其如何應(yīng)用于智能營銷的底層原理。

一、什么是Uplift模型?

用一個簡單的例子來介紹此模型。假設(shè)我們是個電商平臺,一件標(biāo)價300元的商品,用戶的購買率為6%。現(xiàn)有一批預(yù)算可以給用戶發(fā)放10元的優(yōu)惠券以提升用戶購買率。需要給每個用戶都發(fā)放優(yōu)惠券嗎?答案顯然是否定,那么這批優(yōu)惠券應(yīng)該發(fā)送給平臺的哪些用戶呢?

此時我們腦海中有四類用戶:

  • Persuadables:不發(fā)送優(yōu)惠券則不買,發(fā)送優(yōu)惠券則購買;
  • Sure things:不論是否發(fā)送優(yōu)惠券均會購買;
  • Lost causes:不論是否發(fā)送優(yōu)惠券均不會購買;
  • Sleeping Dogs:不發(fā)送優(yōu)惠券會購買,發(fā)送優(yōu)惠券反而不買。

該把優(yōu)惠券發(fā)送給哪些用戶?一文讀懂Uplift模型

左上的Persuadables(說服型)類用戶被發(fā)券后產(chǎn)生了正向變化,從不買轉(zhuǎn)化為購買,干預(yù)后購買率得以提升,此部分是我們真正想要進(jìn)行觸達(dá)干預(yù)的營銷敏感用戶

而右上的Surethings(確認(rèn)型)類用戶以及左下的Lostcauses(沉睡型)用戶無論是否發(fā)券均不會改變其原本的購買行為,對這部分用戶發(fā)送優(yōu)惠券則會造成資源浪費。右下的SleepingDogs(勿擾型)用戶對營銷可能相對反感,干預(yù)會產(chǎn)生反效果,這類用戶我們盡量避免打擾。

Uplift模型要解決的問題就是通過建模預(yù)測的方法精準(zhǔn)的去對這四類用戶進(jìn)行分群。我們獲取到的訓(xùn)練訓(xùn)練數(shù)據(jù)是不完整的,對于單個用戶來說,不可能同時觀測到在有干預(yù)(發(fā)券)和沒有干預(yù)(不發(fā)券)兩種情況下的表現(xiàn),這也是因果推斷中的反事實的問題。

可以從用戶的角度來對平均因果效應(yīng)做估計,假如我們有兩組同質(zhì)用戶,對其中一組用戶發(fā)券,另外一組不發(fā)券。之后統(tǒng)計這兩群人在購買轉(zhuǎn)化率上的差值,這個差值就可以被近似認(rèn)為是可能的平均因果效應(yīng)。

Uplift建模需要服從CIA條件獨立假設(shè),最簡單的解決方式就是ab實驗。因為樣本在特征上分布較為一致,因此隨機(jī)實驗是Uplift Model建模過程中非常重要的前置條件。若隨機(jī)實驗下各個類別用戶組數(shù)量性質(zhì)較相似,則此Uplift模型即可較精準(zhǔn)的預(yù)測給用戶發(fā)放優(yōu)惠券的收益。

首先,我們選取部分用戶(小流量實驗,樣本量足夠建模)隨機(jī)分為實驗組和對照組,對照組不發(fā)優(yōu)惠券,實驗組發(fā)放優(yōu)惠券,用戶最終是否購買為一個0-1變量;

然后,對整體實驗數(shù)據(jù)用戶購買行為進(jìn)行建模;

最后,再用小流量實驗訓(xùn)練得到模型對我們需要預(yù)測的全量用戶進(jìn)行條件平均處理效應(yīng)估計,預(yù)測其發(fā)放優(yōu)惠券所帶來的增益值;

假設(shè)有N個用戶,用戶i在沒有優(yōu)惠券的購買結(jié)果為Yi(0),在有優(yōu)惠券時購買結(jié)果為Yi(1),此時發(fā)送優(yōu)惠券對該用戶的增益就是uplift score (i)=Yi(1)-Yi(0)。當(dāng)uplift score為正值時,說明干預(yù)項對用戶有正向增益作用,也就是上文所提到的Persuadables(說服型)用戶。

二、幾種建模方法

1. Two-Learner

Two-Learner是基于雙模型的差分模型,我們對實驗組(有干預(yù))和對照組(無干預(yù))的購買行為進(jìn)行分別建模,然后用訓(xùn)練所得兩個模型分別對全量用戶的購買行為進(jìn)行預(yù)測,此時一個樣本用戶即可得出有干預(yù)和無干預(yù)情況下兩個購買行為預(yù)測值。這兩個預(yù)測值的差就是我們想要的uplift score。

這種建模方法較簡單且易于理解,可以直接用回歸、GBDT等模型實現(xiàn)。但也存在一些局限性:對照組和實驗組分別建模,兩個模型完全隔離,可能兩個模型各有偏差從而導(dǎo)致預(yù)測的誤差較大。其次建模的目標(biāo)是Response而不直接是Uplift,因此模型對Uplift的預(yù)測能力較有限;策略只能是離散值,不能是連續(xù)變量,因為有幾種策略就需要建幾個模型。

所以當(dāng)干預(yù)條件只有‘是否發(fā)優(yōu)惠券’時,此建模方法可行,但是當(dāng)涉及到‘多種優(yōu)惠券面額/文案組合策略’或者‘發(fā)多大面額優(yōu)惠券這種連續(xù)變量策略’時,本種建模方法可能并不非常work;

2. Single-Learner

Single-Learner在Two-Learner的基礎(chǔ)上,將對照組數(shù)據(jù)和實驗組數(shù)據(jù)放在一起建模,使用一個模型對處理效果進(jìn)行估計,然后計算該樣本用戶進(jìn)入實驗組和對照組模型預(yù)測的差異作為對實驗影響的估計。

與Two-Learner不同的是,本模型將實驗分組(干預(yù)項)作為一個單獨特征和其他變量一起放入模型中對用戶購買行為進(jìn)行建模,干預(yù)項可以是多種組合策略或者連續(xù)變量。

訓(xùn)練樣本共用可以使此模型學(xué)習(xí)更加充分,通過單個模型的學(xué)習(xí)也可以避免雙模型打分累積誤差較大的問題。此外模型可以支持干預(yù)項為多策略及連續(xù)變量的建模,實用性較強(qiáng)。但此模型在本質(zhì)上依然還是對Response建模,對Uplift的預(yù)測還是比較間接。

3. Class Transformation Method

Class Transformation Method模型既可以將實驗組與對照組數(shù)據(jù)打通,同時它又是直接對Uplift score進(jìn)行預(yù)測,計算用戶在實驗組中購買概率與在對照組中購買概率的差值,其核心思想是將實驗組和控制組樣本混合并創(chuàng)建新的變量z滿足:

  • 當(dāng)用戶在實驗組(發(fā)券)且用戶最終購買時,z=1
  • 當(dāng)用戶在對照組(無干預(yù))且用戶最終未購買時,z=1
  • 當(dāng)用戶在實驗組(發(fā)券)且用戶最終未購買時,z=0
  • 當(dāng)用戶在對照組(無干預(yù))且用戶最終購買時,z=0

可以證明,P(Z=1│Xi)和Uplift Score是線性正相關(guān)的,且當(dāng)實驗組與控制組樣本比例為1:1時,Uplift Score =2P(Z=1│Xi)-1,目標(biāo)從預(yù)測UpliftScore轉(zhuǎn)化為了預(yù)測P(Z=1│Xi)

三、Uplift模型評估

根據(jù)Uplift Score的定義,分?jǐn)?shù)越高的用戶即所謂的營銷增益就越大。增益模型由于不能同時觀測同用戶在不同干預(yù)項下的真實增量,通常是通過劃分十分位數(shù)來觀測實驗組用戶和對照組用戶樣本來進(jìn)行間接評估。

1. Uplift 十分位柱狀圖

將測試集預(yù)測出的用戶按照Uplift Score由高到低平均分為10組,分別是top 10%用戶,top 20%用戶……top 100%用戶。分別對每個十分位內(nèi)的用戶求實驗組和對照組預(yù)測分?jǐn)?shù)的均值,然后相減,計算不同分段中真正的實驗提升收益。然后根據(jù)每個分組得出的實驗收益,繪制十分位柱狀圖。這樣,即可較直觀觀察到有多少的用戶大概可以獲得多少的營銷增益。

該把優(yōu)惠券發(fā)送給哪些用戶?一文讀懂Uplift模型

2. qini曲線(qini curve)

計算每組用戶百分比的qini系數(shù),將這些系數(shù)連接起來,得到一條qini曲線。qini系數(shù)公式如:

該把優(yōu)惠券發(fā)送給哪些用戶?一文讀懂Uplift模型

?是按照Uplift Score由高到低排序的用戶數(shù)量占實驗組或?qū)φ战M用戶數(shù)量的比例,?= 0.3即表示實驗組或?qū)φ战M中前30%的用戶。nt,y=1(?)表示在前百分比多少用戶中,實驗組中預(yù)測結(jié)果為購買的用戶數(shù)量。nc,y=1(?)表示在同樣百分比用戶中,對照組預(yù)測結(jié)果為購買的用戶數(shù)量。Nt和Nc則分別代表實驗組和對照組總用戶樣本數(shù)。

該把優(yōu)惠券發(fā)送給哪些用戶?一文讀懂Uplift模型

上圖橙色線是隨機(jī)曲線,qini曲線與隨機(jī)曲線之間的面積作為評價模型的指標(biāo),面積越大表示模型結(jié)果遠(yuǎn)超過隨機(jī)選擇的結(jié)果??梢钥吹疆?dāng)橫軸為top40%時,qini曲線與隨機(jī)曲線之間距離最大,對應(yīng)的縱軸大概是0.037,表示uplift score等于0.037可以覆蓋前40%的用戶數(shù)量,這部分用戶也就是我們可以對其進(jìn)行營銷干預(yù)的persuadable用戶。

但如果實驗組和對照組用戶數(shù)量不平衡,則會導(dǎo)致指標(biāo)失真。另一種累積增益曲線可以避免這個問題。

該把優(yōu)惠券發(fā)送給哪些用戶?一文讀懂Uplift模型

最后,我們總結(jié)一下Uplift模型可能的應(yīng)用場景:

  • 精準(zhǔn)定位策略敏感人群:如全文所述,我們希望找出來一些對干預(yù)項(例如發(fā)券、投放等)比較敏感的用戶,繼而對其進(jìn)行精準(zhǔn)策略/營銷;
  • 測算收益空間:Uplift模型可以幫助我們測算如果對策略做一些人群向優(yōu)化,業(yè)務(wù)收益將會提升多少;

#專欄作家#

趙小洛,公眾號:趙小洛洛洛,人人都是產(chǎn)品經(jīng)理專欄作家。數(shù)據(jù)分析師一枚。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!