LTV預估與留存曲線擬合:指數函數還是冪函數?

2 評論 9748 瀏覽 30 收藏 11 分鐘

編輯導語:LTV,即用戶生命周期總價值,是運營人員在業務過程中常接觸的指標,通過對LTV的預估,運營人員可以為后續決策做好準備。本篇文章里,作者便針對LTV預估、留存函數擬合等問題進行了解讀,一起來看一下。

一、從LTV預估開始說起

LTV的預估,是許多業務UE模型和增長模型的起點:

其中,用戶生命周期又可以用累加的留存率來計算:

不過,這里面使用的留存率卻未必是實際發生的歷史數據。

因為我們做決策時往往等不了那么長的時間,所以我們一般使用的是根據前面一小段時間的數據擬合出來的留存函數R(t)。

那留存函數應該怎樣擬合呢?

二、留存函數擬合

許多文章或資料會推薦這么一個方法:

  1. 把過去的次日、3日、7日、14日、30日等留存率記錄在Excel中,畫出來一個散點圖;
  2. 然后點擊圖上的數據點,右鍵選擇“添加趨勢線”,這時右方就會出現可以擬合的曲線類型(指數、線性、對數、多項式、乘冪、移動平均);
  3. 打開顯示公式和R平方項,在這些曲線類型和公式中,選擇R方最接近1的那個(一般是指數或乘冪),即為最終擬合得到的留存函數R(t)。

LTV預估與留存曲線擬合:指數函數還是冪函數?

番茄小說2021.05新用戶留存率,QuestMobile

選擇R方最接近1,意味著找到了擬合程度最高的函數作為留存函數R(t),接下來就可以回到LTV預估的主線去了。

不過這里有個小問題,卻似乎鮮有人討論過:為什么是指數或乘冪這兩個函數?如果擬合的結果是這兩個函數中的一個,意味著什么?它倆最核心的差異和聯系在哪?

三、兩個函數的差異

這兩個函數有什么差異呢?如果光從函數本身看,指數函數和冪函數的核心差異在于衰減的速度。指數函數的表達式為:

冪函數的表達式為:

根據表達式我們可以推導出,如果以3天為一個周期,對于指數函數來說,留存率每三天會以同樣的速度衰減:

而對于冪函數來說,留存率衰減的速度會逐漸放緩,下一個同比例衰減周期會拉長到6天,即上一個周期的兩倍:

我們總是希望留存率的衰減能夠慢一些,所以相比之下,擬合成冪函數是更希望看到的結果。

四、艾賓浩斯遺忘曲線

那這兩個函數有什么聯系呢?1885年,德國心理學家艾賓浩斯(H.Ebbinghaus)首次對人類的記憶進行了定量研究,他用無意義的音節作為記憶的材料,通過記錄一段時間后被試人員對這些音節材料的記憶留存率,繪制出了這樣一個曲線:

LTV預估與留存曲線擬合:指數函數還是冪函數?

這個曲線也被稱為艾賓浩斯遺忘曲線(或記憶曲線),可以看到通過對這個曲線進行擬合,得到的擬合度最高的是一個冪函數。

不過后續人們的研究表明,單一的遺忘曲線實際上應該是更接近指數函數的,結合前面提到的指數函數的性質,說明人類會以一個固定的周期等概率地遺忘大腦中的信息,是一個很符合大自然規律的現象。

而艾賓浩斯之所以擬合得到了冪函數,是由于最初的記憶實驗,混雜了不同難度的記憶材料,這種混雜改變了遺忘曲線的指數性質。

下面的這個例子,可以解釋這一現象:

LTV預估與留存曲線擬合:指數函數還是冪函數?

圖中黃色和紫色曲線,分別代表兩種難度記憶材料的遺忘曲線,它們都是指數函數y=e^(-kt),其中k的大小不同,代表難度不同;

而黑色的散點,則為兩個函數的平均值(或可泛化為線性組合),通過對這些散點進行擬合,會發現一個有趣的事實:

某些情況下,對兩個指數函數線性組合后的曲線,擬合度更高的(即R方更大的),卻不再是指數函數了,而是冪函數!

這個有意思的現象,各位有興趣的話,可以自行驗證一下。

五、遺忘曲線與留存曲線

關于遺忘曲線的結論,對我們理解留存曲線有什么幫助嗎?

事實上我們早就發現,這兩個曲線驚人地一致。

如果把拉新激活的動作視為最初始的記憶訓練,那么在后續的時間里,如果沒有再次激活,用戶就會以一定的概率,自然而然地遺忘我們的App,表現就和遺忘曲線是一樣的。

為了讓用戶回到我們的App,提升用戶留存率,我們通過各種push召回它們,這也和關于記憶的研究中,定期復習的方法如出一轍。

同時,和混雜材料帶來的遺忘曲線類似,絕大多數功能豐富的成熟應用,留存曲線都應該是衰減程度更慢的冪函數。

事實上也確實如此,包括前面提到的番茄小說例子在內,我從QuestMobile驗證了其他一些常見App,以及手頭有的一些內部數據,它們的留存曲線的確都是擬合成了冪函數:

LTV預估與留存曲線擬合:指數函數還是冪函數?

番茄小說、知乎與陌陌2021.05新用戶留存數據,QuestMobile

六、對數函數與其他LTV預估方法

最后再補充兩個點。

在前面的趨勢線擬合中,有一個對數函數可能會是迷惑選項。

對數函數的表達式是:

隨著t的增長,對數函數計算得到的結果很可能會小于0,而不是像指數函數和冪函數一樣始終保持大于0的結果。

小于0的留存率是沒有意義的,因此如果最優擬合的結果是對數函數,更可能的情況是巧合或者樣本量太小,對數函數在這個場景下本身沒有合理的物理意義。

不妨在指數函數或者冪函數中選擇一個,他們的擬合度離最優擬合應該差不了多少。

而對于最開始提到的LTV預估公式:

需要說明的是,這里面隱藏了一個假設:ARPU值恒定不變,是個常數。

但在現實情況下,這樣的假設往往會帶來一些誤差,因為隨著留存時間增加,這部分用戶的ARPU總是會隨之有所變化。

一種調整的方法是對ARPU同樣進行預估,將公式改造為:

不過ARPU的變化規律可能很難找,或者壓根就沒有像留存曲線這樣簡單清晰的規律。

因此另一種調整方法是不做拆分,用更多樣本數據和特征數據,整體地對用戶貢獻價值進行函數擬合預估:

這樣的方法需要足夠多的樣本,本身也更適合需要精細化的運營場景,這里就不再展開了。

參考資料:

[1] https://supermemo.guru/wiki/Exponential_nature_of_forgetting

[2] https://supermemo.guru/wiki/Forgetting_curve

 

作者:青十五;公眾號:青十五,新書《策略產品經理:模型與方法論》作者

本文由 @青十五 原創發布于人人都是產品經理,未經作者許可,禁止轉載。

題圖來自Unsplash,基于CC0協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. mk

    回復
  2. 很有意思~

    來自上海 回復