數(shù)據(jù)分析必須警惕的坑:辛普森悖論

8 評論 29793 瀏覽 124 收藏 9 分鐘

辛普森悖論為英國統(tǒng)計(jì)學(xué)家E.H.辛普森于1951年提出的悖論,即在某個(gè)條件下的兩組數(shù)據(jù),分別討論時(shí)都會滿足某種性質(zhì),可是一旦合并考慮,卻可能導(dǎo)致相反的結(jié)論。

近些年來,隨著大數(shù)據(jù)行業(yè)的蓬勃發(fā)展,“Data-Driven(數(shù)據(jù)驅(qū)動)”受到越來越多企業(yè)的追捧。越來越多場景的數(shù)據(jù)采集、越來越成熟的分析模型、越來越強(qiáng)大的分析效率,這些無疑都是精細(xì)用戶行為分析、優(yōu)化決策體系的智舉。

然而在數(shù)據(jù)背后,隱藏著一些似是而非的謬誤,比如“辛普森悖論”,作為數(shù)據(jù)分析人員必須警惕。

悖論出處

辛普森悖論為英國統(tǒng)計(jì)學(xué)家E.H.辛普森(E.H.Simpson)于1951年提出的悖論,即在某個(gè)條件下的兩組數(shù)據(jù),分別討論時(shí)都會滿足某種性質(zhì),可是一旦合并考慮,卻可能導(dǎo)致相反的結(jié)論。

一所美國高校的兩個(gè)學(xué)院,分別是:

法學(xué)院和商學(xué)院,新學(xué)期招生。人們懷疑這兩個(gè)學(xué)院有性別歧視,現(xiàn)作如下統(tǒng)計(jì):

從上圖顯示的數(shù)據(jù)我們可以看到,法學(xué)院男生的錄取比例為8/53=15.1%,女生錄取的比例為51/152=33.6%。同理,商學(xué)院男生的錄取比例為80.1%,女生的錄取比例為91.1%。

無論在法學(xué)院還是在商學(xué)院,女生的錄取比例都高于男生,由此可以推斷學(xué)校在招生時(shí)更傾向于招女生嗎?

當(dāng)計(jì)算全校錄取情況時(shí),男生錄取的比例為209/304=68.8%,女生錄取的比例為143/253=56.5%。男生的錄取率要高于女生,這下,恐怕要輪到女生感到不公了。

那么問題來了:該大學(xué)的招生政策,到底有沒有性別歧視?到底是歧視男生還是女生?

先不說結(jié)論,我們再來看一個(gè)實(shí)際工作中會遇到的案例。

工作中的典型案例

某產(chǎn)品的用戶中有10000人使用Android設(shè)備、5000人使用IOS設(shè)備,整體的付費(fèi)轉(zhuǎn)化率應(yīng)該是5%。細(xì)分發(fā)現(xiàn)其中IOS設(shè)備的轉(zhuǎn)化率僅為4%,而Android設(shè)備則是5.5%?!奥斆鳌钡臄?shù)據(jù)分析師得出結(jié)論:IOS平臺的用戶付費(fèi)轉(zhuǎn)化率低下,建議放棄IOS平臺的研發(fā)。

一般來說,IOS平板的付費(fèi)轉(zhuǎn)化率比Android平板高出很多,而IOS手機(jī)的轉(zhuǎn)化率也相對更好。這種情況下,設(shè)備類型就是復(fù)雜變量,如果數(shù)據(jù)是根據(jù)設(shè)備類型得到,那么其他的數(shù)據(jù)就可能被完全忽略。

接下來我們來對比這一組數(shù)據(jù):

由此可見,Android設(shè)備轉(zhuǎn)化率無論在平板端還是在手機(jī)端的轉(zhuǎn)化率都小于IOS設(shè)備,這也很我們的常規(guī)預(yù)期相符。

當(dāng)計(jì)算全設(shè)備情況時(shí),Android的轉(zhuǎn)化比例為550/10000=5.5%,IOS的轉(zhuǎn)化比例只有200/5000=4.0%。這也是題干中“聰明”的數(shù)據(jù)分析師得出IOS版本應(yīng)該下線的根源。

原因與應(yīng)對策略

誤區(qū)產(chǎn)生的原因說起來也很簡單,就在于將“值與量”兩個(gè)維度的數(shù)據(jù),歸納成了“值”一個(gè)維度的數(shù)據(jù),并進(jìn)行了合并。

如果要避免“辛普森悖論”給我們帶來的誤區(qū),就需要斟酌個(gè)別分組的權(quán)重,以一定的系數(shù)去消除以分組資料基數(shù)差異所造成的影響。而在實(shí)際轉(zhuǎn)化例子中,就需要用如“ARPU”、“ARPPU”這樣看似相似實(shí)際上有很大差異的指標(biāo)來進(jìn)行分割。

同樣地,如果要更客觀分析產(chǎn)品的運(yùn)營情況,就需要設(shè)立更多角度去綜合評判。還是拿上述的設(shè)備轉(zhuǎn)化率為例,產(chǎn)品層考慮轉(zhuǎn)化的前提會優(yōu)先考慮分發(fā)量、用戶量、運(yùn)營思路、口碑等等。而往往為了實(shí)現(xiàn)最后的轉(zhuǎn)化需要,需要更多前置目標(biāo)做鋪墊。

常用的前置目標(biāo)

  • 用戶量:免費(fèi)產(chǎn)品需要很大的用戶量才能獲得足夠的總收入,因?yàn)樵撃J降霓D(zhuǎn)化率極低。而這些用戶通常來自全球各個(gè)地區(qū),使用各種不同類型的設(shè)備。針對不同的設(shè)備類型,采用通用的平均值是沒有意義的。
  • LTV范圍:免費(fèi)產(chǎn)品需要很長的貨幣化周期,把用戶消費(fèi)當(dāng)作玩家是否開心的依據(jù),就像參與度和消費(fèi)緊密相關(guān)一樣,因此可以作為分類的標(biāo)準(zhǔn)。

大多數(shù)的用戶是不會付費(fèi)的,免費(fèi)產(chǎn)品的綜合付費(fèi)轉(zhuǎn)化率比較低,是因?yàn)榘迅顿M(fèi)玩家和非付費(fèi)玩家綜合到了一起,所以任何對免費(fèi)用戶的衡量都是非常低的。因?yàn)榇蠖鄶?shù)的用戶是不付費(fèi)的,所以ARPU以及ARPPU相差很多。

A/B測試中的注意點(diǎn)

聯(lián)想到產(chǎn)品運(yùn)營的實(shí)踐,一個(gè)常見的A/B測試誤判例子是這樣的:拿1%用戶跑了一個(gè)重大版本,發(fā)現(xiàn)試驗(yàn)版本購買率比對照版本高,就說試驗(yàn)版本更好,我們應(yīng)該發(fā)布試驗(yàn)版本。

而事實(shí)上,我們選取的試驗(yàn)組里往往會挑選那些樂于交流、熱衷產(chǎn)品、又或者是付費(fèi)率高粘性高的用戶,把他們的數(shù)據(jù)與全體用戶對比是不客觀的。當(dāng)最后發(fā)布試驗(yàn)版本時(shí),反而可能降低用戶體驗(yàn),甚至造成用戶留存和營收數(shù)據(jù)的雙雙下降。

收獲與總結(jié)

避免辛普森悖論的關(guān)鍵是要同時(shí)參考不同用戶間的事實(shí)全貌。

第一,準(zhǔn)確的用戶分群在數(shù)據(jù)分析中是非常重要的,尤其是在免費(fèi)產(chǎn)品當(dāng)中,平均用戶不僅不存在,而且是誤導(dǎo)研發(fā)的因素之一,所以關(guān)鍵在于利用特征將用戶進(jìn)行合理劃分。

第二,在一個(gè)具體的產(chǎn)品中,普適型的數(shù)據(jù)(如粗暴的對比IOS和Android總體情況)是沒有多大參考意義的,一定要細(xì)分到具體設(shè)備、國家、獲取渠道、消費(fèi)能力等等再進(jìn)行比對才有價(jià)值。

第三,斟酌個(gè)別分組的權(quán)重,以一定的系數(shù)去消除以分組資料基數(shù)差異所造成的影響,同時(shí)必需了解該情境是否存在其他潛在要因而綜合考慮。

用戶分析常用縮略詞

  • DNU,Daily New Users:每日新增用戶
  • AU,Active User:活躍用戶,統(tǒng)計(jì)特定周期內(nèi)完成過指定事項(xiàng)或指標(biāo)的用戶數(shù)
  • PU,Paying User:付費(fèi)用戶
  • APA,Active Payment Account:活躍付費(fèi)用戶數(shù)
  • ARPU,Average Revenue Per User:平均每用戶收入,總收入/AU
  • ARPPU,Average Revenue Per Paying User:平均每付費(fèi)用戶收入,總收入/APA
  • PUR,Pay User Rate:付費(fèi)比例,APA/AU
  • LTV,Life Time Value:生命周期價(jià)值

 

作者:數(shù)數(shù)科技,公眾號,數(shù)數(shù)科技(ThinkingData)

本文由 @數(shù)數(shù)科技 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Pexels,基于 CC0 協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 看完了,還是不太懂。比如為什么A渠道進(jìn)來的用戶留存率增加,B渠道進(jìn)來的用戶留存率也增加,那為什么統(tǒng)計(jì)A+B渠道的留存率卻會下降呢?

    來自浙江 回復(fù)
  2. 其實(shí)就是不要用部分屬性數(shù)據(jù)當(dāng)做全屬性數(shù)據(jù)的結(jié)果!

    回復(fù)
    1. 哈哈, 解釋的簡單明了。

      來自上海 回復(fù)
    2. 哈哈

      來自福建 回復(fù)
  3. 請問LTV怎么操作衡量,例如哪些指標(biāo)?謝謝

    回復(fù)
    1. LTV對各個(gè)行業(yè)、不同產(chǎn)品測算方式差別比較大,簡單來說有假設(shè)性計(jì)算和預(yù)測性計(jì)算。假設(shè)性計(jì)算基于以前產(chǎn)品經(jīng)驗(yàn)、行業(yè)用戶消費(fèi)情況經(jīng)驗(yàn)等, 對高消費(fèi)、低消費(fèi)人群的消費(fèi)習(xí)慣進(jìn)行數(shù)據(jù)推算;預(yù)測性計(jì)算可以通過收集用戶信息,進(jìn)行用戶分群,對不同分群用戶的留存率、留存時(shí)長、留存期內(nèi)消費(fèi)進(jìn)行計(jì)算,并推測后續(xù)變化。因?yàn)楝F(xiàn)在很多商業(yè)模式的營收依靠的不是用戶的直接付費(fèi),但不代表著免費(fèi)用戶就沒有價(jià)值,需要將創(chuàng)造營收的業(yè)務(wù)模式拆解后進(jìn)行部分倒推測算。下次文章盡量找個(gè)行業(yè)舉例來描述一下。

      來自上海 回復(fù)
  4. 學(xué)到了。
    但iOS的寫法錯(cuò)誤了,糾正一下

    來自廣東 回復(fù)
    1. 謝謝!

      來自上海 回復(fù)