因果推斷的四個(gè)模型,的確管用!

0 評論 2728 瀏覽 2 收藏 11 分鐘

在數(shù)據(jù)分析的眾多挑戰(zhàn)中,因果關(guān)系推斷一直是一個(gè)復(fù)雜且微妙的議題。如何從海量數(shù)據(jù)中準(zhǔn)確識別出影響結(jié)果的關(guān)鍵因素?這篇文章分享的四種方法,希望可以幫到大家。

因果關(guān)系推斷,可以說是數(shù)據(jù)分析領(lǐng)域最難的問題之一,爭吵很多年也沒有定論。

經(jīng)常同學(xué)們被問到:“到底這個(gè)問題的原因是什么!”大家都會覺得分析起來很撓頭,今天我們系統(tǒng)講解下。??

一、拆解法

最常見的用來求因果關(guān)系的方法,是拆解法。

把一個(gè)結(jié)果指標(biāo),從多個(gè)角度拆解,找到影響它的原因。

舉例:昨天有4個(gè)推廣渠道,一共獲客100,今天只獲客80,問為啥獲客少了。

拆解法做法(如上圖):

1、把總獲客數(shù),按四個(gè)渠道拆解,發(fā)現(xiàn)A渠道獲客最少。

得到結(jié)論1:因?yàn)锳渠道少了,所以總獲客少了。

2、把A渠道的獲客,按獲客流程拆解,拆解為展示頁-落地頁-轉(zhuǎn)化三步,發(fā)現(xiàn)是轉(zhuǎn)化環(huán)節(jié)少了,

得到結(jié)論:因?yàn)锳渠道的轉(zhuǎn)化環(huán)節(jié)出了問題,所以總獲客少了。

3、小結(jié):因?yàn)锳渠道轉(zhuǎn)化環(huán)節(jié)出問題,這是獲客少的原因??雌饋砘卮鸬煤芡昝溃蛘业搅?!

可這種答法經(jīng)不起業(yè)務(wù)部門再問一句:那為什么A轉(zhuǎn)化差了呢?

我也沒改文案呀?

投放經(jīng)費(fèi)也沒少呀?

前后只差1天,為啥差異這么大?

為啥只有A變差了,其他又不變呢?

一個(gè)都回答不上來……

所謂的拆解法,本質(zhì)上只是通過細(xì)分,鎖定了問題發(fā)生的位置。并不能找到元兇。所以常常被用來發(fā)現(xiàn)問題,而不是解釋問題(如下圖)。

??

二、相關(guān)系數(shù)法

統(tǒng)計(jì)學(xué)里有相關(guān)分析的方法。而且有個(gè)看起來很復(fù)雜公式(如下圖):

很多同學(xué)一看就來勁了!

于是把兩個(gè)指標(biāo)帶進(jìn)去算相關(guān)系數(shù),而且還到處Chat GPT一下:

  • 相關(guān)系數(shù)0.99算不算大
  • 相關(guān)系數(shù)0.9算不算大
  • 相關(guān)系數(shù)0.8算不算大
  • 相關(guān)系數(shù)0.7算不算大

反正相關(guān)系數(shù)足夠大,就算是相關(guān)了!

這次有一個(gè)復(fù)雜的公式做支撐,應(yīng)該很科學(xué)了吧?這么搞,很容易搞出來統(tǒng)計(jì)學(xué)領(lǐng)域經(jīng)典的“龍脈梗”

  1. 中國GDP年年漲
  2. 我家門前的樹年年漲
  3. 把兩個(gè)數(shù)據(jù)帶進(jìn)去,算出相關(guān)系數(shù)0.99
  4. 所以我家門前的樹是中國的龍脈!

相關(guān)分析、回歸分析、聚類分析,本質(zhì)上不是“分析”,而是計(jì)算。

通過計(jì)算,得出兩列數(shù)字或者幾列數(shù)字之間的關(guān)系。至于這個(gè)關(guān)系到底有沒有含義,計(jì)算公式本身就不負(fù)責(zé)解釋了。

因此套到現(xiàn)實(shí)中經(jīng)常搞出來各種奇葩結(jié)果。所有的統(tǒng)計(jì)學(xué)方法都有類似的問題,只能解釋數(shù)據(jù)本身的關(guān)系,解釋不了現(xiàn)實(shí)中的關(guān)系。

更本質(zhì)地看:是否所有業(yè)務(wù)行為,外部因素都能量化?

完全不是。

比如消費(fèi)者對品牌的信任,比如產(chǎn)品體驗(yàn)好壞,比如文案感受,是很難量化到一個(gè)穩(wěn)定、可靠的指標(biāo)的。

因此,用統(tǒng)計(jì)學(xué)方法,可以大范圍地篩選過濾指標(biāo),但是很難推理出真實(shí)因果。

??

三、趨勢分析法

既然復(fù)雜的方法不好用,有沒有簡單的辦法?

有!

比如基于最樸素的感覺:既然A會引發(fā)B,那么A產(chǎn)生了B就該產(chǎn)生,A結(jié)束了,B會慢慢結(jié)束(或者B死掉)。人們就此總結(jié)出了因果推斷四大原則。

四大原則:

  1. 原因發(fā)生在結(jié)果以前
  2. 原因發(fā)生以后,結(jié)果發(fā)生
  3. 原因持續(xù)期間,結(jié)果持續(xù)
  4. 原因消失以后,結(jié)果消失

這樣的推斷,符合人們的直觀邏輯。更重要的是需要的數(shù)據(jù)少!只要一個(gè)指標(biāo)走勢就能看圖說話了。所以非常好用。

BUT,這么干有個(gè)很大的問題,就是無法剔除雜糅因素,只能觀察到影響最大的那個(gè)因素。更無法看到隱藏在背后的深層因素。

比如觀察外因的時(shí)候,只能觀察到天氣、限行這種明顯的因素;觀察內(nèi)因的時(shí)候,只能觀察到降價(jià)這種因素。其他小因素根本觀察不到。

因此,這種方法常常用來做排除法,剔除不合理的借口。

比如:“你說天氣不好業(yè)績就不好,那為啥人家天氣差照樣有業(yè)績!”至于到底推動業(yè)績的因素是啥?不知道,還得用其他方法分析。

??

四、控制變量法

想剔除雜糅因素,最好的辦法就是分組測試,把樣本塞到密封箱子里,然后一組組地測試效果。

比如我想測用戶對不同文案響應(yīng)率,理論上,我應(yīng)該用同樣的商品、價(jià)格、轉(zhuǎn)化位置,選同一批人,同一個(gè)渠道,然后可以開測了:

但是測試手段也有問題:

  • 很難找到一模一樣的兩組人,完全剔除雜糅因素。
  • 很難窮盡目標(biāo)用戶類型,因此測來測去可能都是同一類人的意見。
  • 測試環(huán)境很難完全封閉,特別是要測試的是大促銷、新品這種熱門話題。
  • 很難在合法合規(guī)的情況下,完全搞差異化方案,涉嫌價(jià)格歧視與欺騙消費(fèi)者,《反壟斷法》和工商局都不是吃干飯的。
  • 消費(fèi)者永遠(yuǎn)是趨利的,他們會自己想辦法突破測試屏蔽,最后選優(yōu)惠最大的方案。

導(dǎo)致的結(jié)果,就是這種測試,適合即時(shí)反饋的+封閉信息渠道+個(gè)性化推送的場景。

是滴,就是類似打車軟件、短視頻軟件的場景。稍微反饋速度慢一點(diǎn),比如電商平臺搞大數(shù)據(jù)殺熟,很容易在消費(fèi)者換幾個(gè)手機(jī)號登陸比價(jià)的時(shí)候被發(fā)現(xiàn)。最后還是哪個(gè)便宜買哪個(gè)……

??

五、為什么常見方法不管用

綜上,我們會發(fā)現(xiàn),在因果推斷領(lǐng)域,幾乎沒有一種方法完全可靠,包括很多經(jīng)典的統(tǒng)計(jì)學(xué)方法和科學(xué)實(shí)驗(yàn)方法。為什么會這樣?

因?yàn)楸举|(zhì)上,企業(yè)經(jīng)營是個(gè)社會科學(xué)問題,不是自然科學(xué)問題。自然科學(xué)領(lǐng)域,是有一些物理、化學(xué)、數(shù)學(xué)等基礎(chǔ)原理支撐的,這些原理是穩(wěn)定、科學(xué)、可量化的,因此可以通過數(shù)據(jù)統(tǒng)計(jì)+科學(xué)實(shí)驗(yàn),慢慢地發(fā)現(xiàn)背后的自然規(guī)律。社會科學(xué)問題完全不是這樣!社會科學(xué)問題本身就是多因素共同影響,容易被人操控改變,感性且沖動的。因此在社會科學(xué)領(lǐng)域,很難直接套用自然科學(xué)的方法解決問題。

再加上,企業(yè)里上班的人,都是有立場、有態(tài)度、有企圖的。當(dāng)他們張嘴問:“這個(gè)問題到底是因?yàn)槭裁串a(chǎn)生的?”或者問“這個(gè)功勞到底是因?yàn)槭裁闯鰜淼??”的時(shí)候,他們的潛意識里裝的就是:功勞是我的,多少得蹭一點(diǎn),鍋都是別人的,硬甩也得甩出去。因此即使有靠譜的方法,大家也不見得就愿意用,即使有結(jié)論,大家也會找其他理由搪塞。

所以面對因果推斷的時(shí)候,要認(rèn)真區(qū)分問題場景。

總之,結(jié)合商業(yè)場景,具體問題具體分析,才是解決問題之道。

本文由人人都是產(chǎn)品經(jīng)理作者【接地氣的陳老師】,微信公眾號:【接地氣的陳老師】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!