淺談運(yùn)營(yíng)工作中的貝葉斯陷阱
貝葉斯定理廣泛應(yīng)用于各類場(chǎng)景,如機(jī)器學(xué)習(xí)、大數(shù)據(jù)挖掘、工程分析、金融投資等,本文僅探討貝葉斯定理在運(yùn)營(yíng)數(shù)據(jù)分析中的一點(diǎn)思考。
一、什么是貝葉斯定理
貝葉斯定理是關(guān)于隨機(jī)事件A和B的條件概率(或邊緣概率)的一則定理。
頻率主義學(xué)派認(rèn)為參數(shù)是客觀存在的,即使是未知的,但都是固定值,不會(huì)改變。頻率學(xué)派認(rèn)為進(jìn)行一定數(shù)量的重復(fù)實(shí)驗(yàn)后,如果出現(xiàn)某個(gè)現(xiàn)象的次數(shù)與總次數(shù)趨于某個(gè)值,那么這個(gè)比值就會(huì)傾向于固定。
最簡(jiǎn)單的例子就是拋硬幣了,在理想情況下,我們知道拋硬幣正面朝上的概率會(huì)趨向于1/2,而貝葉斯提出了一種截然不同的觀念,他認(rèn)為概率不應(yīng)該這么簡(jiǎn)單地計(jì)算,而需要加入先驗(yàn)概率的考慮。先驗(yàn)概率也就是說(shuō),我們先設(shè)定一個(gè)假設(shè),然后通過(guò)一定的實(shí)驗(yàn)來(lái)證明/推翻這個(gè)假設(shè),這就是后驗(yàn)。隨后,舊的后驗(yàn)會(huì)成為一個(gè)新的先驗(yàn)。
以下便是貝葉斯公式:
- P(A|B) 是在B發(fā)生的情況下,事件A發(fā)生的概率;
- P(A)是A發(fā)生的概率;
- P(B|A)是在A發(fā)生的情況下B發(fā)生的概率;
- P(B) 是B發(fā)生的概率。
簡(jiǎn)單講,貝葉斯定律是在已知某條件的前提下,推算某事件發(fā)生的概率。
二、貝葉斯定律的應(yīng)用
貝葉斯方法對(duì)于由證據(jù)的積累來(lái)推測(cè)一個(gè)事物發(fā)生的概率具有重大作用,它告訴我們當(dāng)我們要預(yù)測(cè)一個(gè)事物,我們需要的是首先根據(jù)已有的經(jīng)驗(yàn)和知識(shí)推斷一個(gè)先驗(yàn)概率(或者根據(jù)事實(shí)引入先驗(yàn)概率),然后在新證據(jù)不斷積累的情況下調(diào)整這個(gè)概率。
我們以下面的例子,來(lái)一窺貝葉斯定律的妙用。
如果某種疾病的發(fā)病率為千分之一,現(xiàn)在有一種試紙,他在患者得病的情況下,有99%的準(zhǔn)確率判斷患者得?。辉诨颊邲](méi)得病的情況下,有5%的可能誤判患者得病。現(xiàn)在試紙說(shuō)一個(gè)患者得了病,那么患者真的得病的概率是多少?(在看下文之前大家先憑感覺(jué)預(yù)估一下,真正的得病概率應(yīng)該很高吧?)
為了方便理解,我們先通過(guò)一個(gè)樹(shù)形圖進(jìn)行判斷,我們假設(shè)有100000的人群。
通過(guò)以上樹(shù)狀圖,邏輯就會(huì)比較清晰。在題干給出的條件下,患者真正的得病率是多少呢?用真正得病的99作為分子,測(cè)出有病的4995+99作為分母,99÷(99+4995)=1.94%
在此案例中,用貝葉斯公式計(jì)算:
- P(A1|B)代表試紙查出患病前提下,真實(shí)的患病概率;
- P(A1)代表真實(shí)患者概率,即0.1%;
- P(A2)代表健康人群概率,即99.9%;
- P(B)代表試紙查出患者的概率;
- P(B|A1)為真實(shí)患者條件下試紙查出患者的概率,即99%;
- P(B|A2)為健康人群條件下試紙誤判為患者的概率,即5%;
代入公式,也可得出結(jié)論。
這個(gè)案例就是貝葉斯定律比較經(jīng)典的一個(gè)應(yīng)用,在已知前提下測(cè)算事件發(fā)生的概率。
三、運(yùn)營(yíng)數(shù)據(jù)分析中的貝葉斯陷阱
1. 錯(cuò)誤的判斷
通過(guò)以上案例大家對(duì)貝葉斯定律都有了一定的了解,但是普及概念不是咱的本意,貝葉斯在運(yùn)營(yíng)工作中有什么應(yīng)用呢?說(shuō)實(shí)話,本來(lái)我對(duì)貝葉斯在運(yùn)營(yíng)工作中能有多大的作用并沒(méi)有概念,直到我在前段時(shí)間的一個(gè)活動(dòng)復(fù)盤(pán)中發(fā)下了下面的案例。
我們有一個(gè)王牌訓(xùn)練營(yíng)活動(dòng),每期活動(dòng)我們會(huì)選擇一個(gè)IT技術(shù)方向,設(shè)計(jì)系列課程,每日引導(dǎo)用戶打卡學(xué)習(xí),完成學(xué)習(xí)后領(lǐng)取獎(jiǎng)品?;顒?dòng)分為招募期,課程期兩個(gè)時(shí)段。
在招募過(guò)程我們會(huì)投放諸多付費(fèi)or免費(fèi)渠道,如我們自建的流量池、微信矩陣、外部大站、論壇、SEM等,所有活動(dòng)在結(jié)束后我們都會(huì)做復(fù)盤(pán)報(bào)告。
在上一期復(fù)盤(pán)的過(guò)程中我們發(fā)現(xiàn)了一個(gè)有趣的數(shù)據(jù),參與我們訓(xùn)練營(yíng)的用戶畫(huà)像中,工作經(jīng)驗(yàn)為1-3年的開(kāi)發(fā)者居多,占比在70%以上。因此,我們這一期的活動(dòng)復(fù)盤(pán)報(bào)告中有了如下分析:
參與活動(dòng)的開(kāi)發(fā)者以1-3年工作經(jīng)驗(yàn)者居多,說(shuō)明我們的課程內(nèi)容對(duì)此類開(kāi)發(fā)者更具有吸引力,可以針對(duì)此類開(kāi)發(fā)者,做課程設(shè)計(jì)上的優(yōu)化。同時(shí),說(shuō)明工作1-3年的開(kāi)發(fā)者對(duì)于自我提升上的需求更為強(qiáng)烈,后續(xù)可以在此群體重點(diǎn)推廣。
那么大家有沒(méi)有發(fā)現(xiàn)關(guān)于這一條數(shù)據(jù)的分析有什么問(wèn)題?
我們的訓(xùn)練營(yíng)報(bào)名用戶工作年限是1-3年居多,這是一個(gè)結(jié)果,我們只針對(duì)這個(gè)結(jié)果進(jìn)行了分析。那么按照貝葉斯定律,很明顯我們忽略了導(dǎo)致這個(gè)結(jié)果的前提條件:我們的投放渠道覆蓋的用戶工作年限的分布,這個(gè)前提條件的忽略最終可能影響了我們對(duì)整件事情的判斷。
2. 分析的修正
如果活動(dòng)投放渠道所覆蓋的用戶就是1-3年工作經(jīng)驗(yàn)居多,自然報(bào)名訓(xùn)練營(yíng)的用戶也會(huì)是這個(gè)群體居多,那我們的數(shù)據(jù)復(fù)盤(pán)關(guān)于這一條的分析就是錯(cuò)誤的,并不能說(shuō)明我們的課程對(duì)工作1-3年的開(kāi)發(fā)者更具有吸引力。如果我們的投放渠道用戶分布平均,而活動(dòng)報(bào)名用戶出現(xiàn)了如上的分布,那我們的復(fù)盤(pán)總結(jié)便是有意義的。
在意識(shí)到以上因素后,我們對(duì)這一期活動(dòng)投放渠道的引流數(shù)據(jù)做了回顧:
很明顯,能發(fā)現(xiàn)本次活動(dòng)自有流量池引流效果最為顯著,報(bào)名人數(shù)占總?cè)藬?shù)的65%,而有趣的是,根據(jù)我們先前統(tǒng)計(jì),我們的自有流量用戶工作年限畫(huà)像,1-3年工作經(jīng)驗(yàn)的用戶占比也是最多的,占整個(gè)自有流量池用戶的半數(shù)以上。
因此,在回溯投放渠道這一數(shù)據(jù)之后,我們發(fā)現(xiàn)最初的活動(dòng)復(fù)盤(pán)中的分析并站不住腳。
以上便是貝葉斯定律在運(yùn)營(yíng)中應(yīng)用的一個(gè)小例子的分享,如果大家關(guān)注到這一點(diǎn)便會(huì)發(fā)現(xiàn)在運(yùn)營(yíng)的角角落落里都有貝葉斯理論的身影,一不小心我們就可能陷入貝葉斯陷阱而不自知,導(dǎo)致對(duì)數(shù)據(jù)或者整個(gè)運(yùn)營(yíng)活動(dòng)的分析出現(xiàn)偏差,進(jìn)而影響整個(gè)運(yùn)營(yíng)策略的制定和調(diào)整。
作者:Stark,一個(gè)討厭寫(xiě)文章的運(yùn)營(yíng)人。
本文由 @Stark 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于CC0協(xié)議。
想知道作者最終活動(dòng)復(fù)盤(pán)中,結(jié)論是什么?
逆向運(yùn)用貝葉斯定理,作者的腦子有意思喲
我喜歡這個(gè)角度的思考
文章不錯(cuò)
幸存者偏差
贊,還真是同樣的道理