數據分析誤區系列(五):因果陷阱

0 評論 404 瀏覽 1 收藏 6 分鐘

做數據分析時,如果提前知道一些常見的誤區,能提高我們不少工作效率。本文分享的因果陷阱這種概念,能幫大家避免此類誤區。

做互聯網應用運營同學經常會遇到這樣的問題,當增加廣告或者發放更多的優惠券時,最終訂單支付率也會增加,兩者之間的相關性很高

例如:

(a)在廣告投入每增加10%,支付失敗率從10%增加到15%。

(b)在廣告投入沒有增加的時候,支付失敗率維持在10%。

因此就推斷可能是增加廣告投入導致了支付失敗率的增加。

盡管數據顯示了廣告投入和支付失敗率之間的高度相關性,但這并不能確定廣告投入就是支付失敗率增加的原因。實際上,增加廣告投入可能吸引了更多的新用戶來到網站,而這些新用戶對網站的產品和購物流程不熟悉,導致支付失敗率的增加。其實”關聯并不意味著因果關系”。我們不能僅僅因為兩個變量之間有關聯,而直接斷定它們之間存在著因果關系。這就是常說的“因果陷阱”。

類似:在一份關于氣候變化的研究數據中,科學家發現,過去十年來海盜數量的減少與全球氣溫的升高呈現高度關聯性。那么,我們能否因此得出結論:減少海盜數量會導致全球氣溫升高?顯然,這種因果關系是荒謬的,注意,這就是不正確理解數據的結果,也是因果陷阱的一個典型例子。

讓我們再來看一個更生活化的例子。一個常見的說法是“撒嬌的女人更好命”。假設我們有一份研究結果顯示,撒嬌的女人通常比不喜歡撒嬌的女人更好命,這里的“好命”可能被定義為更幸福的生活或者更高的生活滿意度。然而,這并不能說明撒嬌就是導致“好命”的因素。

首先,可能存在第三個變量,比如財富狀況或自信心,這些變量可能既影響女人是否撒嬌,又影響其“好命”的程度。例如,一個更自信或者更富有的女人可能更可能毫無顧忌地撒嬌,同時也很可能由于這個原因,擁有比較滿意的生活。

其次,這種關聯可能是反向即反事實的。也就是說,因為女人具有更好的生活,她們才有幸福感、自信心去撒嬌。換句話說,“好命”引發了撒嬌,而非撒嬌導致了“好命”。

只看到“撒嬌的女人更好命”的表面現象,而不深入分析其背后可能存在的機制,便很容易陷入因果陷阱。我們可以通過更深入、全面的研究,并計算各種影響因素的控制變量,來更準確地理解這個現象。

在數據分析過程中,我們需要注意的是:關聯性是可以量化的,但是因果性則需要通過科學的實驗設計和深入的思考來確定。統計學中,Pearson相關系數是一種衡量兩個變量線性相關程度的量,其取值范圍在-1到1之間,值越大關聯性越強,但是這并不是說它們之間就存在因果關系。

比如,我們經常看到夏天冰淇淋的銷售量與溺水事件的增多有很高的相關性,但是我們并不能說冰淇淋的銷售增加導致了溺水事件的增多,這是因為他們的增加都是由炎熱的天氣因素引起的。

數據分析不僅僅是看數字,理解數據。更重要的是要精確地理解和分辨關聯性和因果性,避免陷入因果陷阱?;砣婚_朗的數據洞察,并不是拿到數據就能獲得的,需要我們深度思考和尖銳洞察。在這個數據泛濫的時代,正確理解數據,避免因果陷阱的誤導,就是我們每一個數據分析師的使命和責任。

本文由 @佑佑和博博~ 原創發布于人人都是產品經理,未經許可,禁止轉載

題圖來自Unsplash,基于 CC0 協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!