數據分析常見誤區(一)
本文通過一個實際例子揭示了辛普森悖論現象,即在分析不同條件下的數據時得出的結論與整體數據得出的結論截然相反。通過深入探討這一悖論,本文旨在提醒讀者在進行數據驅動決策時,需警惕表面數據的誤導,并采取更全面的分析視角。
倆直播間同時向2個地區客戶直播出售荔枝,從數據上來看,A地區無論高頻還是中低頻用戶的下單轉化率均低于B地區,能否推斷出A地區整體下單率一定落后于B地區?
通過上圖數據我們可以看出(a)高頻客戶:A地區高頻客戶下單轉化率5.00%高于B地區3.33% (b)中低頻客戶:A地區中低頻客戶下單轉化率5.71%高于B地區4.44%
從數據可以看出A地區的高頻轉化和中低頻轉化均高于B地區,那么是否A地區的整體轉化也高于B地區呢? 答案:不是
我們可以統計計算出來:整體客戶A地區下單轉化為12/250,B地區同樣也為12/250。也就是說A地區的整體轉化等于B地區的整體轉化。
這就是數據分析常見的1個誤區–辛普森悖論:在某個條件的兩組數據,分別討論時都會滿足某種性質,可一旦合并,卻可能導致相反結論
查看科比和雷阿倫的職業生涯統計,發現無論兩分球還是三分球命中率,雷阿倫都高于科比,但總命中率科比卻高于雷阿倫。
舉一個極端的例子:科比和雷阿倫都出手1000次,其中科比出手999個兩分球命中460個,出手1個三分球命中0個,雷阿倫出手500個兩分球命中250個,出手500個三分球命中200個。那么科比的兩分球、三分球以及總命中率分別是46%、0%、46%,而雷阿倫的則是50%、40%、45%。
由此可以看出,這個問題實際上是不具有貪心特性的,局部最優并不一定能保證全局最優。
本文由 @yyandbb415 原創發布于人人都是產品經理,未經許可,禁止轉載
題圖來自Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
做數據分析的誤區真的蠻多的,不過作者在這篇文章通過一個實際例子直接揭示了辛普森悖論現象是一篇很不錯的參考文章。