數(shù)據(jù)會(huì)說(shuō)謊?帶你識(shí)別9種常見(jiàn)的數(shù)據(jù)陷阱
在產(chǎn)品的工作中經(jīng)常需要用到數(shù)據(jù)和對(duì)數(shù)據(jù)進(jìn)行分析,但在這個(gè)過(guò)程中其實(shí)隱藏著很多陷阱。數(shù)據(jù)來(lái)源、解讀人的觀點(diǎn),都有可能造成很大的偏差。這篇文章,作者統(tǒng)計(jì)了9個(gè)常見(jiàn)且容易操作的數(shù)據(jù)陷阱,希望能對(duì)大家的數(shù)據(jù)分析工作有所幫助。
數(shù)據(jù),正逐漸成為一種重要的生產(chǎn)資料。我們?cè)谶M(jìn)行產(chǎn)品開(kāi)發(fā),運(yùn)營(yíng)活動(dòng)效果復(fù)盤(pán),都需要數(shù)據(jù)輔助決策,而看起來(lái)人畜無(wú)害的客觀數(shù)據(jù),卻在各種各樣的場(chǎng)合,以各種意想不到的情況欺騙大家的眼睛。
下面就讓我們一起看下在什么樣的場(chǎng)景下,會(huì)出現(xiàn)這種情況,我們又如何避免呢?
一、九種數(shù)據(jù)陷阱
01 數(shù)據(jù)可視化陷阱
先看下面兩組數(shù)據(jù):
(1)
(2)
從直觀上來(lái)說(shuō),第二組數(shù)據(jù)的圖形顯示比起第一個(gè)圖的震撼要更大些,或者說(shuō),問(wèn)題似乎‘更嚴(yán)重些’,因?yàn)閮蓚€(gè)柱子的差距比第一個(gè)圖的差距要小。
而實(shí)際上,他們都在描述同一個(gè)事實(shí):2023年上半年總營(yíng)收同比2022年上半年減少200萬(wàn);
那么,問(wèn)題出在哪里?
真相只有一個(gè),就是縱坐標(biāo)的刻度線(xiàn),第一張圖縱坐標(biāo)的起點(diǎn)是0,而第二張是3200w。
這里圖一通過(guò)調(diào)整坐標(biāo)軸的刻度,改變數(shù)據(jù)的視覺(jué)效果,從而誤導(dǎo)觀眾對(duì)數(shù)據(jù)的理解。
02 相關(guān)性與因果
下圖是夏天西瓜的銷(xiāo)量與溺亡人數(shù)之間的相關(guān)關(guān)系圖,通過(guò)計(jì)算得知,兩者之間的相關(guān)系數(shù)達(dá)到了0.96(等于1為完全相關(guān))。
有人得出結(jié)論:夏天游泳溺亡跟西瓜銷(xiāo)量有直接關(guān)系,應(yīng)該禁止西瓜銷(xiāo)售。
有常識(shí)的人一眼就可以看出這是個(gè)笑話(huà):夏天天氣熱,游泳人數(shù)多,所以溺亡人數(shù)變多,同時(shí),夏天也會(huì)帶來(lái)西瓜銷(xiāo)量的提升。
這里為什么會(huì)鬧出這種令人啼笑皆非的笑話(huà),主要是混淆了相關(guān)性和因果性。
相關(guān)性與因果關(guān)系的混淆:當(dāng)兩個(gè)變量之間存在相關(guān)性時(shí),不能簡(jiǎn)單地得出其中一個(gè)變量是另一個(gè)變量的原因的結(jié)論。
同時(shí)相關(guān)性并不意味著因果關(guān)系,因?yàn)榭赡艽嬖谄渌粗淖兞炕驖撛诘幕煜蛩?。在分析?shù)據(jù)時(shí),我們需要進(jìn)行更深入的研究和控制變量,以確定是否存在真正的因果關(guān)系。
03 放大有利數(shù)據(jù)
只看下圖,可以得出:我們的銷(xiāo)售額穩(wěn)中有升,形式似乎一片大好:
但是如果我們將今年所有月份的數(shù)據(jù)取出,結(jié)果與我們之前的結(jié)論完全相反:銷(xiāo)售額隨著月份的變化一直在走低,業(yè)務(wù)部門(mén)得想想辦法了。
這里是因?yàn)橐婚_(kāi)始的圖只放了4-6月銷(xiāo)售額有上升的時(shí)間段,放大了有利數(shù)據(jù),用短期波動(dòng)代替長(zhǎng)期效應(yīng)。給我們?cè)斐闪隋e(cuò)覺(jué)。
放大有利數(shù)據(jù):在報(bào)告數(shù)據(jù)時(shí),有可能選擇性地呈現(xiàn)某些結(jié)果,而忽略其他結(jié)果。這種情況下,數(shù)據(jù)的誤導(dǎo)性來(lái)自于信息的不完整性或不平衡性。為了避免選擇性報(bào)告的問(wèn)題,我們應(yīng)該全面、客觀地呈現(xiàn)數(shù)據(jù),或者使用可信的數(shù)據(jù)來(lái)源。
其實(shí)在汽車(chē)行業(yè)就有這種慣例。汽車(chē)行業(yè)在公布數(shù)據(jù)時(shí),如果增長(zhǎng)的好,一般就說(shuō)增長(zhǎng)率;如果增長(zhǎng)的不好,就會(huì)提排名;排名還不好的話(huà),就開(kāi)始說(shuō)細(xì)分市場(chǎng)排名。而且還會(huì)把市場(chǎng)細(xì)分到幾乎只有這款車(chē)的范圍,這樣就可以說(shuō)自己在細(xì)分市場(chǎng)排名前幾。
04 樣本偏差
大家應(yīng)該都聽(tīng)過(guò)一個(gè)段子:過(guò)年返鄉(xiāng)的列車(chē)上,記者向著車(chē)廂問(wèn)到:買(mǎi)到票的朋友請(qǐng)把手舉起來(lái)!剎那間,車(chē)廂里的乘客都將手舉了起來(lái),記者激動(dòng)的播報(bào)著:從這里可以看出,群眾們乘車(chē)難的問(wèn)題已得到解決,每個(gè)人都有火車(chē)票!
這里其實(shí)是犯了樣本偏差的錯(cuò)誤,從一個(gè)有限的樣本中推斷總體特征時(shí),樣本可能不具有代表性,導(dǎo)致對(duì)總體的錯(cuò)誤認(rèn)識(shí)。這種情況下,數(shù)據(jù)的陷阱來(lái)自于樣本的選擇或采集方法。解決這個(gè)問(wèn)題的方法之一是使用隨機(jī)抽樣來(lái)確保樣本的代表性。
一個(gè)實(shí)際案例:
某公司要評(píng)估某款新產(chǎn)品在市場(chǎng)上的受歡迎程度。他們決定在購(gòu)物中心進(jìn)行了一次問(wèn)卷調(diào)查,收集了500份調(diào)查問(wèn)卷。
調(diào)查結(jié)果顯示有80%的受訪者對(duì)新產(chǎn)品表示喜歡和有意愿購(gòu)買(mǎi)?;谶@個(gè)結(jié)果,市場(chǎng)調(diào)研公司得出結(jié)論認(rèn)為新產(chǎn)品在市場(chǎng)上將受到廣泛歡迎,并投入大量資源進(jìn)行市場(chǎng)推廣。
然而,結(jié)果顯示新產(chǎn)品的銷(xiāo)量遠(yuǎn)不及預(yù)期。公司內(nèi)進(jìn)行復(fù)盤(pán),發(fā)現(xiàn)問(wèn)卷調(diào)查可能有問(wèn)題。
因?yàn)?,調(diào)查問(wèn)卷僅發(fā)放給購(gòu)物中心的訪客,未能涵蓋更廣泛的消費(fèi)者群體,包括其他渠道或者不常去購(gòu)物中心的消費(fèi)者,他們的觀點(diǎn)可能不同。這可能導(dǎo)致市場(chǎng)調(diào)研公司過(guò)度估計(jì)了新產(chǎn)品的市場(chǎng)潛力。
為了避免樣本偏差導(dǎo)致結(jié)論出錯(cuò)的情況發(fā)生,市場(chǎng)調(diào)研應(yīng)該采用多種渠道和方法,以確保樣本具有代表性。可以在購(gòu)物中心之外的其他地方進(jìn)行調(diào)查,或者使用在線(xiàn)調(diào)查等方式進(jìn)行數(shù)據(jù)收集,以覆蓋更廣泛的消費(fèi)者群體。這樣可以更全面地了解市場(chǎng)對(duì)新產(chǎn)品的態(tài)度和需求,并制定更準(zhǔn)確的決策。
05 數(shù)據(jù)口徑問(wèn)題
假設(shè)有兩個(gè)機(jī)構(gòu)A和B,它們都在報(bào)告某個(gè)國(guó)家的失業(yè)率。
- 機(jī)構(gòu)A使用廣義定義上的失業(yè)率,包括所有正在尋找工作但沒(méi)有找到的人,并將其與勞動(dòng)力總數(shù)相除。根據(jù)機(jī)構(gòu)A的統(tǒng)計(jì)數(shù)據(jù),失業(yè)率為5%。
- 機(jī)構(gòu)B使用狹義定義上的失業(yè)率,僅包括那些正在尋找工作但沒(méi)有找到的人,并將其與就業(yè)人口相除。根據(jù)機(jī)構(gòu)B的統(tǒng)計(jì)數(shù)據(jù),失業(yè)率為3%。
由于機(jī)構(gòu)A和機(jī)構(gòu)B使用了不同的統(tǒng)計(jì)口徑,導(dǎo)致了失業(yè)率的差異。機(jī)構(gòu)A的統(tǒng)計(jì)方法更加寬泛,包括更多的人群,因此失業(yè)率較高。
而機(jī)構(gòu)B的統(tǒng)計(jì)方法較為嚴(yán)格,只計(jì)算特定群體的失業(yè)率,因此失業(yè)率較低。
這種差異可能會(huì)對(duì)政策制定和經(jīng)濟(jì)分析產(chǎn)生重要影響。例如,機(jī)構(gòu)A可能會(huì)認(rèn)為需要采取更多的就業(yè)刺激措施,而機(jī)構(gòu)B可能會(huì)認(rèn)為就業(yè)市場(chǎng)已經(jīng)相對(duì)健康。
這個(gè)案例表明,即使數(shù)據(jù)都是正確的,但是因?yàn)閿?shù)據(jù)統(tǒng)計(jì)口徑不同,進(jìn)行解釋時(shí),結(jié)論不一致的情況也會(huì)發(fā)生。
06 基數(shù)問(wèn)題
(1)某件商品在50%折扣的基礎(chǔ)上再打20%折扣,我們?nèi)菀滓詾闀?huì)有70%的折扣。
實(shí)際上,折扣只有60%——因?yàn)楹竺?0%的折扣實(shí)在50%即五折的基礎(chǔ)上折算的。
(2)A基金年化收益率對(duì)比去年增加了100%!容易讓人熱血沸騰,下一秒就想梭哈。
實(shí)際情況可能是:A基金去年的年化收益率只有1%,今年達(dá)到了2%,而同期的銀行利率可能高于這個(gè)數(shù)。
07 樣本分布是非正態(tài)分布
用平均數(shù)掩蓋分布。
美國(guó)前總統(tǒng)小布什在競(jìng)選演講中曾經(jīng)說(shuō)到:我的2003年的減稅計(jì)劃讓4000多萬(wàn)美國(guó)家庭平均少納稅1586美元,從純數(shù)字角度來(lái)看,沒(méi)有任何問(wèn)題。但是這里有很強(qiáng)的誤導(dǎo)性。
因?yàn)樨?cái)富的分配不服從正態(tài)分布,大部分家庭收入不高,減稅的額度非常有限,但小部分收入極高的家庭,減稅的額度甚至能達(dá)到幾十萬(wàn)美元,從而拉高了平均數(shù)。
實(shí)際上,當(dāng)年減稅的中位數(shù)是650美元,可以理解為有一半的家庭減稅額度都沒(méi)達(dá)到650美元。
08 數(shù)據(jù)樣本不足
“今年經(jīng)濟(jì)學(xué)院的新來(lái)的研究生,有三分之一身高超過(guò)一米九,我們學(xué)院今年籃球賽奪冠有希望了?!?/p>
實(shí)際上,今年只錄取了三名研究生,其中一個(gè)人身高超過(guò)了一米九。
這里其實(shí)犯了數(shù)據(jù)樣本不足的問(wèn)題,因?yàn)闃颖静蛔?,用百分比掩蓋規(guī)模。導(dǎo)致數(shù)據(jù)解讀出誤。
09 信息不完整
有這樣一則數(shù)據(jù):過(guò)去幾十年,癌癥的死亡人數(shù)增多。
這個(gè)數(shù)據(jù)結(jié)論看起來(lái)非常嚇人。但實(shí)際上忽略了很多其他因素。如:
- 現(xiàn)在的人數(shù)遠(yuǎn)遠(yuǎn)超過(guò)以前;
- 由于醫(yī)學(xué)的進(jìn)步,從前很多死因不明的案例,在現(xiàn)在,都被歸到了具體的癌癥類(lèi)別;
- 因?yàn)楝F(xiàn)代社會(huì)的發(fā)展,各個(gè)易發(fā)病的年齡段人數(shù)在不斷增加;
這里是犯了信息不完整的錯(cuò)誤,有時(shí)候,我們?cè)诜治龌蚩偨Y(jié)事物時(shí)可能會(huì)遺漏某些變化的原因。這可能是因?yàn)槲覀儧](méi)有獲得所有相關(guān)數(shù)據(jù),或者我們只關(guān)注了部分信息而忽略了其他方面。
三、總結(jié)
以上,我們通過(guò)具體的案例總結(jié)了數(shù)據(jù)誤導(dǎo)性的九種常見(jiàn)的類(lèi)型。分別是:數(shù)據(jù)可視化陷阱、相關(guān)性與因果、放大有利數(shù)據(jù)、樣本偏差、數(shù)據(jù)口徑問(wèn)題、基數(shù)問(wèn)題、樣本分布是非正態(tài)分布、數(shù)據(jù)樣本不足、信息不完整。
之后,再遇到別人用數(shù)據(jù)做出的論斷時(shí),建議先對(duì)照著上述的九種場(chǎng)景,防止陷入數(shù)據(jù)陷阱。
最后,多說(shuō)一句:數(shù)據(jù)不會(huì)說(shuō)謊,但解讀數(shù)據(jù)的人會(huì)。
微信公眾號(hào):董點(diǎn)數(shù)據(jù),分享產(chǎn)品、運(yùn)營(yíng)、數(shù)據(jù)思維。
本文由 @董點(diǎn)數(shù)據(jù) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!