我好像看到了假的數(shù)據(jù)分析?
看似基于理性和事實(shí)的雄辯,然而有可能是有意或無意的詭辯。
作為一個(gè)小頭目,經(jīng)常會讀到來自各種團(tuán)隊(duì)的數(shù)據(jù)分析報(bào)告,看似基于理性和事實(shí)的雄辯,然而有可能是有意或無意的詭辯。搞得我經(jīng)常像傻白甜的美少女面對追求的少男一樣,面對這些嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)分析也不得不多長幾個(gè)心眼。
1、可視化的誤導(dǎo)
一般來說,畫出圖表就容易讓人肅然起敬,至少架勢是足的,然而其中卻容易出現(xiàn)詭計(jì)。
下圖的作者為了表達(dá)中國城鎮(zhèn)化率的增加以及家庭小型化趨勢對房價(jià)的支撐作用,擺出了兩個(gè)柱狀圖,然而為了表達(dá)這兩個(gè)指標(biāo)的強(qiáng)烈趨勢,Y軸都不是從0開始,于是在視覺上更容易讓人有沖擊力,然而卻含有誤導(dǎo)性。(不過被誤導(dǎo)也就罷了,一二線這個(gè)趨勢,早幾年買房也不是壞事兒)
作者為了表達(dá)軟件開發(fā)類不等級別之間的工資巨大差異,居然把最低值、平均值和最高值疊加在一起進(jìn)行呈現(xiàn)。效果是出來了,但邏輯和節(jié)操卻大珠小珠落玉盤。
2、使用孤證或者不靠譜的絕對值
“林子大了什么鳥都有”,這句俗語特別適合于使用孤證或者不靠譜絕對值來證明自己價(jià)值的數(shù)據(jù)分析,這是大公司里經(jīng)常出現(xiàn)的一些場景,因?yàn)榇蠊井a(chǎn)品經(jīng)理偏愛依賴巨大流量來嘗試一些新功能。
比如最近某產(chǎn)品推出類社區(qū)的產(chǎn)品功能,大家都質(zhì)疑其與主方向毫無關(guān)系。產(chǎn)品經(jīng)理立即跳出來反駁,使用該功能的n個(gè)用戶已經(jīng)找到了工作(找工作是該產(chǎn)品的核心功能之一)。然而每天上千萬用戶在產(chǎn)品里晃來晃去,做出啥事兒都不稀奇,舉出孤證有意思嗎?這時(shí)候想起知乎名言:脫離劑量,談?wù)撌澄锒拘?,都是耍流氓?/p>
3、推理邏輯混亂
許多數(shù)據(jù)分析雖然帶有翔實(shí)的數(shù)據(jù),但是邏輯推理極其混亂。
前段時(shí)間遇到某產(chǎn)品在一級入口上線新功能X,然而卻有可能和位于二級入口的原有功能Y沖突,X搶奪了使用Y的用戶。
如同大家都了解的,大公司里面做產(chǎn)品,經(jīng)常發(fā)生的事情就是左兜掏右兜,把用戶像趕鴨子一樣趕來趕去;不過總有一個(gè)兜的人因?yàn)閿?shù)據(jù)大增要得到嘉獎(jiǎng)。這里面最直觀的例子就是:不少公司的小程序用戶大增而受表揚(yáng),不過主App的數(shù)據(jù)跌了。
當(dāng)挑戰(zhàn)這個(gè)產(chǎn)品經(jīng)理的時(shí)候,他經(jīng)過一天的數(shù)據(jù)分析后得意宣稱:擔(dān)心是多余的,因?yàn)閿?shù)據(jù)顯示,使用X功能的用戶有60%使用了Y功能。
畫外音:那么使用X而不用Y的40%用戶在干嘛呢?算不算Y功能的流失?
4、扶不上墻的小規(guī)模測試
產(chǎn)品經(jīng)理為了工作的嚴(yán)謹(jǐn)性,經(jīng)常利用小規(guī)模測試甚至是AB測試來觀察新功能。然而一個(gè)詭異的現(xiàn)象卻是,小規(guī)模測試效果不錯(cuò)的功能,全量之后卻差強(qiáng)人意。這往往可能是因?yàn)槿悠钤斐傻模驗(yàn)榍髣傩那?,產(chǎn)品經(jīng)理在取樣時(shí)很容易有意或無意得形成取樣偏差。這里面常見的兩個(gè)偏差是幸存者偏差和辛普森偏差。
幸存者偏差。前一段我們公司搞用戶開放日,與應(yīng)邀前來的用戶做Focus Group(用戶焦點(diǎn)訪談)。結(jié)果在訪談中用戶對我們產(chǎn)品簡直是滿意無比,大大出乎我們意料。除去用戶保持紳士風(fēng)或淑女風(fēng)不敢當(dāng)面懟我們之外,更主要的原因是邀約是通過我們App上面的推廣,來的用戶都不是被我們傷碎了心的人,所以好感爆棚。如果基于這些用戶去做新功能的小規(guī)模測試,一定會出現(xiàn)偏差。
辛普森偏差。從網(wǎng)上摘取的一個(gè)關(guān)于腎結(jié)石治療方案的AB測試。單個(gè)病例看,A方案都優(yōu)于B方案;然而,總體看,結(jié)論反轉(zhuǎn)。這么詫異的結(jié)論主要是來源于樣本的不同:大小結(jié)石病例在A和B中的構(gòu)成比例相差較大,從而形成兩個(gè)完全不同的樣本,從而造成這樣的結(jié)果反轉(zhuǎn)。
5、亂配因果關(guān)系
據(jù)說世界上比曖昧關(guān)系更難證明的關(guān)系是因果關(guān)系,也比曖昧關(guān)系更加容易搞錯(cuò)而陷入泥潭。這里舉自己犯過的錯(cuò)誤再恰當(dāng)不過了
在面對冷門問答時(shí),自鳴得意得使用百度指數(shù)相關(guān)功能,發(fā)現(xiàn)“詩歌”和“感恩節(jié)”之前的強(qiáng)相關(guān)性,于是又找到各種理由來相信他們之間的因果關(guān)系。
雖然總覺得哪里有點(diǎn)不對,為了騙贊還是忍不住發(fā)了。結(jié)果被人打臉,更為可能的因果關(guān)系是:被人教版語文課本折磨的六年級小學(xué)生,趕上綜合性學(xué)習(xí)活動(dòng)“輕叩詩歌的大門”,課本的進(jìn)度正在這個(gè)時(shí)間點(diǎn)左右,于是大量小學(xué)生搜索“詩歌”來完成作業(yè)。
這樣錯(cuò)配因果關(guān)系的案例在生活中不少,大家可以留意收集。不過有個(gè)很有趣的國外網(wǎng)站(15 Insane Things That Correlate With Each Other)已經(jīng)這么做來搞笑了,專門列出來看似邏輯相關(guān)但是其實(shí)因果關(guān)系錯(cuò)亂的例子。發(fā)出來與大家共享,以便行文自嘲。
- 尼古拉斯凱奇在電影中的出鏡和淹死在游泳池里的人數(shù),高度相關(guān)。
- 被床單纏死的人數(shù)和人均奶酪消耗量,高度相關(guān)。
- 美國在科技及空間領(lǐng)域的投入和絞死及各種窒息的花樣作死的人數(shù),高度相關(guān)。
End.
作者:數(shù)據(jù)冰山
來源:http://www.36dsj.com/archives/95696
本文來源于人人都是產(chǎn)品經(jīng)理合作媒體@36大數(shù)據(jù),作者@數(shù)據(jù)冰山
題圖來自PEXELS,基于CC0協(xié)議
寫得不錯(cuò)哦
數(shù)據(jù)的意義在于得出想要知道的論證,論證又關(guān)系到了太多人的利益,所以造就了太多的假數(shù)據(jù)。如果想要最真實(shí)的數(shù)據(jù),就必須掌握足夠大的資源,但是資源又不是每個(gè)人都有的,大部分?jǐn)?shù)據(jù)專家用一小部分人的調(diào)研,得出了全世界的論證,,早就聽厭惡了,我從來不相信數(shù)據(jù),首先國家戶口登記都是屬于大概數(shù)字,我相信你說的什么通過研究表明…,通過調(diào)查顯示?去你的,都是利益相關(guān)者在扯淡
瞎看了一下,確實(shí)扯淡