人人都要懂數(shù)據(jù)分析
數(shù)據(jù)不會說謊,但是使用數(shù)據(jù)的人會利用數(shù)據(jù)說謊,想要不掉進數(shù)據(jù)的陷阱,首先你必須懂數(shù)據(jù)。
本文的靈感來自Khan academy的宣傳視頻 You can learn anything!
The most beautiful, complex concepts in the whole universe are built on basic ideas that anyone, anywhere can understand.
Whoever you are, wherever you are, you only have to know one thing:You can learn anything!
我與數(shù)據(jù)的淵源起于高中吧,之前數(shù)學(xué)一直平平,高一遇到了一個好老師突然開竅數(shù)學(xué)一直都不錯。后來到了大學(xué)商學(xué)院基礎(chǔ)課程中有統(tǒng)計,研究生專修市場分析學(xué),更系統(tǒng)的學(xué)習(xí)了統(tǒng)計學(xué),搞搞聚類因子分析、決策樹和邏輯回歸模型啥的(捂臉都忘了)。
第一份工作天天寫SAS代碼,后面的工作更多是對數(shù)據(jù)的解讀和分析,我覺得吧,其實不管從事什么工作,都需要懂數(shù)據(jù)分析。
正所謂“流氓懂科學(xué),誰也擋不住”。如今越來越多的復(fù)雜統(tǒng)計數(shù)據(jù)像潮水般向我們涌來,一批又一批的調(diào)查結(jié)果,都顯得那么鏗鏘有力,似乎那就是客觀事實。統(tǒng)計陷阱被科學(xué)流氓們包裝的越發(fā)完美,一不小心就把我們忽悠了。
先不論其他的目的,為了防止被忽悠,培養(yǎng)批判性思考的能力,我們要學(xué)學(xué)數(shù)據(jù)分析!
數(shù)據(jù)解讀,正確的數(shù)據(jù)解讀,是所有數(shù)據(jù)分析工作最關(guān)鍵的一步,這一步錯了,前面的所有努力都是白搭,然后,往往很多人簡單的以為“數(shù)據(jù)會說話”,他們認為把數(shù)據(jù)處理完一擺就ok了
幸存者偏差(Survivorship bias),另譯為“生存者偏差”或“存活者偏差”,駁斥的是一種常見的邏輯謬誤(“謬誤”而不是“偏差”),這個被駁斥的邏輯謬誤指的是只能看到經(jīng)過某種篩選而產(chǎn)生的結(jié)果,而沒有意識到篩選的過程,因此忽略了被篩選掉的關(guān)鍵信息。
這東西的別名有很多,比如“沉默的數(shù)據(jù)”、“死人不會說話”等等。
在日常生活中,最明顯的例子就是“我親戚吃這個藥好了”或者“我一個朋友去找了這個老中醫(yī)”等等。
不管你的親戚和朋友和你關(guān)系如何好,如何值得信任和尊重,在客觀規(guī)律面前他們都是等同的。疾病和醫(yī)藥不會因為你的喜好而照顧或者偏袒你的親朋。
如何應(yīng)對呢?最明顯的辦法當然是讓“死人”說話。雙盲實驗設(shè)計和詳細全面客觀的數(shù)據(jù)紀錄都是應(yīng)對“幸存者偏差”的良方。
所謂“兼聽則明”也是這個道理,拋掉對個案的迷信,全面系統(tǒng)的了解才能克服這個偏差。
美國人的錢袋長、高都是羅坦提亞木匠的兩倍,看起來挺忠實于數(shù)據(jù)的,但是右邊錢袋實際占用的面積就是左邊的4倍。
這幅圖像導(dǎo)致的暗示效果其實還沒完,因為在生活中錢袋都是立體的,所以每個讀者看到這個錢袋的時候會不經(jīng)意地給它加上一個厚度,這樣一來,在有些人眼里這幅圖表達的明明是美國木匠的收入是羅坦提亞的8倍——這樣的印象完全脫離了原始數(shù)據(jù)所給出的信息,無疑是一次成功的誤導(dǎo)。
在美國與西班牙交戰(zhàn)期間,美國海軍的死亡率是 9‰,而同時期紐約市居民的死亡率是 16‰。后來海軍征兵人員就用這些數(shù)據(jù)來證明參軍更安全。
如果假定這些數(shù)據(jù)是正確的,那 么促使這種差異產(chǎn)生的真正原因是什么?海軍征兵人員根據(jù)兩個數(shù)據(jù)的差異得出的結(jié)論是否正確?
這兩組對象是不可比的。海軍主要由那些體格健壯的年輕人組成,而城市居民包括嬰兒、 老人、病人,他們無論在哪兒都有較高的死亡率。這些數(shù)據(jù)根本不能說明符合參軍標準的人 在海軍會比在其他地方有更高的存活機 會,相反的結(jié)論也不能證明。
在上例中,當抽煙與低分同時出現(xiàn)時,人們得到了一個未經(jīng)證實的假設(shè),抽煙導(dǎo)致低分。
難道就不能是相反的解 釋嗎?也許低分促使學(xué)生不喝酒而變得愛抽煙。這種說法與前一種一樣能得到證據(jù)很好的支撐。只是它不能夠滿足宣傳人員的要求。然而,更大的可能性是兩個周素并不互為因果,而同為第三個因素的產(chǎn)物。
是否那些不把讀書當回事的愛社交的學(xué)生更愛抽煙?又或者是否可以在有人曾經(jīng)建立的性格外向與成績之間的相關(guān)關(guān)系(其相關(guān)性比成績和智力的相關(guān)性更高)上找到線索?也許,性格外向的學(xué)生比性格內(nèi)向的更愛抽煙。
一種相關(guān)是由于機緣巧合而產(chǎn)生的。由于機會的存在,你或許可以通過一組數(shù)據(jù)來證明 一些根本不存在的結(jié)論。但換一組數(shù)據(jù)也許又無法證明。就像自稱能防止蛀牙的牙膏生產(chǎn)廠商,你只需將對自己不利的資料扔到一邊而公開你需要的結(jié)論就能達到目的。
利用小樣本, 任意兩個你能想到的事件或兩組特性之間都能建立顯著的相關(guān)。
本文由@cyx1106 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
麥肯錫里呆過吧
阿米巴
作為一名數(shù)據(jù)分析師所具備的基本“素質(zhì)”
看的一頭霧水,各種高大上,看完還是不知道該咋干
有找到什么好的數(shù)據(jù)分析實例文章分享嘛
mece 用的淋漓盡致
把統(tǒng)計學(xué)原理都搬出來了(?>?<)☆
學(xué)習(xí),怎么科學(xué)使用數(shù)據(jù)