大數(shù)據(jù)會說謊:看穿數(shù)據(jù)的真相
編輯導語:如今在這個大數(shù)據(jù)時代,我們的日常都被計算在其中,最常見的就是線上購物軟件的算法,根據(jù)大數(shù)據(jù)對你進行標簽化,推送你可能喜歡的商品;本文作者詳細分析了大數(shù)據(jù)時代的雙刃劍,我們一起來看一下。
最近接連溫習了幾本數(shù)據(jù)相關的書,作為數(shù)學系畢業(yè)的學生,雖然畢業(yè)多年都無緣從事數(shù)據(jù)相關的職業(yè),基礎的理論知識也基本化整為零,但我對數(shù)據(jù)一直都蠻感興趣的,在此也想分享下我的一些看法。
“一家公司宣布3003人持有該公司的股份,每人平均持有660股。”
乍一看,優(yōu)秀優(yōu)秀。
別急著鼓掌,這個令人驚嘆的數(shù)據(jù)背后還有另一信息沒有透露:“公司累計200萬股股票,其中三大股東的股份占了3/4,而剩下的3000人總共持有的股份只占1/4“。
同樣的,之前民間盛傳的騰訊人均月薪7.18萬,看起來是否也頗為可疑?
首先,這數(shù)據(jù)精確得讓人吃驚;其次,未加說明的平均數(shù)都是耍流氓;最后,即便你做了大樣本調查,可收入作為敏感信息,免不了參雜虛報和瞞報的情況,可信度也要大打折扣——這種話題作為媒體的噱頭聽聽就好,當真了可是要傷心的。
但事實上,人容易為數(shù)據(jù)癡迷。
學生的能力不好評估,但考試成績和學位證書可以佐證,于是家長們爭先恐后地幫孩子報了補習班;了解一個陌生人很難,但朋友圈和Facebook提供了一個渠道,于是我們都執(zhí)著于在網(wǎng)上塑造一個理想人設。
看吧,我們一直置身于大數(shù)據(jù)的熱潮中。
我的大學朋友基本上都在從事大數(shù)據(jù)計算相關的職業(yè),平常我們閑聊時,或多或少會感嘆大數(shù)據(jù)給我們帶來的雙刃劍。
在充斥數(shù)據(jù)和算法的年代,究竟是數(shù)據(jù)為我,還是我為數(shù)據(jù)?數(shù)據(jù)是不是就等于我們自己?這個命題太大,我只能隨波逐流。
今天主要是想認真探討下,這么多年來,你我曾經陷入的數(shù)據(jù)陷阱以及我們能采取的行動。
一、數(shù)據(jù)會說謊?
大數(shù)據(jù)是個好工具,尤其到了現(xiàn)在,它早已被放大了光環(huán),給我們帶來了諸多便利;你瀏覽過什么,對什么感興趣,推薦算法總是能精準地匹配你的口味(或者說,大數(shù)據(jù)定義了你的口味)。
當然,唱衰大數(shù)據(jù)的人也不少:“數(shù)據(jù)只是證實了顯而易見的事實。”不少人對此不屑一顧。
然而,我最近看到的幾個案例,都不止一次地讓我啼笑皆非:數(shù)據(jù)一次又一次地證明了很多我們想當然的推測跟真實是不相符的。
你可能會認為,在暴力電影放映后的當天,那些有攻擊性的年輕人會更易怒,犯罪率鐵定會上升;但事實上,有經濟學家通過數(shù)據(jù)分析,在電影結束后到次日的凌晨,犯罪率持續(xù)在下降;一方面暴力電影讓潛在的暴力人群離開了街頭,另一方面由于影院幾乎不供應酒類飲品,減少了酒精有關的犯罪活動。
大數(shù)據(jù)為人我們提供了一個新維度的視角,覆蓋面較單一的意會更廣,讓我們對世界的認知也更立體了。
也正是因為如此,我在看一些調研報告的時候發(fā)現(xiàn),這把雙刃劍的另一面,終于還是現(xiàn)出了他的真面目。
1. 相關性而非因果性
大數(shù)據(jù)顯示,某地某時段起飛了多少只白天鵝,據(jù)此推斷天鵝都是白的。
這顯然太扯了,但你敢拍著胸脯保證自己沒掉過這類圈套嗎?
甚至有些時候,如果我們無法證明自己想要證明的東西,下意識地就會展示一些其他東西,并假裝他們是一樣的;畢竟現(xiàn)在統(tǒng)計數(shù)據(jù)讓人目不暇接,幾乎沒人會察覺到其中的差別,不是嗎?
說到這我也不得不反思,我難道沒有過嗎?掀開這層遮羞布,坦白說,不少情況下當我試圖爭取更多的權益和話語權時,不自覺地也使了這樣的把戲。
運用“看似相關的數(shù)據(jù)”作為論據(jù),要么是無心之失,要么就是慣用伎倆。
學生時代當我還對數(shù)學建模競賽上心時,考題要求預測一個數(shù)值變化趨勢,我當時就默默發(fā)現(xiàn)了一個“秘密”,即/——給你一組數(shù)據(jù),你可以使用任一種范式去找到一個看似好使的指標,但換一組數(shù)據(jù),這個指標就失靈了;變量太多,你能試驗的樣本太少,于是你很容易發(fā)現(xiàn)這種假相關性,更別提你想基于這個相關性去推導因果性了。
退一步來說,即便我們通過一個人平常訪問網(wǎng)站的內容,監(jiān)察到他有了犯罪的沖動,那到底是抓他還是不抓他?如果我們不能保證自己是正義的,那么我們也不會在意自己是否邪惡。
有些人很擅長利用現(xiàn)有數(shù)據(jù)去預估接下來的數(shù)據(jù)變化,可能是多維度的觀察,也可能是有了足夠的數(shù)據(jù)樣本;但是,數(shù)據(jù)會變,我們會變,如果你迷信數(shù)據(jù)而忽視本質,那么大數(shù)據(jù)就不能用于預測,只能預測有意會的預測。
重申一遍,大數(shù)據(jù)只能提供相關性,而非因果性;具有純粹因果關系的事情很少,因為現(xiàn)在事物間的聯(lián)系變得越來越復雜,影響因素有很多。真正的數(shù)據(jù)是工具,而非結論或原因。
2. 數(shù)據(jù)太“薄”
人們總會錯誤地認為無論樣本數(shù)量多么少,都能反映種族的特征。
我在讀達萊爾·哈夫的《統(tǒng)計數(shù)據(jù)會說謊》時,書中提到一個經典的醫(yī)療實驗:
一個地區(qū)的450名兒童注射了小兒麻痹癥疫苗,另有680名兒童作為對照沒有接受注射;不久之后,該地區(qū)出現(xiàn)了傳染病;注射過疫苗的兒童中沒有一個患上小兒麻痹癥。
看到這,你可能要給出小兒麻痹疫苗的有效性的結論了。
但,這個實驗還有后續(xù)。事實上,對照組中也沒有兒童患?。?/p>
縱觀小兒麻痹癥的發(fā)病率,本來就比較低,這么大規(guī)模的群體中只可能出現(xiàn)兩例患病者;因此,從一開始這個實驗就注定毫無意義;如果想獲得任何有意義的結論,實驗組需要用比這個群體多15~20倍的兒童做樣本。
事實上,我們現(xiàn)在看到的很多市場調研報告,里面不乏通過小樣本去給出均值結論的例子,比如我前兩天看的90后消費人群分析:
- “84%的90后有理財習慣“;
- “34%的90后已購房“;
- “60%以上的90后將消費貸用于基本生活和休閑“……
然后我翻了下數(shù)據(jù)來源,樣本是5000人,挺多的是不是?而90后據(jù)最新數(shù)據(jù)研究已有3.62億……
只有試驗的樣本數(shù)目足夠龐大,平均數(shù)定律才是一個有用的描述或猜測。
二、看穿數(shù)據(jù)的真相
如果說前文展現(xiàn)的是目前普遍存在的數(shù)據(jù)行騙手段,那么接下來我們一起來試著看下如何去看穿數(shù)據(jù)的真相,避免被一些似是而非的東西所迷惑;畢竟“騙子”都已經熟練掌握了這些詭計,老實人又怎能不學點防御之術呢?
《統(tǒng)計數(shù)據(jù)會說謊》里給我提供了一個很好的思路,下次當我們接觸到一些數(shù)據(jù)時,不妨提出4個問題試試:
1. 是誰這么說,他怎么知道?
這個結論怎么來的?找到有意識和無意識的偏差。
比如你在機場分發(fā)消費問卷調查,那你可能就犯了選擇誤差,因為坐飛機的人相對而言比一般人更富裕些,消費水平自然會高一些。
又或者,你發(fā)現(xiàn)某個屋子里人均身高偏高,然后打開門一看,姚明坐那呢;你選擇的樣本里有過高或過低的數(shù)據(jù),樣本不平均,就會出現(xiàn)這類錯誤。
當然還有一種可能,你為了使自己拿到有利的結論,選對自己有利的數(shù)據(jù),改變衡量的標準,再使用不恰當?shù)臏y算方式;比如明明是中位數(shù)更能說明問題,卻使用了均值來計算,最后再用“平均數(shù)”來掩蓋事實真相。
這些你能想到的伎倆,別人當然也能。
2. 漏掉了什么?
在我們閱讀分析報告時,大多數(shù)情況下我們無法得知樣本中包含了多少案例;能看到的就是一張張繪制完美的圖表,配上鏗鏘有力的結論,看起來多么令人信服。
然而,如果缺乏可信的測算方式,比如概率誤差、標準誤差的檢驗,那么可信度就要大打折扣了。
尤其要留心那些未加說明的平均數(shù),因為無論在什么時候,均值和中位數(shù)都有著本質的差別。
一份報告曾指出“過去25年內因癌癥死亡的人數(shù)大幅增長”,很嚇人對不對?
但我們都知道,以前那些“原因不明”的病癥現(xiàn)在都被確診為癌癥,這是其一;此外尸體解剖更加頻繁,診斷也就更為確切;現(xiàn)在人均壽命延長,因此更多人會活到容易患癌癥的年齡;最后,報告給出的數(shù)據(jù)應該是死亡總人數(shù)而非死亡率——畢竟現(xiàn)在的人口總數(shù)比以前要多。
3. 偷換概念了嗎?
搞亂因果關系,拿詞義做文章,都是偷換概念的方式。
早在前幾年,人們普遍認為女博士的婚育年齡普遍較學歷較低的女性會更大,女博士里的剩女比例也更高;后來“剩女”一詞被人詬病后,現(xiàn)在被冠以“單身貴族”的頭銜,聽起來似乎還蠻前衛(wèi)的?
這算是很明顯的偷換概念了,本質上想傳達的觀點并沒有變化;而更多時候,在更為專業(yè)的領域,遇到偷換概念的場合,你我可能并不能一眼識別。
4. 這是否合乎情理?
那么,究竟要怎樣做才能不被毫無意義的結論愚弄?你總不能指望每個人都成為統(tǒng)計學家,親自分析數(shù)據(jù)吧?
反其道而行,你要去捕捉沒有被透露的數(shù)據(jù),留心這部分的數(shù)據(jù),就能看穿這種別有用心的手段。
此外,截止到目前為止的趨勢或許是事實,但未來的趨勢不過是我們的猜測;你不能拿現(xiàn)有的趨勢直接去臆測未來的趨勢,畢竟所有的事情不會一成不變。
比如說現(xiàn)在有個新聞是這么報道的:在大霧天氣的一周內,某地區(qū)的死亡人數(shù)猛增至2800人……
仔細想下,這一周內死亡率比平時高這么多難道不是例外嗎?所有的事情都處在變化之中。往下看,隨后幾周情況如何?死亡率降至平均水平以下,是否意味著大霧中死去的人本來就已不久于人世?
看吧,這個數(shù)據(jù)的確讓人印象深刻,但由于沒有其他數(shù)據(jù)可以對比,所以這個數(shù)據(jù)也變得沒什么意義。
三、數(shù)據(jù)是把雙刃劍
寫這篇文有點殺敵一萬自損八千的感覺,前文提到的數(shù)據(jù)陷阱,無論是假相關性、亂因果性,還是拿著薄數(shù)據(jù)去佐證對自己有利的觀點;這些我曾經陷入的圈套,同樣也在某些時刻成為了我“行騙”的工具。
究竟要怎么去用數(shù)據(jù)呢?我已許久沒系統(tǒng)性地做過數(shù)據(jù)挖掘和統(tǒng)計分析,但我相信大數(shù)據(jù)廣闊的應用前景,也在大數(shù)據(jù)給出的相關性規(guī)律里獲益匪淺;我也在反思,在數(shù)據(jù)至上的時代,我是不是過少地發(fā)現(xiàn)它的局限性,過分地依賴它給的結論。
至于那些拿大數(shù)據(jù)用以評判個人、組織乃至社會,特別是關乎人性抉擇、生殺進退的大事,我們是否又能接受這些冰冷的數(shù)據(jù)澆滅人情的熱度?
一起拭目以待吧。
再次強推最近讀完的這三本書,給了我對于數(shù)據(jù)和認知上更多的啟發(fā):
- 賽思·斯蒂芬斯:《人人都在說謊:赤裸裸的數(shù)據(jù)真相》
- 斯科特·佩奇《多樣性紅利》
- 達萊爾·哈夫《統(tǒng)計數(shù)據(jù)會說謊》
#專欄作家#
林壯壯,微信公眾號:健壯的大姐姐(ID: is_strong),人人都是產品經理專欄作家。騰訊高級產品經理,專注于To B服務項目管理和行業(yè)分析,歡迎各路好漢一起探討。
本文原創(chuàng)發(fā)布于人人都是產品經理。未經許可,禁止轉載
題圖來自pexels,基于CC0協(xié)議
這些問題在《思考快與慢》中都有出現(xiàn)!這個有沒有可能是數(shù)據(jù)本身沒有任何偏好,有偏好的是人的主動選擇。人主動選擇造成了數(shù)據(jù)在說謊!