數(shù)據(jù)是如何“騙”你的?聊聊數(shù)據(jù)分析可能遇到的坑
馬克吐溫:“世界上有三種謊言,分別是謊言、該死的謊言、和統(tǒng)計數(shù)字?!?/p>
數(shù)據(jù)是不是最客觀?最真實?
其實挺多人都有點迷信數(shù)據(jù),因為數(shù)字不會說謊,考了100分就是比考了99分高。但現(xiàn)實生活遠比考試復(fù)雜,我們每天主動或被動接觸大量數(shù)據(jù),可能是行業(yè)報告、媒體報道,也可能是產(chǎn)品廣告,做決策的時候也往往要看到數(shù)據(jù)才安心。其實,數(shù)據(jù)很多時候并不那么“單純”,用數(shù)據(jù)的人也有意無意會犯錯,所以很多時候太過迷信數(shù)據(jù),反而容易出問題。
所以今天從數(shù)據(jù)來源偏差、數(shù)據(jù)解讀陷阱、人為操控誤導(dǎo)這三方面來聊聊數(shù)據(jù)的“坑”,希望你看完后能了解些套路,再看報告或數(shù)據(jù)時多個心眼,帶著懷疑的精神看數(shù)據(jù)。不要掉入陷阱,
一、數(shù)據(jù)來源偏差
1. 樣本量和代表性
你可能聽說過“黑巧克力能減肥”這個說法。2015年約翰波哈諾博士在一篇期刊上登出了這項研究成果,媒體記者們一看,呦,可以搞個新聞啊,把傳統(tǒng)觀念批判一下,紛紛轉(zhuǎn)載。
但其實這個事件都是波哈諾杜撰出來的,他隨便找了16個人做樣本基數(shù),然后就推導(dǎo)出這么個結(jié)論,目的就是想看看謠言怎么變成權(quán)威媒體的頭條。研究發(fā)表后沒有一個記者來聯(lián)系他問他這個實驗的樣本量是多少、代表性怎么樣、過程是否合理,直接就發(fā)表和引用了“研究成果”。直到現(xiàn)在,還有些自媒體或者微商們在拿這條假消息當論據(jù)。
我們?yōu)槭裁匆P(guān)注樣本量和樣本代表性?
比如你要想知道年輕人對流量明星的態(tài)度,但是年輕人有好幾億,也不可能挨個問對吧。所以要抽樣,抽出幾百一千個人,用他們的態(tài)度去代表整體人群的態(tài)度。但是你找了800個小哥哥的粉絲,200個純路人,得出來的結(jié)果肯定是好好好,棒棒棒啊。
所以,樣本量和代表性是決定數(shù)據(jù)結(jié)果靠不靠譜的前提條件。
大廠們雖然看起來有“大”數(shù)據(jù),但是由于數(shù)據(jù)孤島的存在,其實數(shù)據(jù)也是有偏向的。比如阿里固然有淘寶幾億用戶的消費數(shù)據(jù),但是也拿不到這幾億用戶的微信數(shù)據(jù)。而且大數(shù)據(jù)基本都是行為數(shù)據(jù),和真實態(tài)度、心理預(yù)期等等態(tài)度數(shù)據(jù)還有有差別,再有就是用相關(guān)性推測因果也有不少坑。
第三方機構(gòu)發(fā)布的數(shù)據(jù)報告,有些也號稱是大數(shù)據(jù),數(shù)據(jù)庫里有幾百幾千萬樣本,但其實不是全集數(shù)據(jù),多多少少也會有些偏向性。特別是在互聯(lián)網(wǎng)行為、消費行為上,我個人感覺很多數(shù)據(jù)都是偏高的。
還有就是朋友圈問卷,最近有些同學(xué)在寫論文收數(shù)據(jù),在同學(xué)群和朋友圈發(fā)問卷當然會是比較省時省力的。但是因為答題的人背景都比較接近,所以回收回來的數(shù)據(jù)不做處理也會有些偏差,比如你想測一下某個產(chǎn)品定價,這個產(chǎn)品面向普通大眾、中低產(chǎn)消費者,但是填問卷的都是你的研究生同學(xué),大家收入和消費能力可能是比普通大眾高一些的,收回來的定價結(jié)果可能就偏高了。所以在處理和解讀時都得注意,萬一最后影響論文答辯,還請去翟博士微博底下留言發(fā)泄。
針對這些問題,正規(guī)的調(diào)查是比較看重數(shù)據(jù)源的,會通過設(shè)置配額、分層抽樣、分散抽樣點位、小群體加權(quán)等等方式來盡可能消除偏差,讓一兩千樣本能代表廣泛人群。但是很多時候也辦法盡善盡美,還是會有很多問題。其實統(tǒng)計數(shù)據(jù)的抽樣誤差是個很大的話題,感興趣的話可以看看《簡單統(tǒng)計學(xué)》《赤裸裸的統(tǒng)計學(xué)》,里面有挺多案例,而且門檻不高,不太需要數(shù)學(xué)功底。
作為非專業(yè)人士的我們,其實看報告或者看數(shù)據(jù)時主要還是留個心眼。看看有沒有提到數(shù)據(jù)源,數(shù)據(jù)源可能帶來哪種偏差,帶著思考去看報告。如果看到一些數(shù)據(jù)結(jié)論和你的認知有差別、甚至是相反的,不用立刻相信結(jié)論,扭轉(zhuǎn)認知,而是先想一想這數(shù)據(jù)來源靠譜嘛,發(fā)數(shù)據(jù)的機構(gòu)有目的嗎。另外,也不用太糾結(jié)于具體數(shù)字(因為大概率都是不準的),而是去看數(shù)字背后的趨勢、比較、差異。
2. 問題缺陷
剛才我們也提到大數(shù)據(jù)更多是行為數(shù)據(jù),有時要拿到態(tài)度數(shù)據(jù),還是要靠用問卷問問題的方式。在用問卷收集數(shù)據(jù)時,如何問對問題就很有講究了。
特別是有些機構(gòu)或商家,為了得到自己想要的數(shù)據(jù)“證據(jù)”,會故意問有偏向的問題。也有些時候是寫問題的人沒有好好站在被訪者的角度去思考和設(shè)計問題,結(jié)果費了半天力,拿到的數(shù)據(jù)其實是無效的。比如這幾種情況:
(1)正面誘導(dǎo)
曾經(jīng)有個某飲料品牌打算推出新口味的飲品,推出前心里沒底,就做調(diào)查。他們問了一個問題“我們要推出一款口味更柔和的新產(chǎn)品,你會喜歡嗎?”
數(shù)據(jù)收集回來以后,發(fā)現(xiàn)喜歡的比例高達90%,品牌商看到這么樂觀的結(jié)果,立刻就投入開發(fā)和推廣,結(jié)果新品上市以后,消費者惡評如潮。現(xiàn)實和數(shù)據(jù)體現(xiàn)了如此大的反差,原因就在于問題中有一個很明顯的正面誘導(dǎo)詞“更柔和”。
(2)社會期許
還有一種情況,雖然問題中沒有明顯的正面誘導(dǎo)詞,但是人人都是有點虛榮心的。人們更傾向于向他人展現(xiàn)正面形象,所以在回答問題時,更傾向于申報“良好行為”來符合社會的期望。即使在匿名的環(huán)境下,人們也傾向于把答案往正面靠。
比如“你在公共場合抽煙的頻率如何?”這樣的問題很多人填的就比實際低?!澳銕椭鷦e人的意愿有多強?”這樣的問題很多人填的就比實際高。
(3)選項設(shè)限
這種情況就是設(shè)置問題的人可能站在自己的角度編制選項,但是被訪者看了選項后就沒辦法回答。比如調(diào)查是問“你平時鍛煉的頻率是怎么樣的”,然后能選項有“A 從不”,“B 每周不到30分鐘”,“C 每天30分鐘”,如果你每周鍛煉30分鐘要選哪個,另外每個人對鍛煉定義也也不同(遛狗算不算鍛煉?)。這樣的問題可能會讓被訪者被迫選一個不準確的答案,最后得到的結(jié)果自然也有偏差。
其實問錯問題和設(shè)錯選項并不少見,也不只有這三種情況。所以無論是看別人的數(shù)據(jù)報告,還是自己做問卷,都得注意問的問題是不是客觀無偏向,選項是不是合理。選項一般來說要盡可能符合MECE原則(Mutually Exclusive Collectively Exhaustive,互相獨立,完全窮盡)。
二、數(shù)據(jù)解讀陷阱
數(shù)據(jù)解讀可以說是遍地是坑,這里我選了比較常見和有意思的幾種。
1. 相關(guān)不等于因果
相關(guān)和因果是解讀數(shù)據(jù)繞不開的話題。特別是我們要用數(shù)據(jù)去預(yù)測趨勢,解決問題,用一件事的情況去推測和判斷另一件事,搞混相關(guān)和因果,就容易鬧笑話。
比如你可能聽過這個段子:
國內(nèi)某航母級互聯(lián)網(wǎng)影業(yè)的發(fā)言人說:“通過大數(shù)據(jù)挖掘,我們完全可以發(fā)現(xiàn)不同觀眾的相關(guān)賣品偏好。比如電影《芳華》的觀眾比《戰(zhàn)狼2》的觀眾消費了更多的熱飲,這都是我們以前從來不知道的東西!”
或者,每年冰淇淋銷量一升高,游泳溺亡人數(shù)就開始增長。所以禁止銷售冰淇淋,有助于挽救生命。
其實,事件A和事件B有相關(guān)關(guān)系,有可能有好幾種原因:
- 事件A引起了事件B;
- 事件B引起了事件A;
- 事件A、B其實八竿子打不著,但是事件C會引起A,也會引起B(yǎng);
- 事件A、B真的沒什么關(guān)系,只是剛好湊巧數(shù)據(jù)有相關(guān)性。
你看,基本把話說全了,可能有因果關(guān)系也可能沒有因果關(guān)系。這個道理說起來簡單,好像人人也都知道,但是很多時候,甚至經(jīng)驗豐富的分析人員也會在這上面犯錯。
其實很多時候我們都是帶著期待,帶著目的在看數(shù)據(jù),我們希望數(shù)據(jù)能告訴我們真相,給我們解答,告訴我們?yōu)槭裁?,好讓我們做出決策。所以看到兩條曲線趨勢有規(guī)律,看到兩組數(shù)據(jù)有相關(guān),就會開始興奮,感覺自己好像抓到了答案,但這時候就往往容易過渡解讀。
數(shù)據(jù)只是數(shù)據(jù)而已,所謂答案其實不是數(shù)據(jù)告訴你的,而是你自己推出來的。越是這時候就越應(yīng)該冷靜一下,多思考,不要輕易下判斷。
2. 幸存者偏差
還有一個特別有名的誤讀,你可能也聽說過,就是大名鼎鼎的幸存者偏差。就算沒聽過這個理論,可能也聽過諸如“我好幾個朋友小學(xué)沒畢業(yè)最后都當大老板了。所以你上了大學(xué)也沒什么用,也是給我兄弟們打工?!敝惖难哉?。
幸存者偏差是怎么來的呢?
二戰(zhàn)期間,美軍計劃在飛機上安裝厚鋼板來抵抗攻擊,提升飛行員生存率。但是因為重量限制,只能給最關(guān)鍵的部位安裝。他們仔細檢查了所有返航回來的飛機機身上的彈孔分布,發(fā)現(xiàn)大部分都位于機翼和飛機尾部。于是大家就熱火朝天準備給機翼加鋼板。
但是這時候,數(shù)學(xué)家瓦爾德(Abraham Wald)就站出來反對,他說要加強那些沒彈孔的位置,比如發(fā)動機和駕駛艙。你猜為什么?反正最后的事實證明,是瓦爾德拯救了無數(shù)飛行員。
當你看到數(shù)據(jù)給了你一個結(jié)論的時候,其實可以先想一想,這個數(shù)據(jù)的基數(shù)代表了什么,和你預(yù)期的是不是一樣。
是“飛機大多會在機翼中彈而發(fā)動機沒中彈”,還是“能活下來的飛機大多會在機翼中彈而發(fā)動機沒中彈”?
3. 自選擇偏差
耶魯大學(xué)教授加里史密斯說:“人類在漫長的進化歲月中,產(chǎn)生了尋找模式并對其做出解釋的內(nèi)在傾向?!?/p>
這句話我也是看了會才看明白想說啥。
簡單來說,就是有時我們自以為找到了支持自己想法的客觀數(shù)據(jù),但其實我們是先有了想法,再找數(shù)據(jù)來支持自己的想法,那些不符合我們所想的數(shù)據(jù)有意無意被忽視或者回避掉了。最后得到的一切看似邏輯完美、無懈可擊,但自己早就掉進自己的挖的坑里。這就是“選擇偏差”。
克里斯坦森也提到過一種數(shù)據(jù)確認謬誤。
數(shù)據(jù)有一個討厭的特質(zhì),就是能幫我們自圓其說,支持我們想要的觀點。公司里每個團隊都有自己小心構(gòu)建的數(shù)據(jù)結(jié)果,通過其功能職責、績效指標,構(gòu)建出一個現(xiàn)實的模型,但其實這里面的數(shù)據(jù)都是精挑細選能自圓其說的。大家一起自欺欺人,相信自己有多客觀。領(lǐng)導(dǎo)者似乎通過拿A或B做比較才做出決策,但是實際上,在通向A的過程中,數(shù)據(jù)也越來越偏向A。領(lǐng)導(dǎo)者以為自己是根據(jù)明確數(shù)據(jù)做的決策,其實內(nèi)心早就心有所屬了。
還有一個描述投資人心態(tài)偏差的BSV模型,其中一條是選擇性偏差(representative bias),也是在講投資人被市場短期表現(xiàn)和數(shù)據(jù)扭曲認知,結(jié)果對總體趨勢形成誤判。
這方面的研究還挺多的,總而言之,就是自我反思。你是根據(jù)數(shù)據(jù)有的想法,還是根據(jù)想法選的數(shù)據(jù)。說起來簡單,做起來還是很難的。
4. 辛普森悖論
這個就比較神奇了,我們還是先看個故事:
話說有個綜合大學(xué)招生,結(jié)果招生數(shù)據(jù)一公布,男拳師們紛紛表示炸了,“怎么女生錄取率這么高,看了數(shù)據(jù)的我氣得渾身發(fā)抖,大熱天的全身冷汗,手腳冰涼,這個世界怎么了,到處充斥著對男性的壓迫……”
校長也害怕拳師們打拳啊,趕緊招來秘書,“你怎么搞的,不是說了要照顧下多招男生嘛”,秘書也是一臉懵,沒錯啊,文科院和理工科院都是男生錄取率高啊。
你看,明明兩類院系都是男生錄取率高,但是一加起來,就變成女生錄取率高了。其實是文科院的女生錄取率拉高了女生整體錄取率,而理工科的男生錄取率拉低了男生整體錄取率。
這就是辛普森悖論,兩組數(shù)據(jù)分別看時都滿足某種結(jié)果/趨勢,但加起來就呈現(xiàn)相反結(jié)果/趨勢。
所以如何對待整體數(shù)據(jù)?分組數(shù)據(jù)是不是應(yīng)該簡單相加就可以得到整體數(shù)據(jù)?
我個人感覺對待整體數(shù)據(jù)還是要謹慎,有時整體數(shù)據(jù)過于濃縮,會將各組的差異在合并過程中消除掉。所以很多時候即使有了整體數(shù)據(jù),也還是要再細分細看。
辛普森悖論還有一些妙用,比如收稅。1974年美國總統(tǒng)福特宣布給各個群體都降降稅,大家一起搞發(fā)展嘛,結(jié)果一通神奇的操作之后,總稅收率反而增加了……妙啊。
萬惡的資本主義,那屆群眾真不行。
類似的還有謝林(Thomas Schelling)的隔離模型:首先在模型里設(shè)定一個有2500人口的區(qū)域,人們隨機分布位置,每個人一開始有49.2%和自己收入相當?shù)泥従?,只?6.3%的人不滿意自己鄰居收入。
然后謝林分別模擬了兩種情況,觀察模型里人群的流動(是否搬家):
- 第一種:每個人只希望身邊30%的鄰居和自己收入差不多,就能留在原地不搬家(微觀態(tài)度上人們都很寬容,不希望形成收入隔離)。
- 第二種:每個人希望身邊80%的鄰居和自己收入差不多,不然就會搬家(微觀態(tài)度上人們都很嚴格,希望形成收入隔離)。
結(jié)果第一種情況,不滿意的人開始搬家,導(dǎo)致更多人搬家。經(jīng)過一段時間后,模型最終穩(wěn)定下來。結(jié)果,人們平均擁有74.9%的鄰居和自己的收入水平相當,人人都滿意了,并且形成了宏觀上收入水平的隔離。
而第二種情況,大部分人都不滿意,不停地搬家,人人都不滿意,始終無法穩(wěn)定,反而沒有形成隔離。
這樣證明了微觀個體的行動和態(tài)度不一定導(dǎo)致同樣宏觀結(jié)果。
三、人為操作誤導(dǎo)
前面講的那些坑很多時候都是無意的。這部分就不太一樣了,很多數(shù)據(jù)其實稍加修飾,就成了一個個陷阱。這里簡單介紹幾種小伎倆,常見于淘寶詳情頁,微商小廣告,和忽悠傻領(lǐng)導(dǎo)。多學(xué)少上當,但是最好不要用在別人身上。
1. 放大尺度
比如你看下面這張圖,是不是增長勢頭非常猛?要是當成業(yè)績匯報給老板豈不是分分鐘要升職加薪走上巔峰。
但其實注意Y軸,這種差異只是被人為的放大了,一旦回歸正常尺度……
2. 提自己,不做對比。
這個在各類廣告里就更常見了。
“我們面膜有效修復(fù)90%肌膚問題”,“友商都是95%?!?/p>
“我們的車百米加速時間只有7秒”,“同級別都是6秒?!?/p>
其實商業(yè)分析中也有類似的場景,比如購買A類產(chǎn)品的用戶中80%都是甲類用戶,是不是就應(yīng)該給甲類用戶推薦更多A類產(chǎn)品?這個結(jié)論乍一看沒有問題,但是如果B類產(chǎn)品的用戶中90%都是甲類用戶呢?如果B類產(chǎn)品只有20%是甲類用戶,但是B類產(chǎn)品基數(shù)遠大于A類呢?
很多時候,數(shù)據(jù)還是要對比才有意義
3. 自定標準
只要你敢加的標簽足夠多,你就永遠是名列前茅。雖然小明考試考了班里的40名,但是他在第四列所有身高1.7以上的學(xué)生中排第2,希望小明的爸爸聽完能放過他。
所以再看到有廣告聲稱自己產(chǎn)品排名怎么怎么樣,可以想一想這排名是怎么排出來的。
4. 片面釋放
為什么每次平均收入一公布,大家都覺得自己拖后腿了?
其實數(shù)據(jù)分布情況不一樣,平均數(shù)有時并不能描述“平均情況”。還有中位數(shù)、眾數(shù)呢。
總而言之,數(shù)據(jù)也只是數(shù)據(jù),它來幫助我們理解復(fù)雜世界中的龐大信息,但是不是萬能的,是來幫我們解釋,而不是替我們思考的,所以“盡信數(shù)據(jù),還不如無數(shù)據(jù)”。
本文由 @Allen 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
辛普森悖論和謝林隔離模型都很有意思,長知識了