AV色国产色拍,亚洲中文字幕久久精品无码app,久久精品道一区二区三区

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

數(shù)據(jù)是如何“騙”你的？聊聊數(shù)據(jù)分析可能遇到的坑

Allen

2020-03-06

1 評論 5349 瀏覽 37 收藏

22 分鐘

馬克吐溫：“世界上有三種謊言，分別是謊言、該死的謊言、和統(tǒng)計數(shù)字?！?/p>

數(shù)據(jù)是不是最客觀？最真實？

其實挺多人都有點迷信數(shù)據(jù)，因為數(shù)字不會說謊，考了100分就是比考了99分高。但現(xiàn)實生活遠比考試復(fù)雜，我們每天主動或被動接觸大量數(shù)據(jù)，可能是行業(yè)報告、媒體報道，也可能是產(chǎn)品廣告，做決策的時候也往往要看到數(shù)據(jù)才安心。其實，數(shù)據(jù)很多時候并不那么“單純”，用數(shù)據(jù)的人也有意無意會犯錯，所以很多時候太過迷信數(shù)據(jù)，反而容易出問題。

所以今天從數(shù)據(jù)來源偏差、數(shù)據(jù)解讀陷阱、人為操控誤導(dǎo)這三方面來聊聊數(shù)據(jù)的“坑”，希望你看完后能了解些套路，再看報告或數(shù)據(jù)時多個心眼，帶著懷疑的精神看數(shù)據(jù)。不要掉入陷阱，

一、數(shù)據(jù)來源偏差

1. 樣本量和代表性

你可能聽說過“黑巧克力能減肥”這個說法。2015年約翰波哈諾博士在一篇期刊上登出了這項研究成果，媒體記者們一看，呦，可以搞個新聞啊，把傳統(tǒng)觀念批判一下，紛紛轉(zhuǎn)載。

但其實這個事件都是波哈諾杜撰出來的，他隨便找了16個人做樣本基數(shù)，然后就推導(dǎo)出這么個結(jié)論，目的就是想看看謠言怎么變成權(quán)威媒體的頭條。研究發(fā)表后沒有一個記者來聯(lián)系他問他這個實驗的樣本量是多少、代表性怎么樣、過程是否合理，直接就發(fā)表和引用了“研究成果”。直到現(xiàn)在，還有些自媒體或者微商們在拿這條假消息當論據(jù)。

我們?yōu)槭裁匆P(guān)注樣本量和樣本代表性？

比如你要想知道年輕人對流量明星的態(tài)度，但是年輕人有好幾億，也不可能挨個問對吧。所以要抽樣，抽出幾百一千個人，用他們的態(tài)度去代表整體人群的態(tài)度。但是你找了800個小哥哥的粉絲，200個純路人，得出來的結(jié)果肯定是好好好，棒棒棒啊。

所以，樣本量和代表性是決定數(shù)據(jù)結(jié)果靠不靠譜的前提條件。

大廠們雖然看起來有“大”數(shù)據(jù)，但是由于數(shù)據(jù)孤島的存在，其實數(shù)據(jù)也是有偏向的。比如阿里固然有淘寶幾億用戶的消費數(shù)據(jù)，但是也拿不到這幾億用戶的微信數(shù)據(jù)。而且大數(shù)據(jù)基本都是行為數(shù)據(jù)，和真實態(tài)度、心理預(yù)期等等態(tài)度數(shù)據(jù)還有有差別，再有就是用相關(guān)性推測因果也有不少坑。

第三方機構(gòu)發(fā)布的數(shù)據(jù)報告，有些也號稱是大數(shù)據(jù)，數(shù)據(jù)庫里有幾百幾千萬樣本，但其實不是全集數(shù)據(jù)，多多少少也會有些偏向性。特別是在互聯(lián)網(wǎng)行為、消費行為上，我個人感覺很多數(shù)據(jù)都是偏高的。

還有就是朋友圈問卷，最近有些同學(xué)在寫論文收數(shù)據(jù)，在同學(xué)群和朋友圈發(fā)問卷當然會是比較省時省力的。但是因為答題的人背景都比較接近，所以回收回來的數(shù)據(jù)不做處理也會有些偏差，比如你想測一下某個產(chǎn)品定價，這個產(chǎn)品面向普通大眾、中低產(chǎn)消費者，但是填問卷的都是你的研究生同學(xué)，大家收入和消費能力可能是比普通大眾高一些的，收回來的定價結(jié)果可能就偏高了。所以在處理和解讀時都得注意，萬一最后影響論文答辯，還請去翟博士微博底下留言發(fā)泄。

針對這些問題，正規(guī)的調(diào)查是比較看重數(shù)據(jù)源的，會通過設(shè)置配額、分層抽樣、分散抽樣點位、小群體加權(quán)等等方式來盡可能消除偏差，讓一兩千樣本能代表廣泛人群。但是很多時候也辦法盡善盡美，還是會有很多問題。其實統(tǒng)計數(shù)據(jù)的抽樣誤差是個很大的話題，感興趣的話可以看看《簡單統(tǒng)計學(xué)》《赤裸裸的統(tǒng)計學(xué)》，里面有挺多案例，而且門檻不高，不太需要數(shù)學(xué)功底。

作為非專業(yè)人士的我們，其實看報告或者看數(shù)據(jù)時主要還是留個心眼。看看有沒有提到數(shù)據(jù)源，數(shù)據(jù)源可能帶來哪種偏差，帶著思考去看報告。如果看到一些數(shù)據(jù)結(jié)論和你的認知有差別、甚至是相反的，不用立刻相信結(jié)論，扭轉(zhuǎn)認知，而是先想一想這數(shù)據(jù)來源靠譜嘛，發(fā)數(shù)據(jù)的機構(gòu)有目的嗎。另外，也不用太糾結(jié)于具體數(shù)字（因為大概率都是不準的），而是去看數(shù)字背后的趨勢、比較、差異。

2. 問題缺陷

剛才我們也提到大數(shù)據(jù)更多是行為數(shù)據(jù)，有時要拿到態(tài)度數(shù)據(jù)，還是要靠用問卷問問題的方式。在用問卷收集數(shù)據(jù)時，如何問對問題就很有講究了。

特別是有些機構(gòu)或商家，為了得到自己想要的數(shù)據(jù)“證據(jù)”，會故意問有偏向的問題。也有些時候是寫問題的人沒有好好站在被訪者的角度去思考和設(shè)計問題，結(jié)果費了半天力，拿到的數(shù)據(jù)其實是無效的。比如這幾種情況：

（1）正面誘導(dǎo)

曾經(jīng)有個某飲料品牌打算推出新口味的飲品，推出前心里沒底，就做調(diào)查。他們問了一個問題“我們要推出一款口味更柔和的新產(chǎn)品，你會喜歡嗎？”

數(shù)據(jù)收集回來以后，發(fā)現(xiàn)喜歡的比例高達90%，品牌商看到這么樂觀的結(jié)果，立刻就投入開發(fā)和推廣，結(jié)果新品上市以后，消費者惡評如潮。現(xiàn)實和數(shù)據(jù)體現(xiàn)了如此大的反差，原因就在于問題中有一個很明顯的正面誘導(dǎo)詞“更柔和”。

（2）社會期許

還有一種情況，雖然問題中沒有明顯的正面誘導(dǎo)詞，但是人人都是有點虛榮心的。人們更傾向于向他人展現(xiàn)正面形象，所以在回答問題時，更傾向于申報“良好行為”來符合社會的期望。即使在匿名的環(huán)境下，人們也傾向于把答案往正面靠。

比如“你在公共場合抽煙的頻率如何？”這樣的問題很多人填的就比實際低?！澳銕椭鷦e人的意愿有多強？”這樣的問題很多人填的就比實際高。

（3）選項設(shè)限

這種情況就是設(shè)置問題的人可能站在自己的角度編制選項，但是被訪者看了選項后就沒辦法回答。比如調(diào)查是問“你平時鍛煉的頻率是怎么樣的”，然后能選項有“A 從不”，“B 每周不到30分鐘”，“C 每天30分鐘”，如果你每周鍛煉30分鐘要選哪個，另外每個人對鍛煉定義也也不同（遛狗算不算鍛煉？）。這樣的問題可能會讓被訪者被迫選一個不準確的答案，最后得到的結(jié)果自然也有偏差。

其實問錯問題和設(shè)錯選項并不少見，也不只有這三種情況。所以無論是看別人的數(shù)據(jù)報告，還是自己做問卷，都得注意問的問題是不是客觀無偏向，選項是不是合理。選項一般來說要盡可能符合MECE原則（Mutually Exclusive Collectively Exhaustive，互相獨立，完全窮盡）。

二、數(shù)據(jù)解讀陷阱

數(shù)據(jù)解讀可以說是遍地是坑，這里我選了比較常見和有意思的幾種。

1. 相關(guān)不等于因果

相關(guān)和因果是解讀數(shù)據(jù)繞不開的話題。特別是我們要用數(shù)據(jù)去預(yù)測趨勢，解決問題，用一件事的情況去推測和判斷另一件事，搞混相關(guān)和因果，就容易鬧笑話。

比如你可能聽過這個段子：

國內(nèi)某航母級互聯(lián)網(wǎng)影業(yè)的發(fā)言人說：“通過大數(shù)據(jù)挖掘，我們完全可以發(fā)現(xiàn)不同觀眾的相關(guān)賣品偏好。比如電影《芳華》的觀眾比《戰(zhàn)狼2》的觀眾消費了更多的熱飲，這都是我們以前從來不知道的東西！”

或者，每年冰淇淋銷量一升高，游泳溺亡人數(shù)就開始增長。所以禁止銷售冰淇淋，有助于挽救生命。

其實，事件A和事件B有相關(guān)關(guān)系，有可能有好幾種原因：

事件A引起了事件B；
事件B引起了事件A；
事件A、B其實八竿子打不著，但是事件C會引起A，也會引起B(yǎng)；
事件A、B真的沒什么關(guān)系，只是剛好湊巧數(shù)據(jù)有相關(guān)性。

你看，基本把話說全了，可能有因果關(guān)系也可能沒有因果關(guān)系。這個道理說起來簡單，好像人人也都知道，但是很多時候，甚至經(jīng)驗豐富的分析人員也會在這上面犯錯。

其實很多時候我們都是帶著期待，帶著目的在看數(shù)據(jù)，我們希望數(shù)據(jù)能告訴我們真相，給我們解答，告訴我們?yōu)槭裁?，好讓我們做出決策。所以看到兩條曲線趨勢有規(guī)律，看到兩組數(shù)據(jù)有相關(guān)，就會開始興奮，感覺自己好像抓到了答案，但這時候就往往容易過渡解讀。

數(shù)據(jù)只是數(shù)據(jù)而已，所謂答案其實不是數(shù)據(jù)告訴你的，而是你自己推出來的。越是這時候就越應(yīng)該冷靜一下，多思考，不要輕易下判斷。

2. 幸存者偏差

還有一個特別有名的誤讀，你可能也聽說過，就是大名鼎鼎的幸存者偏差。就算沒聽過這個理論，可能也聽過諸如“我好幾個朋友小學(xué)沒畢業(yè)最后都當大老板了。所以你上了大學(xué)也沒什么用，也是給我兄弟們打工?！敝惖难哉?。

幸存者偏差是怎么來的呢？

二戰(zhàn)期間，美軍計劃在飛機上安裝厚鋼板來抵抗攻擊，提升飛行員生存率。但是因為重量限制，只能給最關(guān)鍵的部位安裝。他們仔細檢查了所有返航回來的飛機機身上的彈孔分布，發(fā)現(xiàn)大部分都位于機翼和飛機尾部。于是大家就熱火朝天準備給機翼加鋼板。

但是這時候，數(shù)學(xué)家瓦爾德（Abraham Wald）就站出來反對，他說要加強那些沒彈孔的位置，比如發(fā)動機和駕駛艙。你猜為什么？反正最后的事實證明，是瓦爾德拯救了無數(shù)飛行員。

當你看到數(shù)據(jù)給了你一個結(jié)論的時候，其實可以先想一想，這個數(shù)據(jù)的基數(shù)代表了什么，和你預(yù)期的是不是一樣。

是“飛機大多會在機翼中彈而發(fā)動機沒中彈”，還是“能活下來的飛機大多會在機翼中彈而發(fā)動機沒中彈”？

3. 自選擇偏差

耶魯大學(xué)教授加里史密斯說：“人類在漫長的進化歲月中，產(chǎn)生了尋找模式并對其做出解釋的內(nèi)在傾向?！?/p>

這句話我也是看了會才看明白想說啥。

簡單來說，就是有時我們自以為找到了支持自己想法的客觀數(shù)據(jù)，但其實我們是先有了想法，再找數(shù)據(jù)來支持自己的想法，那些不符合我們所想的數(shù)據(jù)有意無意被忽視或者回避掉了。最后得到的一切看似邏輯完美、無懈可擊，但自己早就掉進自己的挖的坑里。這就是“選擇偏差”。

克里斯坦森也提到過一種數(shù)據(jù)確認謬誤。

數(shù)據(jù)有一個討厭的特質(zhì)，就是能幫我們自圓其說，支持我們想要的觀點。公司里每個團隊都有自己小心構(gòu)建的數(shù)據(jù)結(jié)果，通過其功能職責、績效指標，構(gòu)建出一個現(xiàn)實的模型，但其實這里面的數(shù)據(jù)都是精挑細選能自圓其說的。大家一起自欺欺人，相信自己有多客觀。領(lǐng)導(dǎo)者似乎通過拿A或B做比較才做出決策，但是實際上，在通向A的過程中，數(shù)據(jù)也越來越偏向A。領(lǐng)導(dǎo)者以為自己是根據(jù)明確數(shù)據(jù)做的決策，其實內(nèi)心早就心有所屬了。

還有一個描述投資人心態(tài)偏差的BSV模型，其中一條是選擇性偏差(representative bias)，也是在講投資人被市場短期表現(xiàn)和數(shù)據(jù)扭曲認知，結(jié)果對總體趨勢形成誤判。

這方面的研究還挺多的，總而言之，就是自我反思。你是根據(jù)數(shù)據(jù)有的想法，還是根據(jù)想法選的數(shù)據(jù)。說起來簡單，做起來還是很難的。

4. 辛普森悖論

這個就比較神奇了，我們還是先看個故事：

話說有個綜合大學(xué)招生，結(jié)果招生數(shù)據(jù)一公布，男拳師們紛紛表示炸了，“怎么女生錄取率這么高，看了數(shù)據(jù)的我氣得渾身發(fā)抖，大熱天的全身冷汗，手腳冰涼，這個世界怎么了，到處充斥著對男性的壓迫……”

校長也害怕拳師們打拳啊，趕緊招來秘書，“你怎么搞的，不是說了要照顧下多招男生嘛”，秘書也是一臉懵，沒錯啊，文科院和理工科院都是男生錄取率高啊。

你看，明明兩類院系都是男生錄取率高，但是一加起來，就變成女生錄取率高了。其實是文科院的女生錄取率拉高了女生整體錄取率，而理工科的男生錄取率拉低了男生整體錄取率。

這就是辛普森悖論，兩組數(shù)據(jù)分別看時都滿足某種結(jié)果/趨勢，但加起來就呈現(xiàn)相反結(jié)果/趨勢。

所以如何對待整體數(shù)據(jù)？分組數(shù)據(jù)是不是應(yīng)該簡單相加就可以得到整體數(shù)據(jù)？

我個人感覺對待整體數(shù)據(jù)還是要謹慎，有時整體數(shù)據(jù)過于濃縮，會將各組的差異在合并過程中消除掉。所以很多時候即使有了整體數(shù)據(jù)，也還是要再細分細看。

辛普森悖論還有一些妙用，比如收稅。1974年美國總統(tǒng)福特宣布給各個群體都降降稅，大家一起搞發(fā)展嘛，結(jié)果一通神奇的操作之后，總稅收率反而增加了……妙啊。

萬惡的資本主義，那屆群眾真不行。

類似的還有謝林（Thomas Schelling）的隔離模型：首先在模型里設(shè)定一個有2500人口的區(qū)域，人們隨機分布位置，每個人一開始有49.2%和自己收入相當?shù)泥従?，只?6.3%的人不滿意自己鄰居收入。

然后謝林分別模擬了兩種情況，觀察模型里人群的流動（是否搬家）：

第一種：每個人只希望身邊30%的鄰居和自己收入差不多，就能留在原地不搬家（微觀態(tài)度上人們都很寬容，不希望形成收入隔離）。
第二種：每個人希望身邊80%的鄰居和自己收入差不多，不然就會搬家（微觀態(tài)度上人們都很嚴格，希望形成收入隔離）。

結(jié)果第一種情況，不滿意的人開始搬家，導(dǎo)致更多人搬家。經(jīng)過一段時間后，模型最終穩(wěn)定下來。結(jié)果，人們平均擁有74.9%的鄰居和自己的收入水平相當，人人都滿意了，并且形成了宏觀上收入水平的隔離。

而第二種情況，大部分人都不滿意，不停地搬家，人人都不滿意，始終無法穩(wěn)定，反而沒有形成隔離。

這樣證明了微觀個體的行動和態(tài)度不一定導(dǎo)致同樣宏觀結(jié)果。

三、人為操作誤導(dǎo)

前面講的那些坑很多時候都是無意的。這部分就不太一樣了，很多數(shù)據(jù)其實稍加修飾，就成了一個個陷阱。這里簡單介紹幾種小伎倆，常見于淘寶詳情頁，微商小廣告，和忽悠傻領(lǐng)導(dǎo)。多學(xué)少上當，但是最好不要用在別人身上。

1. 放大尺度

比如你看下面這張圖，是不是增長勢頭非常猛？要是當成業(yè)績匯報給老板豈不是分分鐘要升職加薪走上巔峰。

但其實注意Y軸，這種差異只是被人為的放大了，一旦回歸正常尺度……

2. 提自己，不做對比。

這個在各類廣告里就更常見了。

“我們面膜有效修復(fù)90%肌膚問題”，“友商都是95%?！?/p>

“我們的車百米加速時間只有7秒”，“同級別都是6秒?！?/p>

其實商業(yè)分析中也有類似的場景，比如購買A類產(chǎn)品的用戶中80%都是甲類用戶，是不是就應(yīng)該給甲類用戶推薦更多A類產(chǎn)品？這個結(jié)論乍一看沒有問題，但是如果B類產(chǎn)品的用戶中90%都是甲類用戶呢？如果B類產(chǎn)品只有20%是甲類用戶，但是B類產(chǎn)品基數(shù)遠大于A類呢？

很多時候，數(shù)據(jù)還是要對比才有意義