如何避免被真實(shí)的數(shù)據(jù)欺騙?

15 評(píng)論 2828 瀏覽 13 收藏 12 分鐘

編輯導(dǎo)語(yǔ):在日常生活和工作當(dāng)中,我們會(huì)用一些數(shù)據(jù)來描述事實(shí),那你有被數(shù)據(jù)所欺騙嗎?本文作者從樣本、口徑、統(tǒng)計(jì)、結(jié)構(gòu)和對(duì)比這五個(gè)角度分析了數(shù)據(jù)欺騙我們的小細(xì)節(jié),感興趣的童鞋一起來看看吧。

在日常的工作中,作為數(shù)據(jù)部門,我們常常說:數(shù)據(jù)就是領(lǐng)導(dǎo)力。

很多時(shí)候,如果工作中發(fā)生了沖突,站在A的角度有A的道理,站在B的角度,有B的道理,一上來講道理是很難達(dá)成一致意見的。但是,講數(shù)據(jù)是有可能解決分歧的,因?yàn)橹v數(shù)據(jù)就是講事實(shí),事實(shí)只可能是一個(gè)。

然而,工作和生活中,我們常常發(fā)現(xiàn),就算數(shù)據(jù)完全真實(shí),我們依然有可能被欺騙,今天就分享一些基本方法,避免被真實(shí)的數(shù)據(jù)欺騙。

一、樣本謊言

樣本謊言指的是,我們面對(duì)的客觀對(duì)象龐大而復(fù)雜,在時(shí)間、成本、能力等因素的限制下,沒辦法做到全量測(cè)量,只能對(duì)抽取的樣本進(jìn)行測(cè)量。抽樣的問題在于,如何確保樣本能夠代表整體。存在極端小樣本或者無樣本的例子:

  • 小樣本:中國(guó)男足在世界杯漫長(zhǎng)歷史上僅僅輸了三場(chǎng)。
  • 無樣本:中國(guó)男足在02年世界杯后,再也沒有輸過一場(chǎng)世界杯比賽。

當(dāng)然,這是段子,有些人說,我把樣本的量盡可能多,不就可以避免這個(gè)問題。

其實(shí)不是的,耳熟能詳是1936年美國(guó)大選,《文學(xué)文摘》雜志調(diào)查了240萬選民,而蓋洛普只調(diào)查了5000人,結(jié)果蓋洛普預(yù)測(cè)成功。最大的區(qū)別在于,蓋洛普是按照全部選民的人口結(jié)構(gòu),同比例進(jìn)行抽樣,樣本雖小,但足夠典型。

在現(xiàn)實(shí)生活中,還有一種場(chǎng)景,是人為地選擇性地?cái)U(kuò)大或者挑選樣本,造成對(duì)信息接收方的誤導(dǎo)。

舉個(gè)例子,我參加軟考,沒通過,然后就跟周圍人說,軟考太難了,通過率甚至不到10%。這的確是個(gè)真實(shí)的數(shù)據(jù)。

但我沒說的是,軟考的棄考率非常高,只有不到30%的考生參加了考試,如果以參加考試考生作為基數(shù),通過率就超過40%,并沒有我所說的那么難。

面對(duì)一個(gè)統(tǒng)計(jì)數(shù)據(jù),要有意識(shí)地確認(rèn)這個(gè)數(shù)據(jù)究竟是整體,還是樣本?樣本在整體中的占比是多少、如何進(jìn)行抽樣的?對(duì)于想要表達(dá)的觀點(diǎn),樣本是否有意義。

二、口徑謊言

口徑謊言,每一個(gè)指標(biāo)都有其統(tǒng)計(jì)邏輯,在不知道背后邏輯的情況下,你以為你看到的數(shù)據(jù)就真的是你想的那樣嗎?就以現(xiàn)在新冠疫情為例,究竟新冠死亡人數(shù),是die of 還是die with,兩者的差距非常大。

在信用卡行業(yè),在比較用戶規(guī)模的時(shí)候,到底是發(fā)卡量、還是新增賬戶還是流通賬戶,背后的數(shù)據(jù)就千差萬別。即便是相同的指標(biāo):新增賬戶,背后的口徑也有非常多細(xì)微的差別,反映到數(shù)據(jù)上,就可能謬以千里。

在不了解具體口徑的情況下,盲目根據(jù)數(shù)據(jù)進(jìn)行判斷,就容易掉入數(shù)據(jù)陷阱。

還有一種情況,就是通過時(shí)間軸看趨勢(shì)的時(shí)候,口徑雖然沒變,但是忽略了重要的變化因素,影響對(duì)數(shù)據(jù)趨勢(shì)的判斷。

舉個(gè)例子,在分析不良率的時(shí)候,直接看數(shù)據(jù),會(huì)發(fā)現(xiàn)指標(biāo)持續(xù)降低,大家看了都很興奮。

但是,如果你知道不良率=不良余額/貸款余額,你就會(huì)思考,不良率的降低,究竟是因?yàn)椴涣加囝~控制住了,還是貸款余額,把盤子做大了導(dǎo)致的?

如果是后者,那么,風(fēng)險(xiǎn)只是暫時(shí)掩蓋了而已,不良率數(shù)字上的降低是存在欺騙性質(zhì)的。

面對(duì)一個(gè)統(tǒng)計(jì)指標(biāo),需要注意的是,你得了解其中計(jì)算邏輯,以及哪些因素的變化可能影響數(shù)據(jù)的走勢(shì)。

在使用指標(biāo)的過程中,要有意識(shí)地確認(rèn):這個(gè)指標(biāo)可以橫向?qū)Ρ葐??可以縱向回溯嗎?

三、統(tǒng)計(jì)謊言

平均數(shù)謊言常見于各類不專業(yè)的媒體,比如媒體會(huì)經(jīng)常制造出類似“騰訊員工平均月薪7萬”的新聞,很多騰訊員工直呼被平均,現(xiàn)在都成了段子。其實(shí),類似的問題還有很多,比如李克強(qiáng)總理說,我們?nèi)司昕芍涫杖胧?萬元人民幣,但是有6億中低收入及以下人群,他們平均每個(gè)月的收入也就1000元左右。

在分布非常不均勻的時(shí)候,用平均數(shù)試圖描述每個(gè)人狀況就不合適了,中位數(shù)或者眾數(shù)更能體現(xiàn)真實(shí)的情況。另外,還有一種百分比謊言,比如某個(gè)專業(yè)的研究生,百分百進(jìn)入大廠,大家驚呼太厲害了,但事實(shí)上,可能這個(gè)專業(yè)同一屆畢業(yè)研究生可能不到5人。

平均數(shù)容易掩蓋差距,百分比會(huì)掩蓋規(guī)模,看到統(tǒng)計(jì)數(shù)據(jù),要學(xué)會(huì)還原原始值、要學(xué)會(huì)看分布,多想想背后有哪些特殊情景有可能會(huì)扭曲事實(shí)。

四、結(jié)構(gòu)謊言

剛畢業(yè)的時(shí)候我在房地產(chǎn)公司寫市場(chǎng)報(bào)告,每周我都需要統(tǒng)計(jì)當(dāng)周新房成交單價(jià),進(jìn)行環(huán)比同比,判斷房?jī)r(jià)的走勢(shì)。有一次,我發(fā)現(xiàn)當(dāng)周的房?jī)r(jià)出現(xiàn)大幅下降,與當(dāng)時(shí)市場(chǎng)行情相反,我感覺數(shù)據(jù)有問題。

經(jīng)過仔細(xì)比較,我發(fā)現(xiàn)數(shù)據(jù)是真實(shí)的,造成房?jī)r(jià)波動(dòng)的原因是當(dāng)時(shí)郊區(qū)有個(gè)樓盤當(dāng)天成交了大量房源,影響了成交新房的結(jié)構(gòu),導(dǎo)致全市的房?jī)r(jià)被拉低了。進(jìn)一步可以發(fā)現(xiàn)神奇的現(xiàn)象,郊區(qū)的大盤和全市其他樓盤的房?jī)r(jià)都是上漲,但是整體成交的單價(jià)卻是在下降。

一丁 | 如何避免被真實(shí)的數(shù)據(jù)欺騙

第一周一丁 | 如何避免被真實(shí)的數(shù)據(jù)欺騙

第二周

看表格就可以發(fā)現(xiàn),郊區(qū)大盤的每平米單價(jià)從2.9萬上升到3.3萬,其他新房的單價(jià)從4.8萬上升到5萬,整體卻從4.5萬下滑到了4.3萬。這就是著名的辛普森悖論,總體結(jié)論和部分結(jié)論恰好相反。這提醒我們,要警惕總體結(jié)論,要通過科學(xué)合理的分組查看具體細(xì)致的數(shù)據(jù)

五、對(duì)照謊言

數(shù)據(jù)是要有比較才能看到問題的。但是,有時(shí)候我們一些不恰當(dāng)?shù)膶?duì)比,反而會(huì)影響我們的判斷。典型的例子,比如美國(guó)和西班牙交戰(zhàn)期間,美國(guó)海軍的死亡率低于同期紐約市民的死亡率,從而論證士兵更安全。

但事實(shí)上,用體格健壯的年輕人的死亡率和包含病人、老人、嬰兒的居民死亡率對(duì)比,本身就不合理。在做數(shù)據(jù)分析工作的時(shí)候,無視行業(yè)周期性波動(dòng)就會(huì)犯這類問題,拿3月份的業(yè)績(jī)和春節(jié)的業(yè)績(jī)進(jìn)行對(duì)比就不合適,用有雙十一的業(yè)績(jī)和其他月份比也不合理。

當(dāng)然,這些只是非常明顯的例子,還有很多每個(gè)企業(yè)細(xì)微的差異,比如在做競(jìng)品報(bào)告的時(shí)候,選取對(duì)本公司最有利的時(shí)間節(jié)點(diǎn)、城市區(qū)域、價(jià)格區(qū)間等等,會(huì)讓人產(chǎn)生誤導(dǎo)。

除此之外,我們?cè)诳梢暬臅r(shí)候,其實(shí)也會(huì)有類似的問題,尤其是Y坐標(biāo)軸刻度,很容易影響判斷。

以下兩個(gè)圖其實(shí)數(shù)據(jù)完全相同,但是Y坐標(biāo)軸不一致,呈現(xiàn)的信息就不一樣了。

涉及數(shù)據(jù)指標(biāo)之間比對(duì)的時(shí)候,必須注意是否存在隱含的條件是有利于其中一方的,比對(duì)的雙方是否真的有比較意義。

六、小結(jié)

以上分別從樣本、口徑、統(tǒng)計(jì)、結(jié)構(gòu)和對(duì)比五個(gè)角度分析了一些常見的數(shù)據(jù)欺騙我們的細(xì)節(jié),如何避免被數(shù)據(jù)欺騙,除了上面的應(yīng)對(duì)方案外,還有一些基本的方法:

1. 數(shù)據(jù)從哪里來

凡是不給出確切數(shù)據(jù)出處的,需要提高警惕,基本不可信。如果有確切出處的,多想想提供數(shù)據(jù)的是誰(shuí),站在怎樣的立場(chǎng),很多時(shí)候,提供數(shù)據(jù)方的立場(chǎng)會(huì)決定數(shù)據(jù)的樣本、口徑及呈現(xiàn)方式,英文中有一個(gè)詞“Half-truth”,即給你看的部分是真的,但它只是事實(shí)的一部分。

很多時(shí)候我們常說要增加信息源,就是為了避免單一信息源導(dǎo)致的認(rèn)知偏差。信息多了會(huì)有冗余,但冗余也可以避免出錯(cuò)。

2. 漏掉了什么

本質(zhì)上來說,每個(gè)數(shù)據(jù)對(duì)于客觀分析對(duì)象,都只是一個(gè)要素,在系統(tǒng)思維中,除了要素,我們更要關(guān)注各個(gè)要素之間的連接關(guān)系。

指標(biāo)是怎么算出來的,相關(guān)的指標(biāo)有哪些,指標(biāo)之間的關(guān)系是怎樣的,是否遺漏了某個(gè)重要的因素?

這就是一種公式思維,用數(shù)學(xué)公式,來表達(dá)要素之間的連接關(guān)系,進(jìn)而關(guān)聯(lián)地看問題和數(shù)據(jù)。

3. 合乎情理嗎

人的天性容易被那些超乎尋常的事物所吸引,不管是媒體上的信息還是很多報(bào)告,常常也會(huì)因?yàn)樾枰咙c(diǎn)而制造一些異乎尋常的數(shù)據(jù)。

面對(duì)數(shù)據(jù)的時(shí)候,可以嘗試將數(shù)據(jù)放在更大的時(shí)空來考量。因?yàn)楦蟮臅r(shí)空提供了基本的信息量,也就是常識(shí)。

對(duì)于關(guān)心的領(lǐng)域,要有足夠的常識(shí)和判斷力,判斷力到了一定程度,有一些坑,可能在不經(jīng)意間就已經(jīng)繞過去了。

4. 保持敬畏之心

我們的知識(shí)、智慧所限,我們能試圖破解的系統(tǒng)是有復(fù)雜度上限的。

面對(duì)看起來非??陀^的數(shù)據(jù),我們能做的就是猜測(cè)、驗(yàn)證、迭代,做任何決策的時(shí)候,始終要保持謙卑和敬畏之心。

 

本文由 @一丁 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 好文,受教~

    來自北京 回復(fù)
  2. 貸款不良率那個(gè)例子,如果不良率下降是因?yàn)楸P子做大了個(gè)人覺得也可以吧。畢竟如果盤子做大了不良金額應(yīng)該也會(huì)變大,如果不良率下降了那么表示不良金額的增長(zhǎng)相比貸款余額增長(zhǎng)要小

    來自江蘇 回復(fù)
    1. 但是所謂不良是逾期90天以上,也就是說,盤子做大了,但是不良金額需要過一段時(shí)間才能顯現(xiàn)。

      來自上海 回復(fù)
  3. 確實(shí),有時(shí)候說話也是一樣的,幾乎、大概、較為這種不確定但有好像是肯定性的話語(yǔ),也基本不可信

    回復(fù)
    1. 數(shù)據(jù)思維的第一步就是用數(shù)字量化,幾乎、大概、較為,那究竟是百分之多少的可能呢?如何量化這個(gè)可能性?這個(gè)量化過程是否有依據(jù)呢?

      來自上海 回復(fù)
  4. 我們的知識(shí)、智慧所限,我們能試圖破解的系統(tǒng)是有復(fù)雜度上限的。

    來自中國(guó) 回復(fù)
    1. 通過持續(xù)訓(xùn)練,可以不斷逼近上限。

      來自上海 回復(fù)
  5. 所以還是得有篩選材料的能力,不然就會(huì)受到欺騙

    來自河北 回復(fù)
    1. 一方面是篩選,搞清楚來龍去脈,另一方面是相互驗(yàn)證,看是否存在邏輯矛盾。

      來自上海 回復(fù)
  6. 直接就不能相信那些數(shù)據(jù),還是根據(jù)自己的判斷為主要了,別人給的數(shù)據(jù),不可信。

    來自中國(guó) 回復(fù)
    1. 也不能太極端,主要是拿到數(shù)據(jù)后,要了解數(shù)據(jù)源、加工邏輯、結(jié)合自己的常識(shí)進(jìn)行判斷,不能輕易相信,當(dāng)然一概不信也不可取。

      來自上海 回復(fù)
  7. 有的時(shí)候一些文章的標(biāo)題也會(huì)出現(xiàn)這種數(shù)據(jù)性的欺騙,引導(dǎo)讀者點(diǎn)開

    來自山東 回復(fù)
    1. 小編也有KPI啊。

      來自上海 回復(fù)
  8. 前段時(shí)間被“上海復(fù)工率達(dá)到百分之九十”給騙了,說是被騙,其實(shí)就是文字游戲而已。

    來自中國(guó) 回復(fù)
    1. 沒有統(tǒng)計(jì)口徑的數(shù)字,都是耍流氓。

      來自上海 回復(fù)