大數據時代下,如何識別垃圾信息?

4 評論 2240 瀏覽 3 收藏 15 分鐘

編輯導語:大數據時代之下,信息繁雜多樣,其中也充斥著大量的假話和謬論。怎么在紛繁復雜的信息里面,去偽存真,需要我們有一定的思辨能力,去識別信息中的垃圾信息。而如何識別辨別這些垃圾信息呢?本篇文章分析了如何識別垃圾信息的方法,感興趣的話一起來看看吧。

短視頻、短信息時代蒸蒸日上,改變了公眾話語的內容和意義,政治、宗教、教育、體育、商業(yè)和任何其他公共領域的內容,都日漸以“短娛樂”的方式出現,并成為一種文化習慣。

但是這些容易傳播的短視頻、短信息,大量充斥著假話和謬論。

基思·斯坦諾維奇說,偽科學的傳播所造成的代價是巨大的。怎么在紛繁復雜的信息里面,去偽存真,幫助自己解讀判斷,需要我們有一定的思辨能力,去識別信息中的垃圾信息。

一、如何識別垃圾信息?

1. 大話、空話;讓人不知所云

在表達中使用一堆假大空的詞匯,每個詞你都認識,組合在一起也仿佛說得都對,但是就是不知道對方在說什么。比如各種黑話指南:

  • 2016年:資本寒冬、護城河、上半場、下半場、brief、知識付費、賽道、黑科技、網紅、閉環(huán)。
  • 2017年:賦能、邊界、共享經濟、消費升級、新物種、互聯(lián)網金融、ICO、區(qū)塊鏈。
  • 2018-2019 年:打法、優(yōu)化、下沉、社交電商、壁壘、流量池、組合拳、心智。
  • 2020-至今:抓手、Web 3,去中心化、底層邏輯、第一曲線、第二曲線。

并不是說只要有這些詞匯,就是垃圾信息。而是表達者通過一頓組合,讓你不知道所云,只有空話的,肯定是垃圾信息。比如:

這次 Campaign 我們要以價格為抓手,橫向打通品類覆蓋,還要提高內容可復制性,注重投放顆粒度,覆蓋消費升級到下沉市場的全域流量,發(fā)力打出一套組合拳。

看完之后,一臉問號,他在說啥?

向飆說:“社會生活里有很多問題都是老問題,一定要把老問題吃透。不要制造新的詞匯,沒有太大的意思”。

2. 缺失的信息

之前文章《如何正確讀數和更優(yōu)決策》,講了一個關于缺失數據做決策的故事。賽車隊成員需要決定是否要參與一場重要的比賽。依據之前的經驗,24 場比賽中有 7 場汽車引擎出現故障,故障情況和天氣溫度之間的關系如下圖:

大數據時代下,如何識別 bullshit

圖片來源于《成長邊界》

團隊里面大部分人的判斷都是要參賽。但是當我們把缺失的比賽數據補齊時,我們看到:

大數據時代下,如何識別 bullshit

圖片來源于《成長邊界》

40華氏度引擎出問題的概率很高,參賽的結果可想而知。賽車隊故事背后是 NASA 真實的案例。1986 年,在一次火箭發(fā)射事件中,NASA 的高層基于部分數據,對于密封火箭助推器一個連接處的 O 型圈失效可能性做出了判斷。最終結果是,劇烈燃燒的氣體直接從連接處沖向外部,“挑戰(zhàn)者號”在升空 73 秒后就爆炸了,7 位宇航員全部喪生。

當有人和你闡明數據和觀點的時候,你可以思考以下幾個問題:

  • 誰在告訴我這些
  • 他們是如何知道的
  • 這些信息里面還有什么,還有哪些信息沒有表露出

3. 錯把關聯(lián)當因果

還有一類經常被大家搞錯的是,誤把關聯(lián)關系當作因果關系。

多年前,臺灣地區(qū)有一個研究表明,家用電器的數量和避孕工具的使用最相關。但是你應該不會有這樣的想法,在高中發(fā)放免費的烤箱以解決青年早孕的問題。因為這兩個變量存在相關,但是沒有因果關系。

比如你發(fā)現汽車兒童座椅銷量變高,同時嬰兒出生數量也在變高,是一個正相關的關系。但是不能說,因為兒童座椅銷量變高了,所以導致嬰兒出生率變高。這是邏輯是謬論。

導致兩個變量之間產生誤導性關聯(lián)的第三變量,有時候很容易看出來。比如,冰淇淋賣得越多,溺水就越多。是因為吃冰淇淋的人很多,游泳的人也很多,所以溺水的人才很多。

我們在研究一個現象的時候,會帶著自己的預設偏見理解為,兩個相關因素是因果關系。而相關關系之所以產生,可能是因為這兩個變量都與某個甚至尚未被測量的第三變量相關。

讀數據的時候,當我們看到相關關系,需要繼續(xù)提問或者反思,背后的原因是什么,是否還有其他可能性。

4. 小心平均值和中位數

平均數代表一個樣本的平均水平。但是當你在查看平均值的時候要留意,樣本里面是否有極值(極大值,極小值這些 outliers),如果有的話,平均值就會不準。此外,如果你的樣本小,也容易產生更多極端的值。這個時候用中位數更合適。如下圖:

大數據時代下,如何識別 bullshit

圖片來源于 B 站公開課程

5. 正確理解 p 值

什么是 p 值?

我們來說一個故事。假設你是一個律師,現在法官要審判一起殺人案件,而你的辯護人被指認謀殺。但是案發(fā)時,你當事人在蛋糕房里面做蛋糕,并不在案發(fā)現場?,F在你要為他辯護。

庭上法官拿出 DNA 檢測報告表明,案發(fā)現場兇器上的 DNA 和你當事人 DNA 完全吻合。所以你的當事人才被指認。

作為律師你說,“等一等,法官你確定 DNA 匹配不是巧合?”

法官說,“當然,DNA 匹配概率是百萬分之一。你的當事人是兇手無疑?!?/p>

你說,“別急,我們來畫一個圖。百萬分之一的可能性表達的是所有人群里面,錯誤識別的可能性。但是我們這里應該要看的是,識別出來的結果里面,被誤識別的可能性?!?/p>

大數據時代下,如何識別 bullshit

圖片來源于 B 站公開課程

“雖然對于整體樣本來說,檢錯概率很低,為百萬分之一。但是在判斷為兇手的結果里,總共 5 個人,只有 1 個是真正的兇手,其他 4 個都是誤判,只有 20% 的正確率。沒有辦法判斷我當事人就是兇手?!?/p>

這則小故事告訴你不能絕對相信 p 值。因為 p 值不是用來告訴你假設的正確性的。而是用來告訴你,在整個群體中檢測錯誤的可能性有多大。

所以對于一個很低的 p 值,不要認為這事就肯定成立了。

6. 誤導性坐標軸(misleading axes )

數據可視化可以降低看數據的難度,但是在數據以圖表的方式呈現出來之后,我們也需要去關注一些細節(jié)。因為圖表會給出一些誘導性的表達方式,影響我們判斷。比如誤導性坐標軸(misleading axes )。

以下圖為例,作者給你看的圖是這樣的,我們會快速認為,yes 和 no 的比例是 5/5 開。但是細看我們會發(fā)現,這兩個分類左邊的 y 軸并不一樣,根本不是 5/5 開的關系。

大數據時代下,如何識別 bullshit

圖片來源于 B 站公開課程

7. 操作箱尺寸

圖表也可以操控每個箱子的尺寸大小來表達他想要的意思。比如下文是華爾街一篇臭名昭著的報道。這張圖乍一看中間部分的 y 值最大。

大數據時代下,如何識別 bullshit

圖片來源于 B 站公開課程

但是當我們放大橫坐標的時候仔細一看,會發(fā)現,橫坐標根本不是等分的。從最開始的每 5k 一個間隔,到后面 5百萬一個單位。

大數據時代下,如何識別 bullshit

圖片來源于 B 站公開課程

8. 過度裝飾

過度裝飾的圖被稱作 data visulization ducks。ducks 原意是用在建筑領域指過度裝飾的建筑。圖表也是如此,好的圖表不要過度裝飾,過度裝飾反而會失去了他本來想要表達的內容。因為 ducks 會阻礙信息的交流。

大數據時代下,如何識別 bullshit

(假新聞 & 過度裝飾)圖片來源于 B 站公開課程

大數據時代下,如何識別 bullshit

(畫個人形,讀數反而變得很困難)圖片來源于 B 站公開課程

大數據時代下,如何識別 bullshit

(視覺注意力都被大漢堡和蘇打水搶走了)圖片來源于 B 站公開課程

大數據時代下,如何識別 bullshit

(用嘴型來表達家庭的財務安全度)圖片來源于 B 站公開課程

大數據時代下,如何識別 bullshit

(非要用柵欄表達房屋價格,讓人看不懂)圖片來源于 B 站公開課程

大數據時代下,如何識別 bullshit

(過度裝飾 & 誤導性坐標軸)圖片來源于 B 站公開課程

9. 科學的可復制和可重復性

?你看到的信息能否被復制和重復,這也是結論是否科學的一個重要判斷因素。要將一個研究發(fā)現認定為確鑿的科學事實,它的可重復性至關重要。因為科學理論的一個重要定義就是可證偽性。

可證偽性標準聲明,一個理論要有用,對其所做的預測必須是具體的。它在告訴我們哪些事情會發(fā)生的同時,必須指出哪些事情不會發(fā)生。如果不會發(fā)生的事情確實發(fā)生了,我們就得到了一個明確的信號,這個理論有問題。

越具體的預測在被證實后,給我們的觸動越大。預測越具體,越精確,有可能證偽它的觀察現象就越多。

只有當一個理論并不試圖預知一切,而是做出具體的預測,提前告訴我們世界上會發(fā)生什么具體的事情時,該理論才會進步。

所以偽科學/信息的另外一個特征就是不可證偽。不管怎么解釋它,都對的。

這些不可證偽理論有著巨大心理吸引力,其奧秘在于它們解釋一切的能力。預先知道無論發(fā)生什么,你都能理解它,不僅給你一種掌握知識的感覺,而且更重要的是,給你應對這個世界所需要的情緒上的安全感。

但是這種安全感是以知識發(fā)展的停滯為代價的。比如我們常常沉迷的占星、星座解釋、通靈術等。

二、最后

Steven Pink 說過:活著好過死亡,健康好過疾病,富足好過匱乏,自由好過脅迫,幸福好過苦難,知識好過迷信和無知。

在這個不確定性極高的后疫情時代,多多提高自己對信息的辨別能力,更好的生活,從駁斥垃圾信息開始。

參考資料:

《大數據時代,如何識別 bullshit》,https://www.bilibili.com/video/BV13E411s74P?spm_id_from=333.337.search-card.all.click

《The social dilemma》2020 on Youtube, https://www.youtube.com/watch?v=rvg0eY_Ls4Y

《成長邊界》

《這就是心理學》

#專欄作家#

圈圈,微信公眾號:lovepm,人人都是產品經理專欄作家。專注企業(yè)級知識管理、知識沉淀領域。

本文由 @圈圈 原創(chuàng)發(fā)布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 文章真的太有用啦,垃圾信息真的太多啦,需要很好的識別!

    來自浙江 回復
  2. 只有當一個理論并不試圖預知一切,而是做出具體的預測,提前告訴我們世界上會發(fā)生什么具體的事情時,該理論才會進步。所以偽科學/信息的另外一個特征就是不可證偽。不管怎么解釋它,都對的。

    回復
  3. 兩個變量存在相關但不一定存在因果關系,其中未知的第三個變量才是關鍵,所以分析數據的時候不能只看已有的,還要分析沒有收集到的數據

    來自廣東 回復
  4. 雖說現在很多問題都是老問題,但人就是喜歡給冠上新名詞,事實上自己都搞不清到底是什么問題了

    來自廣東 回復