美國小姐的年齡,會影響死于暖氣的人數嗎?
看到題目是不是頓感疑惑?只看表象很容易得出這樣的結論,需要慎重看待看似相關的關系。
前兩天有篇很火的文章《幸好不是所有聰明人都在批發快感》,批判了目前主流的互聯網生產力都聚焦在提供用戶“奶頭樂”(Tittytainment),并贊揚了少部分不局限在眼前的茍且,依舊致力于全球人民福祉的公司與項目(友情提示:以IBM為關鍵字,在文中被cue了12次)。
當然,觀點我同意,正如那位熱衷于從0到1的大佬彼得·蒂爾當年也抱怨過:“我們想要一輛會飛的汽車,得到的卻是140個字符?!?/p>
被點歪的科技樹,仿佛在把社會引向尼爾·波斯曼所構想的“娛樂至死”,并且“文化向技術投降”的地步。
但原文中為了責怪大眾科技加深了人們的負面情緒,引用了如下的論據和證明方式。
“隨著iPhone的發布,美國中學生的孤獨感卻幾乎直線上升”
我無意為iPhone是否真實導致了這種情況的發生辯護,但單純從文中對于數據的使用及論證方式,在未經相關性驗證的情況下,將不特定事件定性成為因果關系。不僅沒有依據,并且煽動大眾對于事實的認知。捎帶使得我對全文的動機產生懷疑(再一次提示,IBM作為正面案例,在文中被cue了12次)。
A導致了B?
作為互聯網行業的數據分析工作者,日常會處理大量的信息來判斷平臺的健康程度以及制定優化辦法。其中,需要解釋兩組波動數據間的關系時,就需要花一定時間去思考數據間的關系是因果,還是相關?
舉個“因果關系”的例子:
先前在滴滴運營快車時,當其他人為因素(如補貼、司機運力等)不變,天氣狀況是直接影響每天訂單量的原因,呈“微笑曲線”狀。三伏天、冬至或者暴雨的極端天氣,都可以導致訂單量大幅增加;風和日麗的天氣大家都愿意走路去公共交通站,使用更便宜的交通方式。
這是通過常理可以推斷,并且基于數據驗證后的結果。
而對于相關關系,如果一個事件變化后,另一個事件也隨之發生變化,但二者不屬于原因和結果的關系,則稱它們之間存在“相關關系”。存在相關關系的兩個事件之間雖然有關聯,但不屬于因果關系。
日本經濟學家中室牧子在判斷區分因果及相關關系時,列舉了三條判斷原則:
1. 是否“純屬巧合”?
兩個事件看似有關,其實只是“純屬巧合”。像這樣,兩組數據的變化趨勢只是碰巧相似的現象被稱為“偽相關”。
美國分析師維根·泰勒在他的著作《偽相關》(SpuriousCorrelations)和網站(tylervigen.com)就介紹了非常多這樣的“偽相關”關系。
比如,文章標題中提到的“美國小姐的年齡”和“全美死于暖氣的人數”變化一致,相關系數達到0.87;數據高度相關,但這兩個現象間有必然的關系嗎?
又比如,“美國在科技、太空領域研究的投入”與“用上吊、窒息而自殺的人數”,相關系數更是高達0.998??茖W領域每投入1塊錢,就會激勵更多人去上吊。變量數值盡管相關,但這兩個事實之間又有什么樣的直接關聯?
2. 是否存在“第三個變量”
其次,我們必須要質疑是否存在同時影響原因和結果的“第三變量”,或者說是“混雜因素”。它可以把純粹的相關關系包裝成因果關系,干擾人們判斷。
在美國中西部的一個小鎮,地方警察局發現冰淇淋消費量越多,犯罪率就越高。這個例子中,冰淇淋消費量和犯罪率是正相關的;但并不意味著冰淇凌消費的增多導致了犯罪率的上升,更不可能通過減少冰淇凌的銷售來降低犯罪率。
然而,我們猜測存在某個變量同時和冰淇淋消費量、犯罪率相關。這個變量可能是室外溫度,當室外氣溫變暖,如在夏天,就會有更多犯罪(白天更長,人們多開窗口等);因為天氣變暖,人們更享受吃冰淇凌的樂趣。相對地,在又長又黑暗的寒冬,冰淇凌的消費就減少,同時犯罪也越少。
當然這也只是一種基于現實生活的猜測,并無切實的依據。
3. 是否存在“逆向的因果關系”
還是拿警察與犯罪的例子。
通常警察多的地區,犯罪案件數量也多。但是,將犯罪數量的多少歸結為警察人數的增多,難道是在暗示犯罪都是由警察引起的嗎(警察→犯罪)?正好相反,不如說因為某處是犯罪多發的危險地區,所以部署了大量警力,這么想可能才更合理(犯罪→警察)。
本以為是原因的事件其實是結果,本以為是結果的事件其實卻是原因,這種狀態被稱為“逆向因果關系”。
iPhone真的導致美國高中生倍感孤獨嗎?
回到文中的例子,iPhone是不是真的會導致美國高中生倍感孤獨?
要得出這個結論,顯然需要大量的分組實驗(A/B test)進行更深入的研究。
比如,在同一學校,不用iPhone的高中生分一組,用iPhone的高中生分一組。
用iPhone的學生中,又需要依據使用時長,APP使用偏好再進行區分(要知道Facebook面向高中生,Twitter這樣的社交網絡仿佛與“孤獨”心理更有關聯,他們的變化與推出也都是在05-06年間),再去論證上述的結論。
結語
在目前沒有足夠數據支撐的情況下,我無法下定論。
每個人是一個社會關系的總和,包含了各類我們稱之為“不確定性”的東西。同時,科技的發展本身一直在充滿爭議,“科技倫理”(Technical Ethics)在大數據逐漸成熟、AI起勢的情況下,越發重要。
此時,任何企圖把人、心理和科技三者相關聯的結論,尤其需要謹慎對待。
作者:黃嘉偉,專注銀行在移動金融領域內的戰略、運營和數據咨詢服務
本文由 @黃嘉偉 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自 Unsplash ,基于 CC0 協議
文章很棒,闡述的很清晰