假如數據欺騙了你:產品經理如何識破數據謊言?
數據千萬條,甄別第一條,數據不規范,老板兩行淚。
對產品經理而言,數據無疑是工作中需要常常借鑒的對象,畢竟這是個數據推動發展的時代。數據之所以重要,正是因為數據是記錄客觀事實的一種符號,因此在統計數據面前,許多人潛意識里的第一反應就是無條件信任它。
但現實是,許多看似靠譜的數據,都是別有用心的機構利用了數據的客觀性,為我們輸出了一個與現實大相徑庭的結論。雖然數據本身不會說謊,但說謊者需要數據。
數據都說了哪些謊?
1. 樣本偏差的欺騙性
(1)幸存者偏差
也叫“沉默的數據”。如果要說得更具體點,就是當你在分析某個事物的時候,可能會面對諸多的證據(樣本),但是大多數人通常只注意到“顯式”的樣本和證據,而忽略了“隱式”的樣本和證據,從而得出錯誤的認知、錯誤的結論。
下面舉一個最著名的例子:二戰期間,英國皇家空軍計劃在轟炸機上進行改造,以抵抗德軍戰斗機和陸基高射炮的攻擊。
他們統計了聯軍返航的轟炸機受損情況,作戰指揮官認為應該加強機翼的防護,因為分析表明,那里“密密麻麻都是彈孔,最容易被擊中”。但是統計學家卻有不同觀點,他建議加強座艙與機尾部位的裝甲,因為那兒發現的彈孔最少,說明大多數被擊中飛行員座艙和尾部發動機的飛機,根本沒法返航就墜毀了。
上面的例子不是數據說謊,而是你沒注意到沉默的數據(缺少了的樣本)。當數據樣本僅采自“幸存者”、信息不夠全面的時候,得出來的結論有可能才是最離譜的,需要分析者有足夠廣的視角和邏輯,才能從數據里挖掘出隱性的真相。
(2)不充分的樣本數據
- “用戶反映,使用A品牌牙膏將使蛀牙減少23%。”
- “B品牌洗衣粉能有效減少90%種污漬殘留。”
你也許常常能從廣告中的某些權威機構、研究人員口中得知這些結論,但如果你仔細觀看,或許能看到這樣一行小字:此次實驗由**(假設30)名用戶組成,甚至有些廣告還故意抹去這些信息。這些信息意味著,只要你找來多組測試用戶,每組30人,持續使用一段時間的該品牌產品,就會得出以下的任意一種結果(以牙膏為例):
- 蛀牙明顯增多
- 蛀牙明顯減少
- 蛀牙數量無明顯變化
事實上,不管用戶使用的是哪種牙膏,由于機遇作用,第二種結果是遲早會被試驗出來的。由于試驗人數只有30人(樣本總數不大),所以得到的結論極有可能是牙膏效果極佳(蛀牙減少23%),商家就是利用這樣不充分的樣本數據,來達到預期的廣告效果。現實中,也要警惕在信息不對稱的情況下,脫離總量談現象的流氓思維。
(3)樣本本身存在偏差
假設調研一座城市的人均消費水平。如果是在飛機場調研,或許會得出“城市發達、人民收入高”等結論,但如果到貧民窟里調查,結論就會截然相反,因為城市里真正貧窮的人很少會在機場出沒。
企業也常常利用這種選擇性的誤差來為某個現象尋求合理性,比如智能手機領域喜歡用數據“打臉”友商,但是由于大家采用的統計口徑不同,所以常常在同一領域遇到數據打架的情況。
還有一種情況就是樣本不夠真實,比如全社會都在傳播“吃飯不光盤是種可恥的行為”這種理念后,這時你再去調研這個話題,絕大多數受訪人都會表示自己是個“凈壇使者”,因為幾乎所有調查都無法避免人們往自己臉上貼金,這種情況下除非采用匿名調查或者直接調查飯后餐桌上的盤子,否則很難獲取到完全真實的數據。
這些案例說明即便你找不到任何數據遭到破壞的證據,也很難避免樣本本身在說謊,因此只要是樣本有存在變量誤差的可能,就要保留懷疑的態度。
2. 用平均數掩蓋差距
假如把比爾蓋茨移民到某個非洲落后國家,該國的人均GDP相應地也會有很大幅度的上漲。但這有意義嗎?該國貧民窟里的窮人依然吃不上面包。
類似的,即使某地區人均收入有了提升,但依然存在一種可能性,就是富人財富量的增加遠遠快于窮人財富量的增加,造成的結果是“數據顯示人均收入上升,但貧富差距在拉大”。
比如美國前總統奧巴馬在謀求第二任期的競選活動中提到,“美國經濟自09年以來增長了13%”。但他沒有說的是,其實美國人只有最富有的那1%的人收入增長了,剩下的99%的人收入反而比以前有輕微的下降。奧巴馬雖然贏得了連任,但“整體經濟復蘇”與“大多數人的可支配收入沒有增長”的矛盾卻依然無解。
通常情況下,你并不會被告知數據包含了多少觀測值,當均值和中位數相差甚遠的時候,你就需要注意那些沒有標明類型的平均數(均值、中位數、眾數),否則你對它的認知依然停留在表面。
3. 數據的視覺欺騙性
上圖是2018年我國各省GDP的統計圖像,可以看到,同樣的數據在不同的坐標軸里呈現出來的狀態截然不同,左圖數據取等量遞增繪圖,右圖數據取十進制繪圖,呈現出來的視覺效果有相當大的不同,大多數人的第一直覺是:
- 左圖直觀表達各省GDP差距巨大
- 右圖直觀表達各省GDP差距不大
上圖是某公司四年間的收入曲線,從視覺上很容易得出以下結論:
- 左圖直觀表達公司四年間收入稍有波動,但相對平緩;
- 右圖直觀表達公司四年間收入波動巨大,目前遭遇停滯下滑的危機。
也許大家都發現了,波動是可以被人為操縱的,但數據卻是真實的。PPT領域有一句很經典的話:能用圖,不用表,能用表,不用字。圖表誠然能幫我們更直觀的了解事實,但許多報告和演講就是有心利用數據的視覺誤差,誤導觀眾的判斷,分辨能力弱的讀者就容易被牽著鼻子走。
如果你細心留意的話,就能發現很多產品的發布會和權威機構調查對這招都是屢試不爽的,雖然數據本身沒有問題,但這樣的呈現方式僅僅是為了好看?,F在是信息化時代,一段信息里有價值的文字往往不如一張靚麗的圖表更抓人眼球,加強對數據可視化的信息分辨能力會少走很多彎路。
4. 數據不能替你思考
統計學數據表明:在夏天,“冰激凌的銷量”和“溺水死亡人數”成正比,二者的趨勢高度吻合。
看到這條信息你是選擇相信還是陷入沉思?如果我們通過這條數據強行把兩者聯系起來分析的話,推導出來的結論很有可能是:
- 吃冰激凌會導致人們游泳時更容易溺水
- 游泳溺水時人們喜歡用冰激凌來搶救
很詫異對吧,但如果你跳脫出數據分析的思維,以常識去推理,你就知道兩者根本沒有聯系,唯一的契合點在于“夏天天氣熱”,冰激凌的銷量會因此上升,下水游泳的人也會因此增多,自然會有更多溺水事件發生。
數據是客觀的、理智的,但人是經驗主義者,更善于用邏輯去認識和判斷事物,數據的絕對客觀性,往往會把我們被拖入單維思考的沼澤里。
就像電影《流浪地球》的片段:以色列科學家提出點燃木星的想法,被空間站的人工智能莫斯否決。道理很簡單,莫斯作為人工智能,是絕對理性的化身,它經過周密的科學計算后得出的結論表明:這個方案成功的概率為零,但它忽略了人類是具有感情的生物(或許是故意忽略),沖動和情感能突破理性的底線,做出人工智能不能理解的行為。
簡而言之,用空間站撞擊木星這種看上去不合理的感性行為,也許恰恰不在莫斯的數據分析范圍內。
電影雖然是電影,但它能映射現實。許多在人類看來再正常不過的邏輯思維,卻是冰冷傲慢的數據分析的盲區,這本質其實是單維思考和多維思考、客觀事實和主觀邏輯的沖突。數據可以輔助你思考,但它不能代替你思考,千萬不要患上唯數據論的怪病,在認識事物的時候一定要問問自己:該相信邏輯還是該相信數據?
如何避免數據說謊
通過上面的案例我們可以知道,數據是客觀產生的,它只能反映問題,不會主動撒謊,真正說謊的兇手有三個“人”:
- 記錄數據的人(數據的真實性)
- 拿數據給你看的人(利用數據的目的)
- 自我的認知錯誤(解讀出現偏差)
1. 數據的真實性
解決的方法,第一件要預防數據生病,就是辨別數據可信度(真實性)。簡單來說,通常要遵循兩個原則:越接近第一手的數據越真實,采集的樣本越全面越可信。
例如互聯網產品經理常常更關心數據分析的結論,而忽視了原始數據的來源和真實性,源頭如果出現問題,一切的分析都是徒勞的。如果你更關心渠道數據的精準度,可以使用openinstall進行渠道來源歸因統計和活動推廣效果監測,openinstall在渠道數據精準度上還是比較專業的。
2. 利用數據的目的
我們要明白統計數據的真實價值:數據是用來揭示事物規律,進而解決問題、創造未來的。如果結論本身已經客觀存在,你用再多的數據也無法讓結論變得更加正確,如果有人想要找到某個證據(數據)來論證觀點,方法多的是,早晚能夠找到。
讓數據來回答問題,然后從這些數據中創造更多的可能,這才是數據存在的現實意義,也是用來辨別哪些人在利用數據說謊的方法。
3. 解讀出現偏差
要善用常識性的思維和多個角度去看待客觀事物的發展,既認識到數據和統計學的力量,也要了解它的局限性。當然,這也需要我們有基礎的數理科統計知識儲備。
數據和模型只是人們用來總結改進的方法,實踐才是真理,如果想要更深層次的解讀數據背后的意義,就要自己多去挖掘和實踐。
總結
真實深度的數據在工作中是非常有參考價值的,尤其能幫助我們建立分析框架,彌補思維漏洞。要知道,數據并不能代替分析人員做決定,獲取真實數據、善于運用數據、識破數據騙局,是需要長期培養和掌握的技能。
本文由 @大城小事 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
不錯、感謝分享!?。?/p>
好文