統計數據背后的真相 — 讀《How to lie with statistics》
在當今互聯網普及的社會中,幾乎每一個人都會和統計數字接觸,例如各種經濟數據、證券信息、房地產投資可行性報告、公司財務報告、以及與互聯網相關的各種頁面數據點擊量、網頁流量、用戶量統計、用戶趨勢分析報告等;數據分析正在以從未想象過的方式影響著我們的生活;然而大量的統計數據、統計資料由于主、客觀的原因被濫用,很難起到描述事實、傳遞信息的作用,相反,往往還對讀者形成誤導,與此同時帶來的問題是越來越多的人員會通過數據造假來蒙蔽對數據知識不是特別了解的人員,從而達到他們背后的目的;所以當我們在面對這些真假難分的數據時,我們又該如何去鑒別?
在之前讀過的《How to lie with statistics》一書中提到當我們接觸一個統計資料時,提5個簡單的問題可分辨大部分的統計資料,分別是:誰說的,他是如何知道的,遺漏了什么,是否有人偷換了概念以及這個資料有意義嗎。
誰說的?
經常會遇到利用數據圖表進行問題說明的情況,這時我們往往會關注于這些數據到底是什么意思而忽略這些數據的來源和它的時效性。當遇到數據的來源是某權威人士、權威機構時,這些話往往是為了掩蓋真實的資料來源。有些數據圖表雖然確實引用了權威的數據,但是很有可能的是別有用心的只截取了其中的一部分數據,雖然數據是權威可信的,但結論卻是自己加的,以偏概全的結果是得到與原來數據完全相反的結論。另外當在問數據來源時,一定要補上問一句這是什么時候的數據了;數據是非常具有時效性的,如果用之前的數據來解釋當前的現象,也會造成錯誤的結論。
比如下面這兩個圖表是前后相隔半年針對圖片軟件使用情況所做的調查,可以看到變化很大;假如我們也要做一款全新的圖片軟件,參考這兩張不同時間的調查圖表可能會導致產品定位的截然不同。
所以當我們在看到一個統計圖表的時候,首先要想這個圖表是從哪里來的,是什么時候的圖表,我們應該問一句:“誰說的?”接著我們應該接著我們還應追加第二個問題:他是如何知道的?
他是如何知道的?
主要是看這些數據是怎么得到的,也就是調查的樣本是否足夠大,樣本是否有偏,調查的人群是否涵蓋了所有的用戶。
下面是兩張針對播放器用戶所做的亮點功能調查,一個是樣本量100的結果,一個是樣本量2000的結果,在樣本量不一樣時結果差異會很大。
在互聯網產品設計中,還有一個比較常見的問題是,當遇到一個設計或者一個功能不確定時,往往會直接詢問周圍同事的建議,可這并不能代表整個用戶,導致結果的偏差。
還有比如在一款新產品發布時,經常會做產品的可用性測試,得到的結論是一半的用戶在某個功能的操作上存在問題,也許會覺得問題挺嚴重,實際可能是50%背后一共測試了兩個用戶,其中有一個用戶遇到了問題。
是否遺漏了什么?
也就是看對結論有影響的因素是否都列舉出來。比如說,調查表明公司的員工平均月薪是2萬,調查涵蓋了公司所有員工,外界一看,哇,該公司的員工工資好高啊,其實背后的原始數據沒有紕漏出來,該公司有100個員工,總經理的工資是100萬,而剩下的員工平均工資是1萬,一平均,就說該公司的平均月薪是2萬。
比如在做一次競品之間的滿意度調查時發現自己產品的滿意度明顯高于競爭產品,大家看了都覺得很開心,但是卻忽略了調查的方法,實際上該調查的對象都是最常使用自己產品的用戶,那結果肯定是不言而喻。
再說滿意度的問題,如果針對自己的用戶進行了產品的滿意度調查,結果是85分(百分制),可能覺得產品還不錯,可是缺少了和競品的比較,85分到底是怎樣一個水平,不得而知,實際情況是競品用戶的滿意度都是在90分以上。下面兩張分別是只有自己產品的滿意度和有競品滿意度的圖表,效果截然不同。
是否偷換了概念?
在看統計資料時,從收集原始資料到得出結論的整個過程,是否存在著概念的偷換。比如在收集數據時問題問的是可支配收入,下結論說的是收入;問題問的是使用過什么產品,結論說是經常使用什么產品;實際調查只針對某幾項因素,下結論時卻不加定語限制,讓人覺得是整體的情況描述,就似現在國內大學排名,不同機構采用不同的指標排出不同的結果,實際公布時對采用的指標只字不提,結果往往誤導和迷惑讀眾。
給我印象深刻的是在2008年奧運會結束后四大門戶網站都對外稱自己在奧運會期間的報道取得了第一,讓網友摸不著頭腦的同時也讓業界疑慮叢生。其實導致這種結果的第一個原因是不同公司排名所采用的指標不一樣,指標分別有“用戶訪問量”、“網頁流量”、“平均每位用戶停留時間”、“訪問速度”、“冠軍訪談數量”等,這樣四大門戶都可以對外聲稱在奧運報道上取得了第一;第二個原因是引用的數據源不一樣,導致數據上的差異,甚至不同公司引用同一家調研公司的數據都是不一樣的,摘錄其中一段調研公司的解釋:“新浪、搜狐用的是我們兩次不同的調查數據,這兩次調查的城市范圍、方法等都不一樣,兩方面數據結果根本沒有可比性。新浪公布的那個結果是我們在國內128個城市采取計算機輔助電話訪問的調查結果,而搜狐公布的那份結果是我們在北京、上海、廣州、青島、南京5個重要城市采取街訪方式的調查結果。那5個最重要的城市和其他128個城市的網絡普及率、人對網絡的偏好都不一樣,數據結果反映的東西肯定也不同”,普通網民在關注到“第一”的同時會去關注這些背后的數據嗎?
另外就是同一個數據,但是圖表的基準值、刻度等不一樣,也會導致圖表表達出的效果截然不同,比如下面兩個圖,左邊第一眼給人的感覺是2名用戶之間的上網時長差異不大,而右邊這個給人的感覺是差異非常大。
這個資料有意義嗎?
許多統計資料在我們一眼就能看出是有誤的。比如前一陣因為BT事件,一調查機構宣稱:在他們隨機調查的100位網友中,有87.53%的網友支持封殺BTchina;有時在對用戶進行分類時,對于分類結果,分成的各個類別的用戶是否都能在現實中找到對應的人群,或者說周圍認識的每一個人是否都能找到屬于自己的類別,這都是一眼能夠看出是否有意義的。
最后再舉一個最常見但也最經常被誤導的兩個例子:
很多人在學生時代肯定都聽過老師有過這樣的計算:離某某考試還有1個月時間,扣去一天8小時共10天的睡眠時間,扣去一天約4小時共5天的進餐活動等時間,再扣掉每周兩天共8天的雙休日,這時余下的學習時間就只剩7天了,這時一聽都覺得很緊張,但是感覺沒有這么短啊,其實是我們被老師忽悠了;一個產品開發項目計劃本來總時長是1個月,后來因為某種變更,需求規劃時間要增加15%,界面設計時間要增加20%,開發的時間要增加10%,測試時間要增加5%,則總時間要增加50%?實際總時間增加肯定不到20%。
在這個信息爆炸的時代,統計本是一個通過數據揭露本質的有力工具,但遺憾的是,統計未必能夠揭示真實,有時候還可能成為假象的幫兇。當我們面對生活中形形色色的統計數據時,還要多保持一些理智和清醒,并要有所保留地看待問題。因為“如果一個人以種種肯定的立論開始,他必將終止于各種懷疑;但如果他愿意抱著懷疑的態度開始,那么他必將獲得肯定的結論?!?br /> (本文出自Tencent CDC Blog,轉載時請注明出處)
- 目前還沒評論,等你發揮!