你又一次被“真實數據”欺騙了

7 評論 6773 瀏覽 20 收藏 16 分鐘

數據對于產品、運營決策來說有重大參考價值,但是在現實生活中這些精心測量的“真實數據”卻往往出錯,問題在于什么?又該如何針對性地解決?

當公司需要推出一個新產品(服務,管理,市場)前,我們總是需要收集一些數據來說服股東(或者我們自己),這個產品一定會大賣。

這時候,就是各種圖表粉墨登場的時候了:餅狀圖,柱狀圖,條形圖,折線圖……

(這里本來應該有一張圖,但是大家看了太多的PPT,我就不放了。)

我們講的頭頭是道,下面的聽眾也頻頻點頭?!翱雌饋磉@個產品一定會廣受好評”,我們心里想。

然而,到了真正到了產品銷售階段時,我們卻發現,根本沒有用戶愿意買賬。

我們明明是嚴格按照規范收集數據,仔細的進行科學分析,每個步驟也有專人監督。這些真實數據為何不能反映真實的市場需求?

我們收集的所謂“真實數據”其實是假的。

大多數人認為,假數據只有在故意造假的情況才可能出現。而我認為,有些時候,錯誤的收集方式也會產生“假數據”。

那么,為何我們會收集到“假數據”呢?

一、社會期許

“您喜歡喝什么口味的果汁?”我相信很多人都會如實回答。

“您和妻子/丈夫關系好嗎?”這個問題就很難得到準確答案。

與之類似的還有:

  • 您的月收入多少?
  • 您認為自己聰明嗎?
  • 您對自己外貌評價如何?

在社會科學中,這叫做社會期許誤差。人們更傾向于向他人展現正面形象,所以在回答問題時,更傾向于申報“良好行為”來符合社會的期望。

這也是為何很多真正的抑郁癥患者傾向于隱瞞自己的病情,因為他們希望能夠符合周圍環境對他的期望。而社會期望人的性格是積極外向的,這樣導致了很多抑郁癥患者很難對家庭袒露心跡。

我最近看的一本書,《Everybody Lies》,就展示了這樣有趣的現象:在社交網站上,在短句“我的丈夫是”之后,最常見的形容詞的前五名是:“最好的”,“最好的朋友”,“最棒的”,“令人驚訝的”,“可愛的”。

而在搜索引擎上,前五名,除了一個“最棒的”以外,其他四個卻變成了:“刻薄的”,“混賬”,“同性戀”,“討人厭的”。

這也就證明了上面的觀點:人們在可能被他人審視的時候會更傾向突出其好的一面,而在匿名且隱私的環境中才能表達真實的自己。

二、幸存偏差

假設我們來采訪一下幾個名人,他們的成功有什么必經之路:

  • 喬布斯:我輟學了。
  • 蓋茨:我輟學了。
  • 扎克伯格:我輟學了。
  • 布特林:我輟學了。

總結:輟學才能成功。

這里出現了什么樣的錯誤呢?

在統計學中,幸存者偏差是一種很常見的現象。即過分關注因為某些經歷而幸存的人或事物,并且將這些經歷定義為常識。

我們很容易找到類似的例子:

章魚保羅在2010年世界杯中連續7次猜對比賽結果——其他猜錯的動物沒有被報道。

2016美國總統大選時,CNN的民調顯示:希拉里支持率更高——調查時主要選擇了民族黨支持者。

很多喜歡看直播的人認為:主播收入高,外表光鮮,所以自己也要當主播——頭部主播占據了全部主播收入的80%以上。

三、胡亂回答

前段時間,我對YouTube上的視頻進行過一個粗略統計。

結果是:一個在大多數人理解下的優秀視頻,其觀看量、點贊量、點踩量的比例一般為10000:100:2(這個數據只是一個預估,請不要作為考量方式)。

而且,不論是視頻多么優秀,總是會有點踩的人。

這種“故意破壞他人體驗的點踩”在社會心理學中叫做向下社會比較。

這種情況往往是那個人遇到了某些挫折,通過降低自我評價的參照系(即讓他人的評價降低),來維持積極的自我評價。

這也是網絡上的噴子和鍵盤俠,往往都是在現實生活中遇到了不順心的事情的人的主要原因。

四、分析錯誤

在不久前,我看到某個電影院的大數據分析:看《戰狼2》的觀眾,有89%的人購買了冷飲。而看《前任3》的觀眾,有73%的人購買了熱飲。

數據分析得出的結論是,看動作片的觀眾更喜歡冷飲來清涼自己的緊繃的神經。而看愛情片的觀眾更喜歡用熱飲來溫暖自己的內心。

戰狼2:2017年7月27日上映——夏天。

前任3:2017年12月29日上映——冬天。

其實分析員只要看看上映時間就知道,觀眾選擇熱飲或者冷飲的根本原因是天氣問題,和電影本身沒有任何關系。

這種在統計學中被稱為混淆了相關性和因果性。即分析時過分注重于數據之間的關系比較,并且將這種關系直接定義為結論。

五、人為造假

就在兩周前,著名心臟專家皮耶羅·安韋薩涉嫌數據造假的新聞轟動了整個病理學界。由于他的31篇學術論文造假,直接導致大量相似的研究直接作廢,各種研究經費的損失高達數億美元。

那么,他是怎么做的呢?

他在分析數據前,直接將自己的假說認定為正確的,然后用很多數據去“湊”自己的假說,如果數據不對,就換方式來重新將數據“生產”出來。

這種手法,在很多歐美政客手上就用的爐火純青。特朗普就轉發過“舊金山犯罪統計局”的統計數據。該數據顯示,黑人是犯罪的主要根源。而實際上:“舊金山犯罪統計局”根本就不存在。
你又一次被“真實數據”欺騙了

人們很容易相信數字所帶來的權威性。而這種利用數據來說謊的方式,就是利用了這一點。

這五個問題,導致了調查數據很難真實反映出用戶的需求,從而擾亂了我們的判斷能力。

那么,我們如何才能減少這些問題對數據結果造成影響呢?

六、解決方法

1. 社會期許——匿名回答

社會期許誤差的產生,是由于被訪者擔心自己的負面情緒或者狀態不被社會所接受。

那么最有效的辦法就是:為受訪者創造一個完全匿名的,保密的環境。

正如天主教堂里的告解室一樣,完全密封的匿名環境,加上神父的嚴格保密,讓信徒可以安心的懺悔自己的罪行。

投票箱就是一個很有效的匿名方式。例如美國的國家大選,為了避免大家因為敏感的投票話題引起爭執,采用了投票箱的方式,保護了投票者的隱私。

另外一個解決方式是隨機化回答。

方式是將問題分為兩類,敏感性問題與非敏感性問題。我們想要知道敏感性問題的答案,而我們已知非敏感性問題的答案。我們可以通過非敏感問題的答案來反推出敏感問題的答案。

舉個例子,假設我們想要推出一個新式男性增高墊,但是不知道使用增高墊的人數比例,我們可以設置兩個問題:

敏感性問題:“您是否使用了增高墊?”

非敏感性問題:“您的電話尾號是否是1?”

我們先在黑箱里放置兩個小球,一個紅色一個藍色。在回答問題前,要求受訪者在黑箱里取一個球,但是這個球的顏色只有受訪者知道。

然后告訴受訪者,如果他抽的是紅球,就回答“您是否使用了增高墊?”。如果抽的是藍球,就回答“您的電話尾號是否是1?”。但是回答者只用回答“是”或“否”。

那么,當我們收集到足夠多的數據后,我們可以得知受訪者回答“是”的比例(設為a)。

由于我們知道,電話尾號為1的可能性為10%,而抽到紅球或藍球的幾率各為50%,那么我們就很容易依靠下面的公式推斷出使用增高墊的人(設為x)比例。

你又一次被“真實數據”欺騙了

3. 幸存偏差——用戶分層

幸存者偏差是由于受訪者的樣本過于相似,導致了數據結果并不能代表所有的用戶。

由于我們無法對于對所有的用戶進行普查,那么最容易的辦法,就是從每一個層次的用戶抽取數人進行調查。

例如,我們想要對打車軟件優惠券的使用情況進行調查。我們就需要將用戶分為四類:

  1. 之前使用過打車軟件,后來使用過優惠劵(老用戶)
  2. 之前使用過打車軟件,后來沒有使用過優惠券(未涉及用戶)
  3. 之前沒有使用過打車軟件,后來使用過優惠券(新用戶)
  4. 之前沒有使用過打車軟件,后來沒有使用過優惠券(潛在用戶)

從每種類別的用戶中,我們選取數人來進行抽查。在每個層級的人群中,我們也要盡量將年齡,性別,職業等等區分開來,這樣才能減少幸存者偏差帶來的數據偏差。

3. 胡亂回答——顯示進度

大多數時候,受訪者還是愿意配合采訪的。讓受訪者不愿意配合采訪的原因只有兩種:外界因素和內部因素。

由于我們無法控制受訪者的外部因素(心情不好,急于做事,性格內向等等),那么我們只能減少內部因素造成的影響。

所以,我們需要盡可能減少受訪者對調查感到厭煩的可能性。

你們是否發現:當你安裝一個軟件時,就會有一個進度條顯示安裝的進程。而且,進度條并不是勻速前進的?

這是因為,進度條可以明確的告訴我們,我們還需要多久的等待。而非勻速前進的原因,則是經過了科學家的試驗,證明相對于非勻速來說,勻速的進度條更容易讓人感到不耐煩。

所以,在收集數據時,如果是訪問的模式,就需要在開始訪問前,告訴受訪者訪問的時長,并且將長問題穿插在短問題中。如果是調查問卷的模式,就需要在前面寫明問題的數量,并且在其中配上進度顯示(例如:已回答25%的問題)。

4. 分析錯誤——關注外因

我們在分析數據的時候,如果僅僅關注數據本身,就很容易出現混淆相關性和因果性的狀況。

所以,在數據分析時,一定要考慮到外界因素所帶來的影響。

正如第一臺ATM機發明前,巴克萊銀行對于用戶對于ATM機的態度進行過一次調查,用戶的數據反饋指出:相對于冷冰冰的機器,大家更喜歡熱情服務的柜員

然而銀行發現:由于工會的強烈要求,導致銀行必須考慮在周末放假。而很多領取周薪的工人只有在周末才有時間去銀行取錢,那么這些工人的需求就很難滿足了,所以銀行依然決定推出ATM機。

結果大家都知道了,現在全球有著高達300萬臺ATM機為我們服務,也沒有人覺得從ATM機器里面取錢有任何不妥。

所以相對于單純的相信數據,更好的方式是將數據作為一個參考,但是根據實際情況來進行判斷。

5. 人為造假——規避問題

人為造假的問題是最難以解決的,因為這個是調查者自己所決定的。

現如今在學術界,最廣泛使用的辦法就是讓調查者簽署一個保證書,利用保證書來約束調查者的行為準則。

然而在公司中,這樣的的方式并不太合適。學術界出現了造假問題,那么這個人今后就無法再進行學術類工作。而公司員工的流動性更大,造假的調查者完全可以去其他公司繼續工作。

我們只有從員工素質的提升和對數據的真實性進行反復檢驗,從而對于數據的人為造假進行規避。

總結一下:

  1. 社會期許——為受訪者創造匿名調查環境
  2. 幸存偏差——將受訪者分層次調查
  3. 胡亂回答——讓受訪者不對問題產生厭煩
  4. 分析錯誤——收集外界因素造成的影響
  5. 人為造假——提升員工素質,檢驗數據真實性

如果按照這些方式去做,我們的調查數據準確度就能夠極大的提升。

 

本文由 @鹵豆干 原創發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. ….看到你名字餓了

    來自北京 回復
  2. 你寫的文章都聽不錯,雖然技術上的點很少,但一個產品經理,最主要的還是需要思維上的提升

    回復
    1. 感謝閱讀!您可以看一看《工程師,別人聽的懂你的技術嗎?》,這篇文章闡述了我為何傾向于不用技術來解釋問題的根本原因。

      來自英國 回復
  3. 相關不代表因果,所以雖然有時候數據與結果同時出現,也不代表當中有具體聯系。

    來自浙江 回復
  4. ??

    來自上海 回復
  5. 總結的很棒,mark!

    來自上海 回復