中文无码精品a∨在线观看,在线播放免费观看AⅤ片

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

你又一次被“真實數據”欺騙了

鹵豆干

2018-11-02

7 評論 6773 瀏覽 20 收藏

16 分鐘

數據對于產品、運營決策來說有重大參考價值，但是在現實生活中這些精心測量的“真實數據”卻往往出錯，問題在于什么？又該如何針對性地解決？

當公司需要推出一個新產品（服務，管理，市場）前，我們總是需要收集一些數據來說服股東（或者我們自己），這個產品一定會大賣。

這時候，就是各種圖表粉墨登場的時候了：餅狀圖，柱狀圖，條形圖，折線圖……

（這里本來應該有一張圖，但是大家看了太多的PPT，我就不放了。）

我們講的頭頭是道，下面的聽眾也頻頻點頭?！翱雌饋磉@個產品一定會廣受好評”，我們心里想。

然而，到了真正到了產品銷售階段時，我們卻發現，根本沒有用戶愿意買賬。

我們明明是嚴格按照規范收集數據，仔細的進行科學分析，每個步驟也有專人監督。這些真實數據為何不能反映真實的市場需求？

我們收集的所謂“真實數據”其實是假的。

大多數人認為，假數據只有在故意造假的情況才可能出現。而我認為，有些時候，錯誤的收集方式也會產生“假數據”。

那么，為何我們會收集到“假數據”呢？

一、社會期許

“您喜歡喝什么口味的果汁？”我相信很多人都會如實回答。

“您和妻子/丈夫關系好嗎？”這個問題就很難得到準確答案。

與之類似的還有：

您的月收入多少？
您認為自己聰明嗎？
您對自己外貌評價如何？

在社會科學中，這叫做社會期許誤差。人們更傾向于向他人展現正面形象，所以在回答問題時，更傾向于申報“良好行為”來符合社會的期望。

這也是為何很多真正的抑郁癥患者傾向于隱瞞自己的病情，因為他們希望能夠符合周圍環境對他的期望。而社會期望人的性格是積極外向的，這樣導致了很多抑郁癥患者很難對家庭袒露心跡。

我最近看的一本書，《Everybody Lies》，就展示了這樣有趣的現象：在社交網站上，在短句“我的丈夫是”之后，最常見的形容詞的前五名是：“最好的”，“最好的朋友”，“最棒的”，“令人驚訝的”，“可愛的”。

而在搜索引擎上,前五名，除了一個“最棒的”以外，其他四個卻變成了：“刻薄的”，“混賬”，“同性戀”，“討人厭的”。

這也就證明了上面的觀點：人們在可能被他人審視的時候會更傾向突出其好的一面，而在匿名且隱私的環境中才能表達真實的自己。

二、幸存偏差

假設我們來采訪一下幾個名人，他們的成功有什么必經之路：

喬布斯：我輟學了。
蓋茨：我輟學了。
扎克伯格：我輟學了。
布特林：我輟學了。

總結：輟學才能成功。

這里出現了什么樣的錯誤呢？

在統計學中，幸存者偏差是一種很常見的現象。即過分關注因為某些經歷而幸存的人或事物，并且將這些經歷定義為常識。

我們很容易找到類似的例子：

章魚保羅在2010年世界杯中連續7次猜對比賽結果——其他猜錯的動物沒有被報道。

2016美國總統大選時，CNN的民調顯示：希拉里支持率更高——調查時主要選擇了民族黨支持者。

很多喜歡看直播的人認為：主播收入高，外表光鮮，所以自己也要當主播——頭部主播占據了全部主播收入的80%以上。

三、胡亂回答

前段時間，我對YouTube上的視頻進行過一個粗略統計。

結果是：一個在大多數人理解下的優秀視頻，其觀看量、點贊量、點踩量的比例一般為10000：100：2（這個數據只是一個預估，請不要作為考量方式）。

而且，不論是視頻多么優秀，總是會有點踩的人。

這種“故意破壞他人體驗的點踩”在社會心理學中叫做向下社會比較。

這種情況往往是那個人遇到了某些挫折，通過降低自我評價的參照系（即讓他人的評價降低），來維持積極的自我評價。

這也是網絡上的噴子和鍵盤俠，往往都是在現實生活中遇到了不順心的事情的人的主要原因。

四、分析錯誤

在不久前，我看到某個電影院的大數據分析：看《戰狼2》的觀眾，有89%的人購買了冷飲。而看《前任3》的觀眾，有73%的人購買了熱飲。

數據分析得出的結論是，看動作片的觀眾更喜歡冷飲來清涼自己的緊繃的神經。而看愛情片的觀眾更喜歡用熱飲來溫暖自己的內心。

戰狼2：2017年7月27日上映——夏天。

前任3：2017年12月29日上映——冬天。

其實分析員只要看看上映時間就知道，觀眾選擇熱飲或者冷飲的根本原因是天氣問題，和電影本身沒有任何關系。

這種在統計學中被稱為混淆了相關性和因果性。即分析時過分注重于數據之間的關系比較，并且將這種關系直接定義為結論。

五、人為造假

就在兩周前，著名心臟專家皮耶羅·安韋薩涉嫌數據造假的新聞轟動了整個病理學界。由于他的31篇學術論文造假，直接導致大量相似的研究直接作廢，各種研究經費的損失高達數億美元。

那么，他是怎么做的呢？

他在分析數據前，直接將自己的假說認定為正確的，然后用很多數據去“湊”自己的假說，如果數據不對，就換方式來重新將數據“生產”出來。

這種手法，在很多歐美政客手上就用的爐火純青。特朗普就轉發過“舊金山犯罪統計局”的統計數據。該數據顯示，黑人是犯罪的主要根源。而實際上：“舊金山犯罪統計局”根本就不存在。

人們很容易相信數字所帶來的權威性。而這種利用數據來說謊的方式，就是利用了這一點。

這五個問題，導致了調查數據很難真實反映出用戶的需求，從而擾亂了我們的判斷能力。

那么，我們如何才能減少這些問題對數據結果造成影響呢？

六、解決方法

1. 社會期許——匿名回答

社會期許誤差的產生，是由于被訪者擔心自己的負面情緒或者狀態不被社會所接受。

那么最有效的辦法就是：為受訪者創造一個完全匿名的，保密的環境。

正如天主教堂里的告解室一樣，完全密封的匿名環境，加上神父的嚴格保密，讓信徒可以安心的懺悔自己的罪行。

投票箱就是一個很有效的匿名方式。例如美國的國家大選，為了避免大家因為敏感的投票話題引起爭執，采用了投票箱的方式，保護了投票者的隱私。

另外一個解決方式是隨機化回答。

方式是將問題分為兩類，敏感性問題與非敏感性問題。我們想要知道敏感性問題的答案，而我們已知非敏感性問題的答案。我們可以通過非敏感問題的答案來反推出敏感問題的答案。

舉個例子，假設我們想要推出一個新式男性增高墊，但是不知道使用增高墊的人數比例，我們可以設置兩個問題：

敏感性問題：“您是否使用了增高墊？”

非敏感性問題：“您的電話尾號是否是1？”

我們先在黑箱里放置兩個小球，一個紅色一個藍色。在回答問題前，要求受訪者在黑箱里取一個球，但是這個球的顏色只有受訪者知道。

然后告訴受訪者，如果他抽的是紅球，就回答“您是否使用了增高墊？”。如果抽的是藍球，就回答“您的電話尾號是否是1？”。但是回答者只用回答“是”或“否”。

那么，當我們收集到足夠多的數據后，我們可以得知受訪者回答“是”的比例（設為a）。

由于我們知道，電話尾號為1的可能性為10%，而抽到紅球或藍球的幾率各為50%，那么我們就很容易依靠下面的公式推斷出使用增高墊的人（設為x）比例。

你又一次被“真實數據”欺騙了

3. 幸存偏差——用戶分層

幸存者偏差是由于受訪者的樣本過于相似，導致了數據結果并不能代表所有的用戶。

由于我們無法對于對所有的用戶進行普查，那么最容易的辦法，就是從每一個層次的用戶抽取數人進行調查。

例如，我們想要對打車軟件優惠券的使用情況進行調查。我們就需要將用戶分為四類：

之前使用過打車軟件，后來使用過優惠劵（老用戶）
之前使用過打車軟件，后來沒有使用過優惠券（未涉及用戶）
之前沒有使用過打車軟件，后來使用過優惠券（新用戶）
之前沒有使用過打車軟件，后來沒有使用過優惠券（潛在用戶）

從每種類別的用戶中，我們選取數人來進行抽查。在每個層級的人群中，我們也要盡量將年齡，性別，職業等等區分開來，這樣才能減少幸存者偏差帶來的數據偏差。

3. 胡亂回答——顯示進度

大多數時候，受訪者還是愿意配合采訪的。讓受訪者不愿意配合采訪的原因只有兩種：外界因素和內部因素。

由于我們無法控制受訪者的外部因素（心情不好，急于做事，性格內向等等），那么我們只能減少內部因素造成的影響。

所以，我們需要盡可能減少受訪者對調查感到厭煩的可能性。

你們是否發現：當你安裝一個軟件時，就會有一個進度條顯示安裝的進程。而且，進度條并不是勻速前進的？

這是因為，進度條可以明確的告訴我們，我們還需要多久的等待。而非勻速前進的原因，則是經過了科學家的試驗，證明相對于非勻速來說，勻速的進度條更容易讓人感到不耐煩。

所以，在收集數據時，如果是訪問的模式，就需要在開始訪問前，告訴受訪者訪問的時長，并且將長問題穿插在短問題中。如果是調查問卷的模式，就需要在前面寫明問題的數量，并且在其中配上進度顯示（例如：已回答25%的問題）。

4. 分析錯誤——關注外因

我們在分析數據的時候，如果僅僅關注數據本身，就很容易出現混淆相關性和因果性的狀況。

所以，在數據分析時，一定要考慮到外界因素所帶來的影響。

正如第一臺ATM機發明前，巴克萊銀行對于用戶對于ATM機的態度進行過一次調查，用戶的數據反饋指出：相對于冷冰冰的機器，大家更喜歡熱情服務的柜員。

然而銀行發現：由于工會的強烈要求，導致銀行必須考慮在周末放假。而很多領取周薪的工人只有在周末才有時間去銀行取錢，那么這些工人的需求就很難滿足了，所以銀行依然決定推出ATM機。

結果大家都知道了，現在全球有著高達300萬臺ATM機為我們服務，也沒有人覺得從ATM機器里面取錢有任何不妥。

所以相對于單純的相信數據，更好的方式是將數據作為一個參考，但是根據實際情況來進行判斷。

5. 人為造假——規避問題

人為造假的問題是最難以解決的，因為這個是調查者自己所決定的。

現如今在學術界，最廣泛使用的辦法就是讓調查者簽署一個保證書，利用保證書來約束調查者的行為準則。

然而在公司中，這樣的的方式并不太合適。學術界出現了造假問題，那么這個人今后就無法再進行學術類工作。而公司員工的流動性更大，造假的調查者完全可以去其他公司繼續工作。

我們只有從員工素質的提升和對數據的真實性進行反復檢驗，從而對于數據的人為造假進行規避。

總結一下：

社會期許——為受訪者創造匿名調查環境
幸存偏差——將受訪者分層次調查
胡亂回答——讓受訪者不對問題產生厭煩
分析錯誤——收集外界因素造成的影響
人為造假——提升員工素質，檢驗數據真實性

如果按照這些方式去做，我們的調查數據準確度就能夠極大的提升。

本文由 @鹵豆干原創發布于人人都是產品經理，未經許可，禁止轉載。

題圖來自Unsplash，基于CC0協議。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

鹵豆干

90后英國博士在讀。公眾號：鹵豆干

32篇作品 305139總閱讀量

醫藥批發-B2B商城：用戶需求、業務需求、品牌商需求

12-134580 瀏覽

小紅書可以向微博學習商業化

03-144705 瀏覽

自媒體99%爆款內容，其實都是這樣『抄』來的

11-035135 瀏覽

智能調度讓物流更高效：聊聊調度系統設計

07-048983 瀏覽

在線旅游變局：新老玩家的攻與防、危與機

04-142344 瀏覽

評論

成功路上總有孤獨相伴

….看到你名字餓了

最近來自北京回復
人人都是專逼經理

你寫的文章都聽不錯，雖然技術上的點很少，但一個產品經理，最主要的還是需要思維上的提升

最近回復
1. 鹵豆干作者回復人人都是專逼經理
  
  感謝閱讀！您可以看一看《工程師，別人聽的懂你的技術嗎？》，這篇文章闡述了我為何傾向于不用技術來解釋問題的根本原因。
  
  最近來自英國回復
Sisyphus

相關不代表因果，所以雖然有時候數據與結果同時出現，也不代表當中有具體聯系。

最近來自浙江回復
盜不留蘅

??

最近來自上海回復
Neo

總結的很棒，mark！

最近來自上海回復