防忽悠指南!數據造假的九個方法
做數據分析的時候,有數據可以做分析,但要如何確保數據是真實有效的呢?本文總結了九個防止數據造假的方法,希望對您有所啟發。
做數據分析,有數據才能分析如果數據是不真實的呢?如果數據是人為扭曲的呢?如果數據被人為扭曲,還要求你接受呢??今天我們就來討論這個話題。
以下是最常見的九大手段,大家先牢記于心。你將會在年終總結、年度規劃、活動評估等場合遇到它們。提前了解,也好早早應對。
段位一:虛報數據
業務方故意虛報、謊報、不報數據,導致基礎數據缺失,錯誤頻發。這種情況在用紙質單張的年代很常見。不過隨著數據系統的普及,此問題已經越來越少。
如果現在還有使用紙質單張的場景,比如用戶紙質申請表、調查問卷等,此問題依然會存在。解決方案也很簡單:上微信卡包呀!啥年代了注冊個會員還寫紙質單。
段位二:人為改數
參見:?
系統是死的,可人是活的。想解決,只能加強考核,對違規操作的人嚴懲不貸。這些操作的規律性很強,且和具體人的行為高度綁定,通過分析是可以識別的。
段位三:修改口徑
數據不好看了,怎么辦?直接改統計口徑!本質上講,數據指標是為了計算方便而設的,作為使用方業務方想咋改就咋改。但是因為改動口徑,導致前后數據不一致,就是大問題。
只改統計口徑、不改指標名字,更是魚目混珠的大問題。所以改口徑可以,把過往數據報告,按新口徑一口氣刷了才成。
段位四:控制節奏
參考:?
注意,和段位2不同,段位2是偽造數據欺騙公司,性質惡劣。段位4本質上沒有偽造數據,而是利用了銷售、運營、獎勵的規則,謀取個人利益最大化而已。
實際上,是個人都會這么干,這屬于業務潛規則。我們常說“水至清則無魚”,你不可能要求一個人不為自己著想。如果真的管得太死,一線業務絕對會跳槽跑路。
作為數據分析,需要有能力識別這些具體問題,把它們控制在可接受的范圍內。如果問題太過泛濫,再看如何推動制度層面優化調整(如下圖所示)。
注意,從這個問題開始,我們進入中級難度,因為后邊的問題,對數據分析師個人的分析能力要求會越來越高。就比如區分哪些是合理潛規則,哪些是惡意改數,是需要一定分析經驗積累的。
段位五:亂帶節奏
做數據分析時你一定經常聽這種問題:
- “最近活躍率下降了?分析下原因”
- “最近銷售表現不如人意,?分析下原因”
- “為什么我們的產品那么差?”?
然而你辛辛苦苦扒了一堆數據,發現:沒啥毛病???恭喜,你中了亂帶節奏的全套。業務口中的“下降”“不好”“不滿意”很有可能是個偽命題!
注意,業務方在不經意間扭曲數據判斷,很多數據分析新人會直接一腳踩進去。很多新人做分析,不是先問是不是,而是直接研究為什么。按用戶群、注冊時間、產品類型等把數據拆得七零八落,最后屁都解讀不出來。過兩天回來一看,人家問題已經不存在了。
應對此類問題,切記:
遇到“大小、多少、高低、快慢、好壞”先問標準。
聽到具體問題,先問怎么知道這個問題的。
聽到人議論數據,先問原始數據源。?然而,難就難在,這三個“先問”是違背人本能的。聽風就是雨才是人們最習慣的思考模式,所以這個看似簡單的三個問題,需要大量、反復、強化訓練才能習得,不然就經常被繞進去。
段位六:滿意度
此處滿意度,指的是那些業務部門口頭高掛,卻很難用系統直接記錄數據的指標。類似的有滿意度、品牌影響力、產品力、行業地位、NPS等等玩意。因為缺少直接記錄,所以會引發很多幺蛾子。
段位七:自然增長率
最后想操縱數據,只要不停地改“自然增長率”數據就好了,實在不行了還能把丫改成負數嘛(如下圖)。
應對這種辦法,最好的手段就是:不理他?;顒訉嶋H參與量是很容易算清楚的,如果要定自然增長率,可以事先說好,免得事后啰嗦。
段位八:參照組
參照組和自然增長率是一對難兄難弟。都很容易被人立著“科學評估”的牌坊,實際上隨意更換,改改改,改到業務滿意為止。
如果業務方想糾結,他會一直說你設置的參照組不科學,樣本都是特例,不夠隨機,不具有代表性。
實際上,只要不是全量統計,就永遠能扣一個“不科學、不隨機、不代表”的帽子(你真全量統計,他們又說:沒有剔除自然增長,啦啦啦啦,反正總有理)。
最好的應對方法就是:不回應。只要分組方法是事先說清的,出啥結果就認啥結果,有啥好嘰嘰歪歪的。本身設參照組,只在做限定渠道精準推送的時候才能用。
本身設參照組,只是ABtest一種檢驗手段。本身Abtest,也只是檢驗工具之一,不是權威法則。難道沒有ABtest業務部門就一點判斷能力都沒有了?你們的業務能力呢!要你們何用!好爽,終于能罵回去了!
段位九:綜合評估
評價一個問題,用單一指標最清晰。然而人們偏偏喜歡用復合指標,以顯得“思考全面”。
指標一多,勢必設計權重分配。于是騷操作來了,如果評價出來,某人對結果不滿意,便會祭出:“這個權重不合理,不能反映業務實際”的大旗,然后逼著你改。
最后結果,自然是讓人家心滿意足,才會說你分析深入合理。不然就繼續來糾結。?最過分的,我還見過業務方領導手寫了一個分公司評分排名,然后告訴我:你用大數據人工智能方法,把各個指標綜合計算出這個排名,做得滴水不漏,明年合同還跟你簽……
此時能說什么,當然是:好的。簽單要緊,科學性算個屁,不就是改權重嗎,搞得跟讀研的時候沒整過一樣。
?應對方法:每一個指標單獨評分多指標的權重讓領導定放棄業務解釋度低的神經網絡方法業務意見不一致,打完架告訴數據怎么定。
以上三個是高段位操縱數據的辦法。之所以段位高,是因為自然增長率,參照組,綜合評估本身就是數據分析常討論的話題。很多新入行沒吃過苦頭的數據分析師,自己都很愛倒騰這些東西,以為做得越復雜就越高級。
最后結果是,做得越復雜,業務含義越難講清楚,越是被業務方各種質疑,最后被牽著鼻子走,變成:“結果對業務有利就是客觀全面,結果對業務不利就是缺少深入分析”,自討苦吃。?小結?我們會發現:不同部門用的手段不一樣。
銷售、推廣、供應鏈這些一線部門,數據本身就是他們工作的直接產物,因此最容易篡改數據源。運營、策劃、產品等部門則最喜歡搞難以量化的指標,喜歡談“深遠影響”,喜歡設一堆“自然增長率”“參照組用戶”然后剔除來剔除去,篡改的是基于數據的判斷。
為啥銷售、推廣、供應鏈不折騰?因為人家面對的是結結實實的銷售收錢,推廣進人、倉庫出貨的問題,一個人頭一分錢很清晰,沒得扯皮。但是像運營、策劃、產品這些大家一起干一件事的時候,就總想突出自己的功勞。
于是便開始了無休止的扯。?“剔除自然增長,我的活動帶來多少效益”“剔除自然增長、活動拉動,我的產品改版帶來多少效益”“剔除自然增長,活動拉動,產品改版,我的文案帶來多少效益”……?如果一定要對比兩種危害,肯定是篡改數據源的危害更大。
如果數據是假的,那分析就無從談起了。篡改數據源背后,代表著公司管理混亂,渠道控制軟弱無力。有意思的是:總部的各職能部門都對這種軟弱無力深惡痛絕,所以在這個問題上,往往總部部門是槍口一致對外的。?但在數據判斷上,往往是亂自上做。
總部的運營、產品、策劃們出于一己私利亂改標準,對于實現真正的數據驅動是非常有害的。不敢面對事實,拿數據粉飾太平,最后的結果就是業務部門自己越來越喪失判斷能力,又回到拍腦袋決策,拍屁股走人的原始狀態,這是我們不希望看到的。
理想的狀態,是數據源真實豐富,數據判斷簡單清晰,數據分析深入立體。把精力多放在找原因、做預測、測試效果上,這樣才能輸出更好的成果。
本文由人人都是產品經理作者【接地氣的陳老師】,微信公眾號:【接地氣的陳老師】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
真相是殘酷的,人們更喜歡接受對自己有利的事實,不然怎么那么多美顏呢。最好的BI系統就是能自動數據美顏的系統!