警惕!數據分析的陷阱?
編輯導讀:很多數據分析人員在工作中,過度關注數據或者分析方法,容易忽視一些“陷阱”,以致于得出的結果很可能出現偏差。本文作者將從業務層面的視角,來探討和梳理在數據分析過程中幾個可能常見“陷阱”,希望對你有幫助。
我們上篇內容,給大家梳理了數據分析的一些榮耀和驕傲時刻,包括數據分析的重要性、數據分析產出價值、數據分析經典案例匯總。相信大家對“數據分析”的價值以及重要性有了相應的、立體的、全面的認知和自己的感悟思考。(詳情請看:數據分析的榮耀與驕傲)然而,我們在日常工作中,你一定聽過運營或者產品等人員會說“要拿數據說話”“用要數據來講故事”等等的話語??梢姅祿絹碓绞芪覀兠總€企業或者業務線人員的重視,也成為我們在實際工作的最為重要的參考以及決策支持。
但此時,很多的數據分析人員往往太過于去關注數據或者分析方法論等,尤其是對于剛入門的,在解讀數據過程中,受到數據來源、采集方法、統計口徑、分析方法、業務經驗、思考方式等因素影響,就會出現一些容易忽視的“陷阱”,以致于得出的結果很可能出現偏差。所以,重視數據分析是好的,但也千萬不能掉進數據分析的“陷阱”里。
那么,本文我們將從業務層面的視角,來探討和梳理在數據分析過程中幾個可能常見“陷阱”,目的是主要給剛入門的、產品、運營等提供一些有益經驗分享,幫助大家在實際工作場景中遇到這些情況的時候,可以盡量規避一些不太注意的“陷阱”。
一、不了解數據來源,不確保數據的正確性
在數據分析中更注重的是分析,而并不是數據本身,這就造成了數據分析最大的陷阱:不了解數據來源,不確保數據的正確性,就開始分析了。因此,數據分析的第一步就是了解數據來源,確保數據準確性。
比如,一個考勤軟件的App在做渠道投放,上線了新版的落地頁。上線了一段時間數據穩定后,業務人員從數據發現,此某個渠道的落地頁點擊率、轉化率等數據相比其他渠道的投放的效果高出很多,從數據中,可以看到說明這個渠道來的用戶效果很好,以后就要加大這個渠道的投放。然而,突然接到技術人員的反饋,在數據埋點的時候不小心埋錯了,導致統計數據出現問題,這個渠道的數據是其他兩個渠道總和!
因為錯誤的數據,得出了錯誤的分析結果,并且還做了后續錯誤決策。由此可見,有效數據分析的前提,是對正確的數據做分析。尤其是在小公司的人員,沒有強大的數據團隊,可能就會借用各種各種第三方的統計軟件來做數據埋點,此時首要確認數據的正確性,去梳理數據來源。
二、需求不匹配,分析目的不明確
梳理了數據來源,確保數據的準確性,是前提。那么接下來就是需要明確分析目的,分析目的明確了,后面的各種統計數據和分析方法以及分析結果才有意義。當明確目的后,才有后續的分析思路。
比如,一個考勤軟件的App的業務人員提出轉化率較低,是否有優化的空間的需求。然而我們并沒有進一步的確認是哪個環節轉化率低,就開始直接拉取數據進行分析,其實業務人員說的是新用戶會員成單的轉化率,是不是來源不精準,能否優化渠道或者停止投放,而我們得到的需求不明確,溝通的時候也未能進一步的明確分析目的,就是直接拉取各個環節的轉化率,導致拉取的數據與原始問題不匹配。
因此,根據業務方的需求,首先要明確為什么要做數據分析,要解決什么問題,也就是分析的目的。然后針對分析目的,搭建分析框架,選擇分析方法和具體分析指標,以及明確抽取哪些數據,用到哪些圖表等分析思路,只有對分析目的有清晰的認識,才會避開為分析而分析的誤區,分析的結果和過程就越有價值。
三、未清理數據,數據采集出現偏差
在了解數據來源、確保了準確性、明確分析需求后,下一步就是數據采集和數據清洗了,這也是最容易出問題的環節,有些問題甚至非常隱蔽難以發現。因此,數據本身沒有觀點,分析時不能預設觀點,只傾向于那些能夠支持自己的觀點的數據,并在數據清洗中,合理的識別數據容量大小、剔除臟數據。
注意選擇性偏見或者幸存者偏見。總體樣本中,任意一個群體樣本的平均值,都會圍繞在這個群體的整體平均值周圍?;谶@個原理,我們便可以采用隨機抽樣的方式來對整體樣本中的一個小群體進行分析,得出的結論是會比較接近真實情況的。但是你采集數據的過程是否是真的隨機。
比如,在一個考勤軟件APP應用升級期間,通過衡量用戶的日活、留存率、活躍企業數等指標,來判斷用戶對新版本的喜歡是否優于老版本。但這里實際就隱藏了選擇性偏見,因為新版本發布時,第一批升級上來的用戶往往就是最活躍的用戶。這批用戶在這些指標上,本來表現就是優于一般用戶的,因此指標數據更高并不能說明更好。
注意數據樣本容量不夠。我們在分析某特定的用戶行為數據時,可能用戶使用很少的情況。或者是在提取數據的過程中,增加了很多的限制條件或者多種用戶行為或屬性進行交叉后,得到很少的用戶樣本。此時,得出的分析結果未必可信。因為大數定律,只有當數據量達到一定程度后,才能反映出特定的規律。但是樣本容量多少才算合理,通常只能是具體問題具體分析。
比如,在一個考勤軟件APP應用新上了學習打卡的新功能,但由于前期無預算做推廣,導致新功能只有在小部分老用戶群體中曝光,因此,從數據中來判斷此功能并不受歡迎。但這里實際就存在數據樣本容量不夠,并不能說明問題。因此,遇到這種情況,建議可以把時間線拉長,這樣可能會獲得足量的樣本。還有一種做法是,將不重要的限定條件去掉,也可以增大樣本數。
注意存在臟數據。臟數據是指嚴重不合理或對于實際業務毫無意義的數據,通常是由程序bug、第三方攻擊、人為等原因造成的。這種數據對指標的準確度影響較大。
比如,我們要分析在一個考勤軟件APP中各個企業類型打卡規則的分布情況,而用于分析用戶打卡視角中,有較多是個人打卡并不是我們要分析的目標群體或者有人的工種的特殊性,就會造成打卡規則的分布不規則的情況,容易造成對用戶喜好的誤判。因此,對臟數據的清洗和處理,也是數據分析人員日常工作中非常重要的一部分。在分析具體業務時,也要針對特定業務,過濾掉異常數據,來確保擁有比較好的數據質量。
四、指標不合理,數據具備時效性
清洗完數據后,下一步就需要明確分析的數據指標,進行數據分析,其數據分析的結果通常是各種各樣的指標,每個指標都有自己的統計邏輯,反映的事物的某些方面的本質。
比如,很多時候我們會使用平均值來描述一組數據的集中趨勢。我們在制定業務閾值時,也經常會參考平均值。但是,有些業務場景不適合使用平均值。就像變化比較大,存在極端值的數據,或者是對最終結果影響不一致的數據。這種時候,你就要考慮其他指標,如加權平均值、百分位數、小數值合并后再求平均值。
因此,在進行數據分析時,如果不能選擇正確的指標,也可能會走入誤區,從而得出錯誤的結論。數據是具備一定的時效性,不同情況下的數據,一些曾經的數據可能不再適用,需要找到新的數據指標。
五、套用方法論,分析結論不嚴謹
明確好數據分析指標,接下來就是通過各種數據分析方法來分析數據,得出結論,支持業務決策。數據分析方法論是對一個數據分析項目的整體工作起到指導作用的思路模型。然而,在數據分析學習時或許習慣了各種解題套路,但實操時其實并不存在通用的分析套路。不同的行業、不同的業務,不同的階段,哪怕用的是同一種分析方法結論都應有所區別。
比如,在實際工作場景中,數據分析需要對數據表現作出快速判斷,進而指導運營決策,并不像學術研究那樣嚴謹,不需要在每次分析前都去驗證樣本群體是否符合某種統計分布等,實際工作中,考驗得更多的是對業務的理解的把握能力。所以,在開展數據分析工作過程中,不能完全依賴過往的類似案例以及分析方法,而應重視業務的理解。
因此,每一次分析,應該結合業務場景中思考,更不能被各種套路方法論給束縛住,也不能簡單依賴過往的類似案例。
六、輕視業務,與實際場景脫節
數據不等同與實際場景,實際場景往往比數據更加復雜,分析時需要了解具象化的場景,而不是抽象的數據,數據分析初學者極易犯的錯誤,只懂工具不懂業務不能真正理解業務需求。好的分析人員需要既懂工具又懂業務,也要多去一線了解業務運作,幫助解決業務運營中遇到的各種問題。
比如,結構化思維模型、KANO分析模型、RFM模型、四象限模型……這些經典且廣泛應用的模型。來積累豐富的數據分析模型庫以應對各種業務場景。
因此,數據分析人員結合實際業務場景,需要具體問題具體分析,服務于業務的應用。及時與企業各部門溝通,共享數據分析的成果,這樣才能體現數據分析的真正價值。所以作為數據分析人員,要結合業務需求,保持獨立思考的心態,大膽假設,小心求證,警惕和避免走進數據分析的陷阱。
七、總結
實際工作生活中,還有很多需要我們注意的關于數據分析的事項,這里就不一一開展,本文只是從業務層面的視角梳理了關于數據分析各個環節中可能存在的引發誤導的一些陷阱。
數據分析的常見陷阱:
- 不了解數據來源,不確保數據正確性
- 需求不匹配,分析目的不明確
- 未清理數據,數據采集出現偏差
- 指標不合理,數據具備時效性
- 套用方法論,分析結論不嚴謹
- 輕視業務,與實際場景脫
總之,我們需要逐步積累經驗,有效地利用數據,避開以上數據分析“陷阱”,就會分析的越來越準確。需要我們注意的是:以往成熟的分析方法論以及經驗固然實用,但隨著大數據時代和5G的到來,企業的數據體量不斷擴大,業務需求不斷變化數據分析的環境也不斷變化,要實時更新知識和工具庫也要警惕和避免踩中上面這些數據分析的陷阱,尤其是對剛入門的。
#專欄作家#
木兮擎天@,微信公眾號:木木自由,人人都是產品經理專欄作家。多年互聯網數據運營經驗,涉獵運營領域較廣,關注于運營、數據分析的實戰案例與經驗以及方法論的總結,探索運營與數據的神奇奧秘!
本文原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自unsplash,基于CC0協議
- 目前還沒評論,等你發揮!