五步拆解:如何做一個優秀的數據分析項目
在數據分析領域,如何設計并執行一個優秀的數據分析項目是許多專業人士關心的問題。本文通過五個具體的測試題,幫助讀者評估自己完成優秀數據分析項目的能力,并提供了關鍵的思路和方法。
在知識星球里,很多同學問:“如何做出優秀的數據分析項目?不然簡歷和年終總結都不知道咋寫”。我都做了詳盡的回答和跟進,今天總結分享一下大家提到的共性問題。
想做好數據分析類項目,主要靠的是:樹立正確的觀念。這里有5道測試題,一起來測一測自己有多大可能做出好項目。題目一(單選題)
數據分析項目好壞的衡量指標是:
A、時間、成本、質量
B、算法難度、統計學知識、數學公式
這個題目是最重要的觀念,直接決定了一個數據分析師在當前公司混得好還是壞。數據分析工作有它的特殊性:
★ 它不同于銷售,不能直接為公司創收。
★ 它不同于運營,不能直接拉升活躍留存付費指標。
★ 它不同于交易/網站/ERP系統的開發,這些系統是業務必需的支撐。
★ 它不同于DBA,沒有DBA的公司不存在,沒有專職分析師的公司大把。
數據分析工作本質上是一個可替代程度很高的輔助崗位。在數據分析觀念普及前,很多公司都是找個會寫sql的程序員來頂這個崗位的。就像瞄準鏡與槍的關系,沒有瞄準鏡槍照打,有了瞄準鏡,槍可以打得更準。
因此,雖然數據分析背后有算法、統計學、數據做支撐,可企業care的不是這些書本章節,而是到底對業務有什么用?有多大用?同企業里其他項目一樣,數據分析項目最重要的就是考察時間、成本、質量。
如果脫離了這些,空洞地追求“我用的方法好復雜,我好厲害”。那還是回學校里做科研好了,科研才需要追求高精尖,企業里追求的是:在達成目標的情況下,成本越低越好,時間越短越好。所以這個題一定選A。
很多剛畢業的、轉行的、新加入的數據分析師喜歡選B,選B也不代表沒前途。
因為選B的同學會花很大精力死磕書本,這樣雖然在一個公司混不起來,但是在跳槽的時候過面試的能力還是可以的,所以也能通過一年一跳槽來漲薪。但是想在一個公司做出成績,還是選A的好。
這個題目最關鍵,明白了這個題目,后邊的問題就迎刃而解了。題目二(排序題)
以下人員,對數據分析項目質量的話語權為:
A、業務部門領導
B、數據部門領導
C、業務部門員工
D、數據部門員工(本人)
如果問題一吃透了,這個題毫無難度,答案是A≥B≥C≥≥D。領導意見大于員工意見,如果業務部門領導首肯,數據部門領導就直接應聲附和了。如果業務部門領導不發聲,那就看數據部門領導是不是認可。本人的“覺得我做得很牛逼”,毫無意義,切記切記。
請注意,有時會有業務領導和數據領導態度不一致的情況,這時候以自己直接領導的態度為準,外部門稍后考慮。在大部分企業,直接領導是決定自己績效評分的那個,所以一定不能得罪。題目三(排序題)
請對以下五種項目成果,按質量高低排序:
A、可視化的數據產品
B、每月定期輸出的數據模型
C、部門級以上會議的匯報ppt
D、無群體匯報的ppt
E、Excel數據表
F、無固定格式的數字
G、寫sql跑完數口頭告訴業務
這個題完全解釋需要一整篇文章,但同學們可以用望文生義的辦法,直接作出回答,答案是:A=B≥C≥D=E≥F≥≥G。
數據分析的成果很容易被人當夜壺:用得時候很爽,用完了就忘了。平時還嫌你臟:你看我不就是要個數字嗎!還要跑那么久!
所以做數據分析項目,要爭取輸出定期使用的、產品化的、大家必須看的成果。最好的就是上一套BI,或者業務的用戶跟進名單用模型進行優化排序,讓大家不得不用。
不濟的話,寫個ppt,但爭取在會議上公開講。最差最差就是跑了一堆臨時需求單,寫了2000行sql結果連個正式輸出物都沒有,年底寫績效報告都不知道寫啥。題目四(單選題)
今天是11月11日中午12點,你的領導說,下班前給一個預計,預測一下雙十一我們業績能去到多少,你怎么做?
A、立馬回去建模,時間序列、XGboost搞起
B、回去找運營要推廣費用使用情況,算個投入產出比來拍
C、回去看下上午數據,根據去年同期拍一個
這個題非常有迷惑性。特別是剛看完上一題,很多同學會慣性選A。這個題的題眼不是“預測”而是“中午12點到下班”。
數據分析可以建模、可以做BI、可以做可視化,但是通通需要時間,而很多情況下,業務不等人,必須快速給出結果。這時候要優先選簡單直接的辦法,并結合數據提示風險。
所以建模要學、統計學要學、如何快速合理地拍腦袋也要學。很多新人哼哧哼哧搞了一堆模型,結果被領導三言兩語推翻,還批斗:“你都干嘛去了這么磨嘰”,就是這個原因。這個題選C,最好是10分鐘內給答案,領導指示:“這個問題非常重要,要用更復雜、更科學的方法”以后,再考慮AB。題目五(多選題)
數據分析的工作成本由什么構成?
A、數據庫成本
B、電腦成本
C、開發軟件成本
D、BI產品成本
E、數據采集質量
F、數據清洗質量
G、程序員工作時間
這個題也非常非常有迷惑性,如果在陳老師問之前,很多人都壓根沒想過:“做數據分析還有成本??????!”“這玩意不是一個飽讀《機器學習》《統計學》《21天精通python》的人敲敲鍵盤就搞掂的嗎??!!”
答,數據分析肯定有成本,而且最大的成本是數據質量,好數據才有好分析,垃圾數據垃圾分析。特別是數據采集,業務流程漏洞百出,業務管理不規范,埋點不做好就上線,基礎數據臟亂差,分析個屁。
至于什么軟件成本,電腦成本都是毛毛雨。數據質量是涉及公司根本的問題。所以這一題的答案是ABCDEFG,如果排序的話,是E≥≥F≥G≥A≥D≥B≥C
等等!很多同學會問:為啥有G,而且排序還那么高?!因為數據分析師的工作時間是非常寶貴的。
學校里、論文里、專利里那么巨復雜的模型都是耗費無數時間燒出來的。普通企業的數據分析師每日應付各種取數、匯報、excel都已經折騰半死了,連找對象都不一定有時間,還整高精尖模型呢。
所以必須考慮工作時間,日常需求要排優先級,集中精力做有產出的東西,那些亂七八糟“我要個數”讓他排隊去。
以上,做完5個題目,理解了題目思路,如何做優秀的數據分析項目就呼之欲出了——
如何做優秀的數據分析項目:
1、正式立項,把業務痛點作為項目目標
2、考慮時間緊迫性和數據質量,設計恰當方法
3、輸出定期使用的、產品化的、大家必須看的成果
4、需求排序,給自己留出時間干高品質工作
5、用快捷分析方法應付簡單需求,留出精力做復雜需求
為了取得好的教學效果,這里用了5個最常犯錯的題目。目的就是讓大家記住做出優秀數據分析項目的五個要點。
本文由人人都是產品經理作者【接地氣的陳老師】,微信公眾號:【接地氣的陳老師】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
收集所需數據,并進行數據清洗,確保數據質量。數據的準確性直接影響分析結果的可靠性。