數據分析 | 當面試官問“分析一下為什么XX指標下降了?”
編輯導語:“分析一下,為什么今天的日活突然下降了?”這是數據分析面試的高頻題,考察的是應聘者的分析問題、驗證猜想、結果呈現等一系列能力。本篇作者就對此問題,結合自己的思考理解,給我們總結了如何看數據、做拆分和做假設,一起來看一下。
一、框架
分析流程總體可以歸納為三步:看數據、做拆分、做假設。
1. “看數據”,看數據本身及其變化是否存在問題
由于指標的波動可以分為正常的和異常的,按照持續時間又可以分為暫時性波動、周期性波動和持續性波動,所以要先明確這個波動是不是真的是異常的,可以和產品、運營、研發、運維等多方確認數據的真實性,然后觀察數據波動持續了多久,判斷波動程度是否是在合理的范圍之內,比起昨天和上周,同比環比分別變化了多少等等。
這一步可能發現的原因大致有:服務器異常、后臺統計出錯、報表數據異常、指標計算口徑不一致等,也可能是外部的惡意行為造成的,需要根據后續步驟再仔細排查。
2.“做拆分”,將指標和業務流程多維度拆解,縮小排查范圍
這一步要注意“辛普森悖論”,即在某些情況下,分析數據整體和分析數據的各個部分會得到相反的結論。
1)從指標上拆:一個指標一般可以由其他指標計算得到,指標的波動是若干個因素共同作用的結果。要想縮小問題的排查范圍,可以在原始指標下盡量細分,不斷地由粗到細拆解,找出可能影響指標波動的所有因素,得到一個類似樹的結構。比如“DAU=新用戶+老用戶留存+流失用戶回流”,新用戶有來源渠道,老用戶有留存渠道,流失用戶有自然回流和干預回流,而用戶共同的因素又有軟件版本、地區、設備、活躍時間段等等。
另外,拆分不只是用加法,還需要針對具體指標做拆分,比如一些復合指標:“GMV=新用戶x轉化率x新用戶客單價+老用戶x轉化率x老用戶客單價”。
2)從業務流程上拆:一個用戶從注冊到進入首頁再到流失或留存的整個過程,其中的任意一步都有可能會是指標下降的“罪魁禍首”。比如說,當一個新用戶第一次進入首頁時,發現首頁推薦的內容并非他所喜歡的甚至是反感的,反手來一個卸載,這種因為推薦內容質量而導致的用戶流失,鍋就甩在推薦系統工程師的冷啟動沒做好上了。
不止是這些“表面上”的因素,還有很多其他因素可以加入進來,它們大體上可以歸納為內因和外因兩類,內因往往和用戶、產品、運營和內容質量相關,外因則可能和政治、經濟、法律、競品的出現甚至疫情的爆發有關,外因可以從宏觀上做PEST分析。
往往在分析之前需要先判斷指標波動的情況,一般來說,短期變化找內因,長期異動找外因。比如向外考慮國家是否有重大政策發布,向內考慮是否產品本身有問題,是否用戶需求發生了轉移,在數據上則需要關注數據指標的起點、拐點和終點。
舉個最近的例子就是,最近在線學科教育產品的日活為什么下降了?因素就很有可能是最近國家發布了雙減政策,自國家發布消息的那一天起,指標數據開始下跌。
除了使用拆分的方法外,還可以結合相關性分析的方法,思考目標指標與另外一個因素是否相關聯。
第二步可以總結成幾個問句來輔助思考:指標構成是什么?業務流程是什么?是否有外部因素的影響?相關因素有哪些?有注意辛普森悖論嗎?
3.“做假設”,假設某因素就是原因,做實驗去驗證假設
第三步與第二步是緊密結合的,往往是先從理論上和經驗上去分析,得到各種假設,再通過實驗驗證提出的假設,相當于前面提到的“樹”,給它的各條分支路徑做剪枝操作,一定要具體問題具體分析,具體措施就是做AB實驗。
由于真實場景下存在許多的變量,可能是產品迭代、運營策略改變,或者線上有另一個AB實驗在做,都會導致最終結果存在差異,所以不同情況下的驗證會有不同的解決方案。
要驗證一些可復現的問題或可實施的想法時,如果時間充裕就可以通過AB實驗來做,其他情況則可以通過業務經驗快速縮小驗證范圍,用業務指標拆分或相關分析來輔助排查問題,最終鎖定一個或多個有意義的結果。
需要注意的是,對于部分能穩定重現的問題來說是可以用AB實驗來驗證的,還有很多問題是不能穩定重現的,就需要另外思考解決方案了,例如某天發現有大量新增的用戶,但是都是腳本模擬的假用戶,這時就需要根據當天的用戶行為記錄,如ip地址與設備標識等已經產生的現有日志進行深入挖掘了。
二、總結
最后,把前述梳理的思維框架總結成一個思維導圖,當遇到要分析指標數據變動的問題時可以作為一個參考。
參考
猴子《數據分析思維:分析方法和業務知識》。
本文由 @方塘 原創發布于人人都是產品經理,未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
說的挺不錯的
好文