數據產品設計:利用基尼系數實現數據波動的自動歸因分析
編輯導語:當你在進行一項產品設計時,數據突然產生波動了,你會怎么做?作者分享了自己是如何利用基尼系數進行數據波動自動歸因分析的方法,我們一起來看下吧。
日常工作中,數據同學經常會被老板或業務問到“昨日XX指標波動50%,幫忙看下什么原因?”,也有上來直接來一句“今天數據是不是有問題啊?”,數據同學心里一驚,“我X,是不是集群延遲了?難道昨天修改邏輯,改出Bug了嗎?”
于是先去找到指標對應的數據任務,排查數據加工流程有無異常,檢查了一遍任務運行正常,各個環節數據無誤,松了一口氣。
開始分析波動原因,經過多個維度的拆解分析后,發現南京下降影響最大,結合最新公布的疫情信息,回復老板/業務說,“昨日數據波動的主要原因是XXX,指標總體下降XX,其中南京下降XX,影響率XX”。一輪操作后,一上午過去了,既定的排期任務又要晚上加班搬磚了。
一、數據波動產生的原因
業務數據不可能一成不變,尤其是互聯網業務發展迅速,業務指標也會不斷變化。數據的波動主要體現和對比日期(同比、環比等)出現上升或下降。
DAU、訂單數、營收等經營業績性指標重點關注下降,而退訂率、投訴率等服務性指標重點關注上升。當用戶反饋數據波動問題時,可以從以下幾個方面排查分析:
- 首先確認數據質量問題,數據在加工過程,由于源頭數據異常、任務依賴延遲(集群資源不足)、開發Bug等原因,導致的數據重復、延遲、異常值臟數據等,影響數據結果。
- 周期性波動,對于有周期屬性的業務,OTA旅游產品,景區門票周末、暑期、節假日是出行旺季,這些時段各項業務指標會較其他時段有明細的增幅。外賣業務,在母親節、情人節等節日,鮮花品類會暴漲。
- 市場環境影響,如突發政治政策,用戶信息安全監控政策出臺后,一些赴美上市的出行、招聘等企業新用戶停止注冊,業務會出現大幅波動。
- 自然環境,如天氣,外賣業務白領區域來說,工作日遇到雨雪天氣,出門吃飯的人會大大減少,外賣訂單激增。
- 業務動作,如新版本發布、新的營銷活動上線等,五一期間,各家OTA公司上線機票盲盒活動,一時成為后疫情時代的爆款產品,帶來增量流量的提升。
- 競對出現,互聯網業務新入局者往往會在營銷、補貼等方面投入更多的資源,以跑馬圈地獲取用戶,對于忠誠度不高的趨利型用戶,會被直接轉移,百度、美團、餓了么外賣市場三足鼎立時,很多人同時裝三個App,哪個補貼多用哪個。
- 業務變化,產品調整帶來的統計邏輯的變更,例如App新版本上線后,流量入口的統計埋點方式發生的變化,業務產品未及時通知數據團隊,統計邏輯變更不及時,導致數據波動。
二、什么樣的數據波動才是異常?
異常的判斷需要結合業務的屬性、發展階段、指標特征、對比的周期綜合確定評價標準。首先是指標評價的依據,即憑什么說指標波動了,和歷史同期比通常的方式是對比分析(上一篇文章有詳細的同比、環比計算邏輯和常用場景)。
對于波動范圍,同是DAU指標,百萬級公司可能下降30%定為異常,而對于千萬級、億級的企業可能下降5%就需要分析下原因了。
因此,在數據產品設計時,需要對業務需求進行調研分析,確定指標異常的判斷標準。
三、數據產品異常歸因分析設計思路
1. 數據質量保證
數據波動時,很多業務第一反應是“數據準不準”,尤其是當數據質量問題比較頻繁時,會降低業務對數據產品的信任度。
數據質量可以說是數據產品的生命線,沒數據時,業務可以基于經驗等多方考慮去決策,但如果數據質量有問題給業務帶來錯誤的決策引導,那就是好心辦壞事了。
因此,數據產品設計要考慮數據質量的把控,可以通過數據質量監控報警日報每日巡檢指標涉及的任務運行情況、數據生產鏈路的表的質量情況(一致性、及時性、準確性、完整性監控),當監控體系覆蓋健全后,業務來質問數據問題時,就可以有底氣問業務上是否有什么動作。
當監控發現數據質量異常時,數據人員第一時間進行問題排查和恢復處理,并且產品端通過調用質量監控結果的接口數據,進行異常提醒,降低錯誤數據對業務決策的負面影響。
2. 指標異常規則的配置
數據質量保證沒問題后,第二步就是界定指標波動異常的標準了,一般有兩種方式,一是充分了解業務需求,將指標預警的規則,內嵌到產品實現邏輯中,好處是開發成本低,可以快速變現。
適合于規則變化不頻繁的場景,缺點是后期業務變化需要調整規則時,需要開發支持,且難以復用。第二種方式是建立統一的指標預警的配置化工具,業務可以按照自己需求場景設定預警的規則。
3. 利用基尼系數的思想實現異常歸因報告自動生成
確定數據質量準確無誤后,指標波動異常分析的一般流程是,先結合常見的幾種異常原因(業務動作、市場環境等)提出初步假設。然后是將指標按照支持的維度進行逐層拆解分析。
例如昨日大盤單量環比下降40%,先分平臺看,Android、ios、微信小程序各段環比是否有明顯的差異,即是各端均差不多幅度下降,還是某一端明顯下降。
分業務類型看,環比下降幅度Top的業務分別是團購、麗人、到店,單量下降對大盤整體的影響分別是10%,8%,5%等。最后確定指標拆解過程定位關鍵影響維度驗證假設,得出分析結論。
這個分析流程的核心思想是基于某一標準(指標)分析哪個維度、以及哪一維度枚舉值對總體的影響最大,這和經濟學中用基尼系數(英文:Giniindex、GiniCoefficient)比較相似,基尼系數來作為衡量一個國家或地區居民收入差距的常用指標。
基尼系數取值區間為[0,1]。越接近0表明收入分配越是趨向平等,一般認為小于0.2時,居民收入過于平均,0.2-0.3之間時較為平均,0.3-0.4之間時比較合理,0.4-0.5時差距過大,大于0.5時差距懸殊。
因此,可以先通過計算各個維度下,每個維度枚舉值波動情況對大盤的影響,得到單一維度下,各個值的基尼系數(基尼系數的算法公式參考百度百科),得到哪些維度波動“不公平”,即差異比較大,由此可得影響總體波動的關鍵維度排名,然后再針對具體維度下的各個枚舉值,計算波動影響Top的值。
例如昨日訂單環比下降10%,降低數值為A,通過基尼系數得到城市維度下,基尼系數最高,0.7,可以確定城市維度存在明顯差異,每個城市環比下降值從高到低依次為,B1,B2……Bn,由此可自動生產歸因報告,即到訂單下降主要受到地區影響,分城市看大盤貢獻度Top3的城市為:上海B1/A,北京B2/A,南京B3/A。
4. 數據填報,實現信息共享
數據部門經常遇到的痛點是很難第一時間獲得業務的信息,比如產品改版、活動上線等,往往是先看到數據波動,再去溝通確認業務動作。
因此,可以考慮基于數據填報的能力,當業務調整、或者外部經濟、政治、競爭環境信息時,可以及時更新備注,作為日期維度表的補充,在產品端進行展示提醒。
四、小結
指標波動是數據工作中最常見的問題,高效的異常波動的歸因分析流程主要從以下幾個方面逐步完善:
- 建立完善的數據質量監控體系,才有足夠的自信,確認不是數據問題
- 利用基尼系數分析或其他分析方法,產品化影響波動的關鍵維度以及影響率,可應用與定制化的可視化報表或自主分析BI工具中
- 了解波動的常見原因,將定量的數據分析結果與業務內外部的因素結合起來
- 建立便捷的信息共享通道,降低溝通成本
#專欄作家#
數據干飯人,微信號公眾號:數據干飯人,人人都是產品經理專欄作家。專注數據中臺產品領域,覆蓋開發套件,數據資產與數據治理,BI與數據可視化,精準營銷平臺等數據產品。擅長大數據解決方案規劃與產品方案設計。
本文原創發布于人人都是產品經理,未經作者許可,禁止轉載。
題圖來自Unsplash,基于CC0協議
- 目前還沒評論,等你發揮!