聊一聊數據報表/數據分析的【對數】日常
編輯導語:互聯網時代,數據分析的重要性不言而喻,數據分析也貫穿著整個工作的過程,本篇文章作者分享了數據分析的對數日常以及給出了很多可行的方法,希望對你有幫助。
一、數據比對的痛
“這數不對”。
“為什么A這里的數據和B的數據不一致?”
“為什么平時這個數是C今天變成了D?”
“為什么這么高?”亦或是“為什么這么低?”
——【我的對數日?!?/p>
一旦有人對某數據提出質疑,就會開始令所有人崩潰的對數。
尤其是經營分析會、月度會議期間,數據團隊面臨反復且高頻的折磨,不同需求方不同角度都等著回答和解釋。
- 領導:不理解,為什么沒有人能給出來正確的數據?
- 業務:技術給的結果不準…數據質量差,又不能用,又要自己算,數據量太大算不動。
- 數據團隊:數據不是我錄的、業務數據庫不是我設計的、指標邏輯也不是我定義的、運營邏輯和策略調整對數據的影響我也不知道。數據根據邏輯加工出來就是這個樣子,不是你想要的,我該解釋什么?
非常無辜,非常無語,活還是要干!
不考慮模型設計、不講數據治理、制度和流程梳、不談組織合理性、不談數據意識和數據團隊地位,不與業務battle。
落在當下,必須要面對的工作面前,只是想聊一聊“對數到底應該怎么對?”
希望通過這篇文章與數據相關從業的朋友聊一聊“面對常態化數據質疑的處理方式,在不同的場景下數據團隊的觀點輸出”。
二、對數對數,對的是什么
1. 數據比對的場景
- 新舊指標對比,新指標上線替換就應用;
- 全新指標上線,證實數據準確;
- 同預期不符或數據波動大,進行數據查驗;
- 應用端數據不一致,維度匯總不一致給出解釋;
- 數據A和相關數據B不匹配,交叉驗證。
2. 數據團隊的心態
數據技術有門檻,但數據是公司的數據、是業務的數據。
數據本身沒有價值,數據脫離業務應用,就只是磁盤上的文件而已。
對數占用了數據團隊大量的時間和精力,消耗耐心和斗志,這種情況下應秉持怎樣的心態?
下面是數據團隊避無可避的問題:
1)提升團隊數據素養
- 對數屬于不復雜但大多數人做不好事情,好的數據團隊人人都是數據分析師,具有數據思維,懂業務。
- 清楚業務規則,懂業務數據流向。清楚數據映射的業務流程,識別數據問題的業務構成。
- 遇到問題知道從什么地方分析原因,知道要看什么數據。
2)提升公司數據意識和數據產品的可信度
- 數據有天然門檻和屏障,如何拉齊各方的認知?
- 如何方便用戶去使用數據?當不缺數據的時候,如何有效使用數據?如何給用戶呈現數據?
- 產品思維,數據是結果但對數據的理解是主觀的。
- 如何直觀、不引導的客觀呈現數據?
3)解放人力實現自動化
- 化被動為主動,怎樣從無盡的對數中抽離。
- 能提前識別異常、提示變動、給出對照。
- 數據穩定,線下數據走通后,便可以逐步切線上,固化比對邏輯。
3. 對數對數,對的是什么
對數就是實際和預期的彌合,為什么A不是B?
A是數據部門輸出的數據,B可能是之前某版本的數據、可能是心理預期、可能是某業務線的手工數據、可能是去年同期數據、可能是上個月的數據。
解決方案有幾種:證實“A是對的”;證否“B是錯的”。
證實”A/B都是對的,但有cdef造成了兩者的數據差異”。
都要給出結論、對照和明細憑據。
三、通用可復制的方法
數據比對是有目的的數據分析。
著名的咨詢公司Gartner于2013年總結、歸納、提煉出一套數據分析的框架,Gartner把數據分析分為四個層次,分別是:
- 描述性分析(Descriptive Analysis)——發生了什么?
- 診斷性分析(Diagnostic Analysis) ——為什么會發生?
- 預測性分析(Predictive Analysis) ——什么可能會發生?
- 處方性分析(Prescriptive Analysis) ——該做些什么?
數據比對是描述性分析,即對數據現狀拆解出數據依據。
那么數據比對的過程,就是描述性數據分析的過程,可按以下順序進行:
- 確認分析的目的和思路;
- 數據準備、處理及分析;
- 撰寫數據結論及報告。
下面具體說如何操作,讓觀點可執行。
1. 確認分析的目的和思路
1)假設驗證確認分析思路
(1)明確對照項[A-B]
確定問題,明確目標,得出A、B哪個正確?差異原因。
首先明確對照項A、B的定義,判斷其定義、口徑、算法是否一致?
(2)對照指標數據流向及構成
對照數據流向,分析數據構成及計算過程。
確認比對項,時間、口徑、統計粒度,度量和維度做篩選還是過濾。
(3)收集數據進行證偽推斷,得出結論
準備基礎明細數據,導入excel,通過vlookup、透視表等關聯分析,關系走通,記錄過程數據,提供結果數據。
Example:統計結果比對(數值1vs數據2,差異值)、12明細、差異明細比較。
Tips:明確分析目的和方案前,別急著到處要數,可能費力要了又用不上。
2. 數據一致性驗證方式
1)基礎認識一致性驗證
- 指標的設計過程:定義、計算公式、統計維度(時間)、維度含義、屬性定義。
- 指標的技術屬性:技術方式、數據源、更新時間。
Example 1:實時、離線指標不一致屬于正常情況,可直接解釋原因:
- 更新時間天然不同,離線為批處理定時調度任務模式,而實時對數據的時序性有要求,在某些場景并不能保證與離線同等的一致性;
- 計算邏輯無法對齊,離線邏輯相對復雜,支持補償邏輯,實時處理卻相對比較簡單;
- 數據源不一致,比如日志在一些場景不能做到完全一致。
Example 2:回款率單位為%,城市結果值求平均并不等于全國數值,也可直接告知業務原因。
2)正向驗證
- 確認是否是業務正常變動,如大促暴漲、廣告行業的1&2月淡季周期性異常。
- 交叉維度匯總不一致,數據缺失向上匯總記錄的處理方式。
3)反向驗證
- 任務是否正常?數據是否更新?集群崩潰、任務失敗、任務超時、源數據系統字段變更;
- 處理過程是否正常?數據漂移、數據發散、數據傾斜;
- 業務口徑數據和數據庫數據映射是否一致?不同含義指標取相同名字。
2. 數據準備、處理及分析
1)數據準備
在分析思路確定的基礎上,準備收集準備數據,可能是:系統導出、數據提取。
2)數據處理(清洗、轉化、提取、計算)
基礎數據準備完畢,按既定的思路計算、比對,加工需要的可用于分析的數據。
3)數據分析(數據統計、數據挖掘、數據呈現)
比對后發現并分析差異,用適當的分析方法及工具(極大多數場景Excel足夠),對處理過的數據進行分析,提取有價值的信息,形成有效結論。
3. 數據結論及報告
1)明確結論
- 哪個數據是準確的?是什么造成了數據差異,數據差異的構成和占比差異是否合理?
- 是否需要進行修正,計劃、難點分別是什么。
2)結果呈現
數據比對的報告不需要精致,能夠做到邏輯清晰,圖表搭配,層次分明。
讓閱讀者一目了然理解差異和差異構成就可以進行結果數值比對、差異明細、對照過程及明細。
呈現餅圖和柱形圖足夠了,柱形圖看差異,餅圖看差異構成。
四、?數據人的下一步
應對被動的數據比對之后,如何化被動為主動,進行常態化的數據監控,不再耗心費力疲于應對,提升數據健康度,對數據異動監控提示,實現數據可用可查有提示可預警。
唯一且艱難的道路:有數據質量標準是基礎,在制定數據質量計劃的標準上,進行周期性的數據質量盤點和數據治理!
這條道路需要數據團隊有決心、信心,有足夠的耐心和體力,去細致打磨適合企業的數據標準。
需要對每個數據域、數據實體、數據項,甚至到字段、屬性,定義數據標準,核實數據質量。
1. 數據質量
(GB/T 36344-2018 數據質量評價標準)
Example:
- 完整性:指數據元素和數據記錄完成性,例如:字段是否存在空值,指標數據維度是否足夠支撐業務分析。
- 準確性:指數據可信度,例如:是否數據正確、格式合規、唯一性、無臟數據。
- 一致性:指相同數據一致性和關聯數據一致性,如:相同指標在不同場景下數值是否一致。
- 時效性:指基于時間段的正確性、基于時間點及時性、時序性,例如:實時能否保證1分鐘以內延時,離線能否保證每天9點定時更新。
(GB/T 36344-2018 數據質量評價標準-數據質量評價過程)
2. 數據清洗
在建立數據規范的基礎上,就可以進行數據質量提升的行動,也就是“數據清洗”。
數據清洗,就是從數據庫表中更正和刪除不準確的數據。
1)數據清洗
- 識別數據問題;
- 評估問題及解決方案;
- 清洗計劃:更正、刪除、合并、替換、補齊;
- 數據應用及周期性質量評估清。
2)數據清洗實踐要點
- 數據問題是業務數據問題,需要多方人員參與,全面的考慮上下游聯動影響,包括產生數據的、使用數據的。
- 提升源端質量是根本之法,增加系統界面端和數據庫輸入的的限制,如某些字段非空校驗、數據類型校驗、唯一約束等。
- 做好備份!做好備份!做好備份!
3. 監控預警
監控預警是化被動為主動的方法,可根據數據質量規則制定監控策略。
通過數據質量監控工具來提示數據異?;驍祿▌?,來確保對業務數據穩定的掌控感和保證數據的準確性,問題處理的及時性。
質量規則不再多說,可以聊一聊波動性,什么樣的指標波動可以看作是“異?!蹦兀?/p>
指標波動不可怕,數據波動是業務發生的正常情況,業務產生自然會發生數據變化。
比如每周的銷售額肯定不一樣,脫離業務場景沒法談數據波動。
但像之前都1000w,這周只有200w,是不是就屬于異常狀態?
監控可以根據公司業務情況和數據情況來綜合評定,通過絕對值預警、相對值預警兩方面來設定。
具體的方法有:絕對值、同比環比、周期平滑、假設檢驗(3σ原則)、時間序列、算法模型。
4. 提前準備
在新需求的設計過程中,就提前準備數據比對的工作。
評估不同線上線下、離線實時的差異,找出可能產生問題的原因并解決,技術架構方案選擇,或預評估差異。
5. 一些提醒
1)再次強調:業務、業務、業務
數據必須和業務結合才有意義,熟悉業務才能看到數據背后隱藏的信息。
缺乏對行業、公司業務認知,數據應用和數據分析結果都會出現偏離,變成自嗨或者空中樓閣。
要懂上下游數據,也要弄清楚公司所在行業結構,對行業的上游和下游的經營情況有大致的了解。
2)數據敏感度
數據本身是客觀的,但被解讀出來的數據是主觀的。
同樣的數據由不同的人分析很可能得出完全相反的結論,所以一定不能提前帶著觀點去分析。
Example:比如指標預警沒有合適方法,可暫定波動值超過5%預警。
如果一個變量符合正態分布,則其95%的值會落到均值左右二個方差內。
3)迭代化思維
業務是不斷調整和發展的,依托的系統和數據也是不斷迭代變化,相應指標也需要隨著業務不斷調整,更加精確的度量業務。
4)精細度控制好,不要追求極細
細分是深入的分析的基礎,但不要追求極細,細分意味著復雜,要判斷公司團隊數據意識和業務精細化管理是否到了匹配的階段。
本文由 @申墨揚 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自Unsplash,基于CCO協議。
作為文科生一名來說,看見數據這兩個字就難受。
好家伙!看完文章已經開始頭大了,看到數據就開始頭疼
數據人,數據魂,又是學習數據分析的一天,加油!沖沖沖