數據產品生命線之數據質量
編輯導語:數據質量問題,是每個數據應用類的數據產品都需要時刻關注并解決的問題。本篇作者結合自己的工作經歷與思考,跟我們分享了數據質量問題的類型、問題產生的原因、如何用數據質量監控產品,一起來看一下。
數據人最常聽到,最扎心、刺耳的一句話,莫過于“你數據準不準?”。一次數據異常的“鍋”,可能就抵過了過去數據支撐積累的所有業務價值感知。數據質量問題,是每個數據應用類的數據產品都需要時刻關注并解決的問題。
下面的場景,你是否曾經經歷過?
- 9點鐘剛開始上班,用戶群里已經炸了鍋,營銷數據報表、經驗概況……今天的數據怎么還沒出來啊,晨會著急看數呢。
- CDP平臺新客大禮包營銷場景,為什么出現了是實為老客但系統判定成新客,多發的成本,損失誰來承擔啊?
- 昨天DAU同比下降了80%,你們確認下數據對不對,是不是數據不全啊?
- 大數據安全法9月1日正式實行了,你們數據產品中怎么出現了用戶身份信息,你違法了啊!
- 業務發現流量統計有個異常的峰值,被業務diss,你們數據產品自己不看數據嗎,沒有一點業務常識和數據sense嗎?……
BI數據分析、數據化運營等數據價值應用類的數據產品,數據質量的問題將導致錯誤的業務決策,或者帶來用戶體驗問題、直接的經濟損失。因此,作為數據干飯人,要對數據產品的數據質量負責,早診斷、早發現、早解決,防患于未然,否則,蟻穴潰堤就為時已晚。
一、數據質量問題的類型
國際數據管理協會(DAMA)定義了數據質量維度,結合實際的業務場景,總結數據質量7個核心的維度:準確性、及時性、完整性、合理性、一致性、唯一性、安全性。
1. 準確性
準確性是指,一個數據值與設定為準確的值之間的一致程度,或與可接受程度之間的差異。在數據質量評價維度里面是第一位的,數據都不準,數據產品可視化效果再炫酷、交互體驗再絲滑,也都無濟于事。
而且準確性是業務對數據團隊信任度的重要前提。當數據產品呈現的數據多次不準確后,一旦數據出現波動,業務第一反應往往是數據是不是不準,而不是先看是不是有業務動作產生的數據結果。
1)數據產品應對策略:
定義數據評價標準,例如按照業務增長趨勢或模型預測,定義指標合理的波動范圍,當波動超出閾值后,及時預警通知數據人員,提前發現解決。
2. 及時性
數據從采集加工到輸出應用,需要經過很長的數據倉庫ETL計算、數據同步的過程,任務運行耗時、運行質量、任務的依賴關系,都會影響數據最終產出的時間。
一般離線數據分析(T+1,指今天分析的是昨天的完整數據)在次日凌晨12:00開始執行任務,當數據量大、計算耗時長、依賴任務多的任務,可能數據要在第二天下午,或者T+2才能輸出。業務上班需要看數據,數據還沒跑完,就影響業務正常的使用數據了。
數據及時性主要受大數據集群服務的穩定性、存儲和計算資源的影響,集群資源緊張,任務搶資源時,可能會導致原來9點前完成的任務,到下午還沒完成。
1)數據產品應對策略:
設定核心數據涉及任務的最晚就位時間監控,但這種監控多數是通知,因為一般資源層面的問題很難修復,以知曉為主。而數據產品需要制定對應的兜底方案,例如,監控數據任務的狀態,只有任務狀態為成功時,才展示最新日期的數據,否則仍然展示前一天的數據,并且加上對應的交互提醒?!白蛉諗祿嬎阒校埾炔榭雌渌掌跀祿?。
3. 完整性
主要包括實體缺失、屬性缺失、記錄缺失和字段值缺失四個方面。舉個例子,App用戶會基于設備ID+用戶賬號生成一個唯一uuid,在某次iOS發版后,數據報表統計分析發現iOS的DAU出現陡降,按照操作系統和app版本發現是新版本id生成服務異常,很多用戶uid為空,測試環節沒有覆蓋到,大量的數據統計才能發現這個問題。于是,后來針對埋點數據的核心字段,都進行了完整性監控,從數據底層更早發現問題,而不是業務報表輸出。
4. 合理性
主要包括格式、類型、值域和業務規則是否合理有效。由于業務端并不會把所有用戶的交互輸入操作進行規則驗證,對于一些異常操作,會導致數據出現異常的情況。曾經遇到過外賣BD為了完成業績獲取獎金,自己跟商家合作下大金額訂單,一筆外賣十幾萬元。這種可能就屬于不正常的數據,通過數據合理范圍的設定,可以及時抓出這些問題,由運營人員或者廉政部門進行審核。
5. 一致性
指系統之間的數據差異和相互矛盾的一致性,業務指標統一定義,數據邏輯加工結果。數據團隊不生產數據,只是數據的搬運工,數據從業務系統同步數據倉庫,可能會由于系統、工具異常,導致數倉數據和業務端數據不一致的情況。對于數據產品端,主要是指同一指標或標簽,數據處理邏輯不一致,數據對不上。數據加工層,需要對數倉貼源層與業務數據源數據量、核心字段一致性監控。
6. 唯一性
主要是指數據主鍵的唯一,經常遇到數據主鍵重復,導致數據統計異常的情況。
7. 安全性
2021年9月1日數據安全法正式實行,對于用戶身份證、手機號等敏感數據是嚴謹明文傳輸和展示的,數據加工處理要在加密狀態進行,數據產品端展示明文敏感信息會帶來法律風險。
二、數據質量問題產生的原因
導致數據質量的問題多種多樣,一般可以分為業務端、技術端、基礎設施幾個方面:
1. 業務端
業務變動,例如新上活動頁面埋點缺失,業務源系統變更(源系統數據庫表結構變更、源系統環境變更)、業務端數據輸入不規范等。
2. 技術端
數據開發流程不規范、數據質量監控不健全,例如數據開發任務中各種任務的流程、參數、配置等出錯,數據驗證不充分。
3. 基礎設施
存儲計算集群資源不足,導致數據處理任務失敗、延遲,從而導致數據輸出結果異常。
三、數據產品如何掌控好自己的生命線
除了數據開發者需要關注自己的數據質量外,數據產品也需要對數據產品涉及到的數據源、任務進行過程監控,及時發現數據質量問題。同時,在產品端提供異常提醒,避免數據問題帶來的錯誤決策或錯誤數據的營銷使用。
首先,基于數據血緣或線下的數據鏈路維護,找到數據產品用到的數據的加工鏈路。針對核心服務,保證數據質量監控規則的全面覆蓋。當數據加工環節出現異常時,第一時間知曉,跟進開發修復數據,并在業務端做好信息同步。
其次,在數據產品實現時,對數據指標依賴的加工任務狀態進行判斷,一是任務成功狀態,二是及時性,當任務失敗或延遲時,產品頁面上,進行兜底方案處理,例如友好的文案提示,或利用IM郵件等通知用戶。
此外,數據產品要和數據血緣建立聯動關系,當業務懷疑數據異常時,可以直接從前端頁面中,一鍵找到數據指標的加工鏈路,快速排查問題。
最后,數據團隊還需要和業務建立信息互通機制,例如參與業務周會,了解產品、運營等業務動作,業務變動時,可以第一時間評估對數據的影響。
四、數據產品的延申:數據質量監控產品
為了實現數據產品對數據質量問題的早發現、早解決、早通知,最常用到的一個工具類數據產品就是數據質量監控了。即通過數據表、字段的規則配置,例如對表數據量、數據重復、字段波動、字段值等監控規則。在數據源層發現質量問題。
五、小結
數據質量問題是數據開發人員與數據產品需要共同關注的問題,兩個角色是“一根繩上的螞蚱”。但實際上,往往會出現斷層的情況,即數據開發人員對數據輸出端:數據產品的關注度不夠,認為只要自己把數據ETL做好,加一些監控就夠了。
而數據產品,則以為只需要關注產品功能和交互,數據出來問題,那是數據開發的責任,不關注數據質量。數據產品是數據價值的體現形式之一,應該從產品出發,關注數據質量保障流程,共同提升業務對數據團隊的信任度。
這樣,再有業務問“數據準不準”時,就可以更加有底氣地反問:“你們業務有調整嗎?”
#專欄作家#
數據干飯人,微信號公眾號:數據干飯人,人人都是產品經理專欄作家。專注數據中臺產品領域,覆蓋開發套件,數據資產與數據治理,BI與數據可視化,精準營銷平臺等數據產品。擅長大數據解決方案規劃與產品方案設計。
本文原創發布于人人都是產品經理,未經作者許可,禁止轉載。
題圖來自Unsplash,基于CC0協議
- 目前還沒評論,等你發揮!