數據產品生命線之數據質量

0 評論 6686 瀏覽 49 收藏 13 分鐘

編輯導語:數據質量問題,是每個數據應用類的數據產品都需要時刻關注并解決的問題。本篇作者結合自己的工作經歷與思考,跟我們分享了數據質量問題的類型、問題產生的原因、如何用數據質量監控產品,一起來看一下。

數據人最常聽到,最扎心、刺耳的一句話,莫過于“你數據準不準?”。一次數據異常的“鍋”,可能就抵過了過去數據支撐積累的所有業務價值感知。數據質量問題,是每個數據應用類的數據產品都需要時刻關注并解決的問題。

下面的場景,你是否曾經經歷過?

  1. 9點鐘剛開始上班,用戶群里已經炸了鍋,營銷數據報表、經驗概況……今天的數據怎么還沒出來啊,晨會著急看數呢。
  2. CDP平臺新客大禮包營銷場景,為什么出現了是實為老客但系統判定成新客,多發的成本,損失誰來承擔啊?
  3. 昨天DAU同比下降了80%,你們確認下數據對不對,是不是數據不全啊?
  4. 大數據安全法9月1日正式實行了,你們數據產品中怎么出現了用戶身份信息,你違法了啊!
  5. 業務發現流量統計有個異常的峰值,被業務diss,你們數據產品自己不看數據嗎,沒有一點業務常識和數據sense嗎?……

BI數據分析、數據化運營等數據價值應用類的數據產品,數據質量的問題將導致錯誤的業務決策,或者帶來用戶體驗問題、直接的經濟損失。因此,作為數據干飯人,要對數據產品的數據質量負責,早診斷、早發現、早解決,防患于未然,否則,蟻穴潰堤就為時已晚。

一、數據質量問題的類型

國際數據管理協會(DAMA)定義了數據質量維度,結合實際的業務場景,總結數據質量7個核心的維度:準確性、及時性、完整性、合理性、一致性、唯一性、安全性。

1. 準確性

準確性是指,一個數據值與設定為準確的值之間的一致程度,或與可接受程度之間的差異。在數據質量評價維度里面是第一位的,數據都不準,數據產品可視化效果再炫酷、交互體驗再絲滑,也都無濟于事。

而且準確性是業務對數據團隊信任度的重要前提。當數據產品呈現的數據多次不準確后,一旦數據出現波動,業務第一反應往往是數據是不是不準,而不是先看是不是有業務動作產生的數據結果。

1)數據產品應對策略:

定義數據評價標準,例如按照業務增長趨勢或模型預測,定義指標合理的波動范圍,當波動超出閾值后,及時預警通知數據人員,提前發現解決。

2. 及時性

數據從采集加工到輸出應用,需要經過很長的數據倉庫ETL計算、數據同步的過程,任務運行耗時、運行質量、任務的依賴關系,都會影響數據最終產出的時間。

一般離線數據分析(T+1,指今天分析的是昨天的完整數據)在次日凌晨12:00開始執行任務,當數據量大、計算耗時長、依賴任務多的任務,可能數據要在第二天下午,或者T+2才能輸出。業務上班需要看數據,數據還沒跑完,就影響業務正常的使用數據了。

數據及時性主要受大數據集群服務的穩定性、存儲和計算資源的影響,集群資源緊張,任務搶資源時,可能會導致原來9點前完成的任務,到下午還沒完成。

1)數據產品應對策略:

設定核心數據涉及任務的最晚就位時間監控,但這種監控多數是通知,因為一般資源層面的問題很難修復,以知曉為主。而數據產品需要制定對應的兜底方案,例如,監控數據任務的狀態,只有任務狀態為成功時,才展示最新日期的數據,否則仍然展示前一天的數據,并且加上對應的交互提醒?!白蛉諗祿嬎阒?,請先查看其他日期數據”。

3. 完整性

主要包括實體缺失、屬性缺失、記錄缺失和字段值缺失四個方面。舉個例子,App用戶會基于設備ID+用戶賬號生成一個唯一uuid,在某次iOS發版后,數據報表統計分析發現iOS的DAU出現陡降,按照操作系統和app版本發現是新版本id生成服務異常,很多用戶uid為空,測試環節沒有覆蓋到,大量的數據統計才能發現這個問題。于是,后來針對埋點數據的核心字段,都進行了完整性監控,從數據底層更早發現問題,而不是業務報表輸出。

4. 合理性

主要包括格式、類型、值域和業務規則是否合理有效。由于業務端并不會把所有用戶的交互輸入操作進行規則驗證,對于一些異常操作,會導致數據出現異常的情況。曾經遇到過外賣BD為了完成業績獲取獎金,自己跟商家合作下大金額訂單,一筆外賣十幾萬元。這種可能就屬于不正常的數據,通過數據合理范圍的設定,可以及時抓出這些問題,由運營人員或者廉政部門進行審核。

5. 一致性

指系統之間的數據差異和相互矛盾的一致性,業務指標統一定義,數據邏輯加工結果。數據團隊不生產數據,只是數據的搬運工,數據從業務系統同步數據倉庫,可能會由于系統、工具異常,導致數倉數據和業務端數據不一致的情況。對于數據產品端,主要是指同一指標或標簽,數據處理邏輯不一致,數據對不上。數據加工層,需要對數倉貼源層與業務數據源數據量、核心字段一致性監控。

6. 唯一性

主要是指數據主鍵的唯一,經常遇到數據主鍵重復,導致數據統計異常的情況。

7. 安全性

2021年9月1日數據安全法正式實行,對于用戶身份證、手機號等敏感數據是嚴謹明文傳輸和展示的,數據加工處理要在加密狀態進行,數據產品端展示明文敏感信息會帶來法律風險。

二、數據質量問題產生的原因

導致數據質量的問題多種多樣,一般可以分為業務端、技術端、基礎設施幾個方面:

1. 業務端

業務變動,例如新上活動頁面埋點缺失,業務源系統變更(源系統數據庫表結構變更、源系統環境變更)、業務端數據輸入不規范等。

2. 技術端

數據開發流程不規范、數據質量監控不健全,例如數據開發任務中各種任務的流程、參數、配置等出錯,數據驗證不充分。

3. 基礎設施

存儲計算集群資源不足,導致數據處理任務失敗、延遲,從而導致數據輸出結果異常。

三、數據產品如何掌控好自己的生命線

除了數據開發者需要關注自己的數據質量外,數據產品也需要對數據產品涉及到的數據源、任務進行過程監控,及時發現數據質量問題。同時,在產品端提供異常提醒,避免數據問題帶來的錯誤決策或錯誤數據的營銷使用。

首先,基于數據血緣或線下的數據鏈路維護,找到數據產品用到的數據的加工鏈路。針對核心服務,保證數據質量監控規則的全面覆蓋。當數據加工環節出現異常時,第一時間知曉,跟進開發修復數據,并在業務端做好信息同步。

其次,在數據產品實現時,對數據指標依賴的加工任務狀態進行判斷,一是任務成功狀態,二是及時性,當任務失敗或延遲時,產品頁面上,進行兜底方案處理,例如友好的文案提示,或利用IM郵件等通知用戶。

此外,數據產品要和數據血緣建立聯動關系,當業務懷疑數據異常時,可以直接從前端頁面中,一鍵找到數據指標的加工鏈路,快速排查問題。

最后,數據團隊還需要和業務建立信息互通機制,例如參與業務周會,了解產品、運營等業務動作,業務變動時,可以第一時間評估對數據的影響。

四、數據產品的延申:數據質量監控產品

為了實現數據產品對數據質量問題的早發現、早解決、早通知,最常用到的一個工具類數據產品就是數據質量監控了。即通過數據表、字段的規則配置,例如對表數據量、數據重復、字段波動、字段值等監控規則。在數據源層發現質量問題。

五、小結

數據質量問題是數據開發人員與數據產品需要共同關注的問題,兩個角色是“一根繩上的螞蚱”。但實際上,往往會出現斷層的情況,即數據開發人員對數據輸出端:數據產品的關注度不夠,認為只要自己把數據ETL做好,加一些監控就夠了。

而數據產品,則以為只需要關注產品功能和交互,數據出來問題,那是數據開發的責任,不關注數據質量。數據產品是數據價值的體現形式之一,應該從產品出發,關注數據質量保障流程,共同提升業務對數據團隊的信任度。

這樣,再有業務問“數據準不準”時,就可以更加有底氣地反問:“你們業務有調整嗎?”

#專欄作家#

數據干飯人,微信號公眾號:數據干飯人,人人都是產品經理專欄作家。專注數據中臺產品領域,覆蓋開發套件,數據資產與數據治理,BI與數據可視化,精準營銷平臺等數據產品。擅長大數據解決方案規劃與產品方案設計。

本文原創發布于人人都是產品經理,未經作者許可,禁止轉載。

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!