數據治理:如何提高數據質量?
本文深入探討了數據治理的核心議題——如何提高數據質量。從識別數據質量問題的根源到實施有效的監控規則,再到衡量數據治理成效的指標,為您提供了一套完整的數據質量管理框架,希望幫助您的組織確保數據的準確性和可靠性,從而做出更明智的業務決策。
文章基于《數據中臺實踐課》總結分享
往期文章講過數據治理可以說是數據產品的生命線,如果數據不準給業務帶來錯誤的決策引導,可能會帶來難以預計的業務損失。
一、數據質量問題產生的原因
二、如果提高數據質量?
數據質量問題無法完全根治或杜絕,所以要想提升數據質量,最重要的就是“早發現,早恢復”。要做到這一點就需要依賴完善的數據質量監控能力,在數據生產加工的全鏈路過程中,添加質量稽核規則。例如對產出表按照業務規則,設計一些校驗邏輯,確保數據的完整性、一致性和準確性。
在數據產出任務運行結束后,啟動稽核校驗任務對數據結果進行掃描計算,判斷數據結果是否符合規則預期。如果不符合,就根據提前設定的強弱規則,觸發不同的處理流程。如果是強規則,就立即終止任務加工鏈路,后續的任務不會執行,并且立即發出電話報警, 甚至關鍵任務還要開啟循環電話報警,直到故障被認領;如果是弱規則,任務會繼續執行。但是存在風險,這些風險會通過郵件或者短信的方式,通知到數據開發,由人來進一步判斷風險嚴重程度。
早發現,是要能夠先于數據使用方發現數據的問題,盡可能在出現問題的源頭發現問題,這樣就為“早恢復”爭取到了大量的時間。早恢復,就是要縮短故障恢復的時間,降低故障對數據產出的影響。圖5 稽核校驗執行流程圖 那具體要加哪些稽核規則呢?
三、數據治理監控的常用規則
完整性規則。主要目的是確保數據記錄是完整的,不丟失。常見的稽核規則有表數據量的絕對值監控和波動率的監控(比如表波動超20%,就認為是異常)。還有主鍵唯一性的監控,它是判斷數據是否有重復記錄的監控規則,比較基礎。除了表級別的監控, 還有字段級別的監控(比如字段為 0、為 NULL 的記錄)。
一致性規則。主要解決相關數據在不同模型中一致性的問題。商品購買率是通過商品購 買用戶數除以商品訪問 uv 計算而來的,如果在不同的模型中,商品購買用戶數是 1W、 商品訪問 uv10W,商品購買率 20%,那這三個指標就存在不一致。
準確性規則。主要解決數據記錄正確性的問題。常見的稽核規則有,一個商品只能歸屬在一個類目,數據格式是不是正確的 IP 格式,訂單的下單日期是還沒有發生的日期等等。
四、數據治理的衡量指標
管理學大師彼得德魯克說過如果你無法衡量,你就無法提升。做數據治理,也需要有衡量標準,促進不斷改善。那么如何評價數據質量是否有改進呢?除了故障次數,你還可以有這樣幾個指標。
核心任務產出完成率。這個指標是一個綜合性指標,如果任務異常, 任務延遲,強稽核規則失敗,都會導致任務無法在規定時間前產出。
基于稽核規則,計算表級別的質量分數。根據表上稽核規則的通過情況,為每個表建立質量分數,對于分數低的表,表負責人要承擔改進責任。
需要立即介入的報警次數,通常以開啟循環報警的電話報警次數為準。對于核心任務, 任務異常會觸發循環電話報警,接到報警的數據開發需要立即介入。
數據產品 SLA。每個數據產品上所有指標有沒有在 9 點產出,如果沒有,開始計算不可 用時間,整體可以按照不同數據產品的重要性進行折算,99.8% 是數據產品一個相對比 較好的 SLA。
五、數據質量相關的數據產品
工欲善其事必先利其器,提升數據監控稽核規則的配置效率和覆蓋度需要依賴于數據質量監控相關的產品,一般來說需要具備靈活的規則配置能力和批量操作的功能,隨著AI的發展,增加更多的智能分析和預警能力。
本文由人人都是產品經理作者【數據干飯人】,微信公眾號:【數據干飯人】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
- 目前還沒評論,等你發揮!