如何評價數據倉庫建設好壞?有哪些量化指標

0 評論 2426 瀏覽 4 收藏 7 分鐘

該文本主要是關于如何評估數據倉庫建設和維護效果的一些建議和相關量化指標,包括數倉完善度、復用度和規范性的衡量方法。

企業數據倉庫建設需要數據開發者投入大量的時間和資源,對于數據團隊來說,管理者如何評價他們工作的好壞呢?

一群數據開發者每天都加班加點,業務部門仍然吐槽數據找不到,數據沒有,又該如何評價呢?

結合數據中臺思想,數據倉庫的建設目標是希望為業務提供盡可能完善的模型(需要的我都有),并且減少重復建設盡量復用(成本要足夠低),此外,還需要符合統一的標準規范(數據標準)。

一、數倉完善度的衡量指標

數倉完善度是指經過數據開發長時間的開發和迭代,現有的數據倉庫資產是否覆蓋了業務常用的查詢場景,業務要的,模型是否已經建設完成?

衡量DWD層是否完善,通??碠DS層有多少表被 DWS/ADS/DM 層引用。因為 DWD 以上的層引用的越多,就說明越多的任務是基于原始數據進行深度聚合計算的,明細數據沒有積累,無法被復用,數據清洗、格式化、集成存在重復開發。因此, 可以用跨層引用率指標衡量 DWD 的完善度。

–跨層引用率:ODS 層直接被 DWS/ADS/DM 層引用的表,占所有 ODS 層表(僅統計活 躍表)比例??鐚右寐试降驮胶?,在數據中臺模型設計規范中,一般要求不允許出現跨層引用,ODS 層數據只能被 DWD 引用。

DWS/ADS/DM 層完善度:考核匯總數據的完善度,一般主要看匯總數據能直接滿足多少查詢需求(也就是用匯總層數據的查詢比例衡量)。如果匯總數據無法滿足需求,使用數據的人就必須使用明細數據,甚至是原始數據,可以用匯總數據查詢比例衡量DWS/ADS/DM 層完善度

–匯總數據查詢比例:DWS/ADS/DM 層的查詢占所有查詢的比例。要明確的是,這個跟跨層引用率不同,匯總查詢比例不可能做到 100%,但值越高,說明上層的數據建設越完善,對于使用數據的人來說,查詢速度和成本會減少,用起來會更順暢。

二、數倉復用度衡量指標

數據中臺核心是追求模型的復用和共享,通過元數據中心的數據血緣圖,可以看到,一個比較差的模型設計,自下而上是一條線。而一個理想的模型設計,它應該是交織的發散型結構??梢杂媚P鸵孟禂底鳛橹笜?,衡量數據模型設計的復用度。引用系數越高,說明數倉的復用性越好。

模型引用系數:一個模型被讀取,直接產出下游模型的平均數量。比如一張 DWD 層表被 5 張 DWS 層表引用,這張 DWD 層表的引用系數就是 5,如果把所有 DWD 層表(有下游表的)引用系數取平均值,則為 DWD 層表平均模型引用系數, 一般低于 2 比較差,3 以上相對比較好(經驗值)。

三、數倉規范度衡量指標

在數據治理初期,我們統計發現80%的表的字段描述時不全的(不到100%),超過 40% 的表都沒有分層信息,在模型設計層面,這顯然是不規范的。

除了看這個表有沒有分層,還要看它有沒有歸屬到主題域(例如交易域)如果沒有歸屬主題域,就很難找到這張表,也無法復用。

其次,你要看表的命名。拿order_detai這個命名為例,當你看到這個表時,知道它是哪個主題域、業務過程?是全量數據的表,還是每天的增量數據?

總的來說,通過這個表名獲取的信息太有限了。一個規范的表命名應該包括主題域、分層、表是全量快照,還是增量等信息。

除此之外,如果在表 A 中用戶 ID 的命名是 UserID,在表 B 中用戶 ID 命名是 ID,就會對使用者造成困擾,這到底是不是一個東西。所以我們要求相同的字段在不同的模型中,它的命名必須是一致的。

常用的規范性指標可以從數據標準治理的核心角度設定,比如,字段描述覆蓋率,模型分層信息覆蓋率、命名不規范表占比等

總之,評價數據倉庫建設好壞需要從多個維度進行考量,包括外部評價標準和內部評價標準。在量化指標方面,可以從完善度、復用度和規范性三個方面進行衡量,以確保數據倉庫能夠為企業帶來更大的價值。

本文由人人都是產品經理作者【數據干飯人】,微信公眾號:【數據干飯人】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!