數(shù)據(jù)中臺:怎樣評價數(shù)據(jù)資產(chǎn)的健康度?
編輯導語:作為數(shù)據(jù)中臺能力的根基,對數(shù)據(jù)資產(chǎn)的管理則必然提至中臺建設日程當中。那么,數(shù)據(jù)資產(chǎn)管理過程中可能會出現(xiàn)什么問題?數(shù)據(jù)資產(chǎn)健康管理又可以從哪些方面入手呢?本篇文章里,作者就數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)資產(chǎn)健康度評價方面的問題做了總結,一起來看一下。
數(shù)據(jù)資產(chǎn)是數(shù)據(jù)中臺能力的根基,數(shù)據(jù)資產(chǎn)的健康度直接關系到中臺建設的成敗。那么在數(shù)據(jù)中臺建設過程中究竟該如何評價數(shù)據(jù)資產(chǎn)建設及管理的情況呢?
一、數(shù)據(jù)資產(chǎn)管理過程常見問題
規(guī)范不統(tǒng)一,不同業(yè)務部門、不同開發(fā)人員發(fā)現(xiàn)習慣及意識不同,缺少統(tǒng)一的資產(chǎn)建設規(guī)范管控時,會帶來命名不規(guī)范、建模不標準等問題。
數(shù)據(jù)復用低,元數(shù)據(jù)信息缺失、數(shù)據(jù)權限申請及審批流程斷層、缺少高效易用的數(shù)據(jù)地圖檢索工具等會帶來數(shù)倉人員開發(fā)了很多模型,但是業(yè)務并不知曉,重復造輪子。
考核難量化,對于數(shù)倉開發(fā)人員的績效該如何量化評估呢?開發(fā)的模型數(shù)量?Bug數(shù)?還是數(shù)據(jù)質量問題的次數(shù)?
上傳不下達,管理層及數(shù)據(jù)管理者希望不斷降低數(shù)據(jù)的存儲及計算成本,但由于成本核算粒度粗,無法將成本追溯到個人開發(fā)者。對于一線開發(fā)同學來說,短期內(nèi)只要能最快完成業(yè)務需求即可,不會過多關注成本問題。對于低效高耗任務、冷數(shù)據(jù)缺乏主動治理意識。
二、數(shù)據(jù)資產(chǎn)健康度評價維度
1. 規(guī)范性
庫名、表名、指標及字段名是否符合約定的規(guī)范,例如:數(shù)倉分層、業(yè)務線、數(shù)據(jù)域、業(yè)務過程的組合,形成可以通過名稱識別出數(shù)據(jù)的基本內(nèi)容,而不是隨心所欲的中英文混合、縮寫,只有熟悉的人才可以知道表是干什么用的。
資產(chǎn)建設過程中,可以將集團或者數(shù)據(jù)部門的規(guī)范抽象、集成到ETL過程,在系統(tǒng)層面做攔截,事前監(jiān)測不規(guī)范的數(shù)據(jù)開發(fā)過程??梢詤⒖及⒗锏膁ataphin。
2. 豐富性
元數(shù)據(jù)覆蓋度,包括資產(chǎn)技術元數(shù)據(jù)、業(yè)務元數(shù)據(jù)等信息,元數(shù)據(jù)越完善,才能為使用者提供更準確的決策依據(jù),減少溝通成本,提升數(shù)據(jù)復用度。
例如,表的責任人、業(yè)務描述信息、主題、層級、標簽豐富度,字段說明及加工邏輯使用文檔。技術元數(shù)據(jù)主要以數(shù)據(jù)開發(fā)人員使用為主,例如存儲大小、小文件數(shù)量、使用熱度(近X天使用人次)。
除系統(tǒng)可以自動獲取的外,其他相關元數(shù)據(jù)需要數(shù)據(jù)開發(fā)人員進行常態(tài)化的維護和更新。
3. 完善度
數(shù)倉模型對業(yè)務的支撐和覆蓋情況,完善度越高的數(shù)倉體系,業(yè)務獲取和使用數(shù)據(jù)的成本就越低。即當業(yè)務需要數(shù)據(jù)時,已經(jīng)相應的模型在哪里等著使用了,而不是再去對接業(yè)務溝通需求,排期開發(fā)。
例如當管理者問數(shù)倉負責人,你們天天搞數(shù)倉建設,現(xiàn)在到底建設到什么程度了呢?有了完善度評價標準,可以量化數(shù)倉建設成熟度。一般來說,典型的數(shù)倉體系架構如下:
通過數(shù)據(jù)血緣及查詢?nèi)罩?,可以對?shù)據(jù)加工任務以及Adhoc查詢進行統(tǒng)計分析。
例如,在數(shù)據(jù)查詢中,直接查詢ODS的任務占比,占比越高說明有大量任務基于原始數(shù)據(jù)加工,中間模型DWD、DWT、DWA復用性很差。在技術上,直接查詢底層表,查詢掃描的數(shù)據(jù)量會越大,查詢時間會越長,查詢的資源消耗也越大,使用數(shù)據(jù)的人滿意度會低。可以跨層引用率來衡量支持完善度。
DWD層:看 ODS層有多少表被DWT/DWA/APP 層引用,占所有活躍的ODS 層表比例。
DWT/DWA/APP層完善度:主要看匯總數(shù)據(jù)能直接滿足多少查詢需求,也就是用匯總層數(shù)據(jù)的查詢比例,如果匯總數(shù)據(jù)無法滿足需求,使用數(shù)據(jù)的人就必須使用明細數(shù)據(jù),甚至是原始數(shù)據(jù)。
匯總數(shù)據(jù)查詢比例:DWT/DWA/APP層的查詢占所有查詢的比例。
跨層引用率越低越好,在數(shù)據(jù)中臺模型設計規(guī)范中,一般不允許出現(xiàn)跨層引用,例如ODS層數(shù)據(jù)只能被 DWD引用。
4. 復用度
復用度顧名思義,資產(chǎn)建設完成后,被不同業(yè)務或用戶復用的情況,復用才會減少重復開。
可以用引用系數(shù)作為數(shù)據(jù)中臺資產(chǎn)復用度評價指標。引用系數(shù)越高,說明復用性越好。
引用系數(shù):數(shù)據(jù)表被讀取,產(chǎn)出下游模型的平均數(shù)量。例如一張DWD 層表被8張 DWS層表引用,這個表的引用系數(shù)就是8,把擁有下游的DWD 層表(有下游表的)引用系數(shù)取平均值,則為DWD 層的平均引用系數(shù)。
5. 數(shù)據(jù)質量
數(shù)據(jù)質量問題產(chǎn)生的原因包括開發(fā)質量問題、集群穩(wěn)定性、以及業(yè)務變更等多種問題,對于難以掌控的外部因素,只能是早發(fā)現(xiàn)早修復,數(shù)據(jù)資產(chǎn)的評價維度主要是監(jiān)控體系的覆蓋度、監(jiān)控報警的處理率以及平均處理時長。
6. 成本優(yōu)化維度
數(shù)據(jù)成本的管控需要建立自上而下的成本分攤與評價體系,才能自下而上形成主動治理、優(yōu)化的意識。例如考核每個數(shù)據(jù)開發(fā)人員待治理的任務數(shù)量以及治理成效。
在成本優(yōu)化中,最常關注的包括:資產(chǎn)存儲、計算耗時/資源情況折算成成本。產(chǎn)生的小文件合并問題、冷熱數(shù)據(jù)分級及歸檔、HDFS路徑治理等。
7. 數(shù)據(jù)安全
隨著數(shù)據(jù)安全法以及個人信息保護法相繼生效,手機號、身份證等絕密信息進入集群后是嚴禁明文傳輸?shù)?。?shù)據(jù)開發(fā)在數(shù)據(jù)工作是否做到了對所有敏感信息的加密脫敏處理,也是資產(chǎn)健康度的評價維度之一。
三、資產(chǎn)健康分的計算邏輯及應用
健康分價值:從數(shù)倉總體到組織部門以及一線的數(shù)據(jù)開發(fā)者,形成統(tǒng)一的量化標準,客觀評價資產(chǎn)建設工作。對于最最細粒度度的單個模型,可以直觀展示模型健康度,責任到人,形成自上而下的考核以及自下而上的管理、治理動作。
健康分的計算邏輯:根據(jù)企業(yè)自身關注的重點,多方討論確認評價指標以及權重系數(shù)。從單個表的健康分,匯總到個人數(shù)據(jù)開發(fā)者,以及數(shù)據(jù)團隊的健康分。評價指標可以從前面章節(jié)中的七大維度進行篩選,主要可以包括:
- 建設規(guī)范度:不符合建表或命名規(guī)范;
- 信息豐富度:元數(shù)據(jù)是否缺失,字段描述100%覆蓋,主題、標簽是否缺失等;
- 完善度:跨層引用比例;
- 復用度:模型引用系數(shù);
- 數(shù)據(jù)質量:監(jiān)控覆蓋度、平均異常次數(shù)(延遲、數(shù)據(jù)錯誤)、平均處理時長;
- 成本優(yōu)化:存儲成本、計算成本、近X天使用情況、小文件數(shù)量;
- 數(shù)據(jù)安全:是否存在敏感字段未脫敏。
四、基于健康分的資產(chǎn)管理工作臺
除了數(shù)據(jù)工作者主動治理和規(guī)范的意識外,很多時候是缺少有效的工具。將資產(chǎn)健康分以及治理動作進行可視化展示,為數(shù)據(jù)工作者提供一站式工作臺,不僅可以讓大家養(yǎng)成規(guī)范化、周期性治理的習慣,也可以形成上下一致的資產(chǎn)管理及治理標準。
工作臺產(chǎn)品設計中的核心原則:客觀評估現(xiàn)狀,給出原因及可執(zhí)行的動作,量化治理效果。即:每天上班打開工作臺,知道自己數(shù)倉工作目前的定位及問題,如何去優(yōu)化改善,做了一系列的動作后,效果如何了。
五、小結
利用資產(chǎn)健康分,量化資產(chǎn)建設及管理效果,可以做到自上而下的上傳下達管理,也可以為一線數(shù)據(jù)工作者提供追蹤、可執(zhí)行的行動指南,相比較過去以統(tǒng)計為主的資產(chǎn)“大盤”,資產(chǎn)健康分可以更精細化地指導數(shù)據(jù)資產(chǎn)管理及治理工作。
#專欄作家#
數(shù)據(jù)干飯人,微信號公眾號:數(shù)據(jù)干飯人,人人都是產(chǎn)品經(jīng)理專欄作家。專注數(shù)據(jù)中臺產(chǎn)品領域,覆蓋開發(fā)套件,數(shù)據(jù)資產(chǎn)與數(shù)據(jù)治理,BI與數(shù)據(jù)可視化,精準營銷平臺等數(shù)據(jù)產(chǎn)品。擅長大數(shù)據(jù)解決方案規(guī)劃與產(chǎn)品方案設計。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉載。
題圖來自Unsplash,基于CC0協(xié)議
不經(jīng)意間,發(fā)了一篇評論率最高的文章哈哈!
歡迎大家關注微信公眾號:數(shù)據(jù)干飯人,一起交流數(shù)據(jù)產(chǎn)品、數(shù)據(jù)中臺相關內(nèi)容
辛苦了
數(shù)據(jù)資產(chǎn)是數(shù)據(jù)中臺能力的根基,數(shù)據(jù)資產(chǎn)的健康度直接關系到中臺建設的成敗。
雖然看不太懂,但感覺很有深度,去我的收藏夾吃灰吧
文中的“資產(chǎn)健康分可以更精細化地指導數(shù)據(jù)資產(chǎn)管理及治理工作?!敝档糜涗?/p>
雖然不涉及平時的工作,但增加了知識面,很高大上的新知識。努力看懂
“數(shù)據(jù)資產(chǎn)健康度”一個新學的名詞,聽起來很有深度哈哈哈
隨著企業(yè)數(shù)據(jù)化的不斷深入,數(shù)據(jù)治理會成為數(shù)據(jù)資產(chǎn)工作的重要內(nèi)容