數據地圖:數據資產管理,到底管什么?

4 評論 23457 瀏覽 112 收藏 13 分鐘

編輯導語:作為數據中臺的重要根基,數據資產絕對值得重視。那么,如何針對數據資產進行管理?我們首先需要了解當下數據資產管理過程中面臨哪些問題,并了解數據消費者的需求。本篇文章里,作者針對數據資產管理這一問題進行了總結,一起來看一下。

數據資產是數據中臺的重要根基,沒有資產的數據中臺是無源之水,就只能叫做數據工具。在數據中臺架構中,數據資產建設、管理、治理是重頭戲。

那么數據資產到底該如何管理,怎樣治理呢?本文主要分享資產管理模塊,后期輸出資產建設流程規范、資產治理相關內容。

數據資產所處數據中臺中的位置

一、企業數據資產管理面臨的問題

數據資產的用戶場景可以概況為兩類,找數據和管數據。找數據主要是數據分析、產品運營等數據消費者,基于數倉加工好的數據進行分析、應用。找數據時,主要的痛點如下:

1)數據找不到

數據生產者和消費者會存在業務上的天然屏障。對于很多一線的業務同學并不能第一時間數據的輸出。例如,一個新入職的產品要做產品首頁的改版,想先分析下目前頁面各個流量入口的點擊與轉化情況,只能去問其他的PM或者去找數據同學,流量數據是哪個數據表,事件埋點規則又在哪里?

2)數據不敢用

數據處理邏輯不清楚,業務找到了訂單數據在XX表中,但是對訂單狀態的枚舉值含義不清楚,或者不知道營收的數據計算口徑,不敢用,只能咨詢表的負責人。

數據質量問題,搞數據的人都知道數據質量是數據團隊的生命線,但是卻又是無法避免的老大難問題,故障出得多了,用戶拿到數據的第一反應是先和數據人員確認下,今天數據沒問題吧。

管數據,主要是數據開發者,他們的目標是讓自己生產的數據可以更安全地被更多人復用,在實踐過程中,面臨的問題主要是以下幾種。

1)用戶咨詢多

用戶用數據找不到或者找到了數據不敢用,就只能向數據負責人進行咨詢,不同人的相同問題,或者不同問題。每天處理用戶問題可能就要花個幾個小時。

2)數據復用低

數據中臺建設要解決的也是數據復用問題,對于數據工作者經常遇到做好了數據模型使用者寥寥無幾的問題,有酒香但巷子深無人知曉的因素,也有部門墻、數據安全限制因素。

3)價值感知弱

數據開發者做了很多的數據模型,但不知道有多少人在使用,用到了哪里,產生了多少業務價值。數倉開發不生產數據,只是數據的搬運工,“工具人”的感受強烈。

4)問題排查路徑長

用戶反饋數據異常時,需要翻代碼,對數據加工鏈路進行追根溯源,排查路徑長,消耗時間久。

5)工作評估難

作為數據管理者,對于資產最關心的莫過于建設的怎么樣,如何評估數據工作的成果。做了很多的數據模型,績效就應該好嗎?

二、數據消費者與生產者的訴求

1. 找數據

數據消費端,通過數據地圖尋找目標數據,進行分析或者數據應用。

1)業務場景

  • 不知道所需要的數據在哪里,“逛數據”,發現目標;
  • 知道表名或字段信息,確認數據邏輯或元數據信息。

2)用戶

  • 核心用戶:數據分析、數據挖掘、數據開發;
  • 重要用戶:產品、運營;
  • 覆蓋用戶:業務開發、商務等。

3)產品訴求

  • 資產分級分類,提供簡單易用的資產“地圖”導航,快速找到目標表;
  • 強大的搜索功能,可以基于關鍵詞、字段、指標搜索目標表;
  • 元數據信息完善,輔助決策,確定表是不是所需要用的,能不能用,以及邏輯說明。

2. 管數據

數據生產者,負責數據加工處理,對數據質量、資產元數據、資產管理負責。

1)業務場景

  • 維護表元數據信息;
  • 數據資產審計,管理用戶權限、使用日志;
  • 數據治理,針對數據表的使用情況,定期下線不用表或者冷數據歸檔;
  • 追根溯源:數據質量異常通知下游,數據問題快速排查定位問題。

2)用戶

  • 核心用戶:數據開發;
  • 覆蓋用戶:數據表創建者。

3)產品訴求

  • 元數據維護操作簡單、快捷,支持批量操作;
  • 可以清楚的知道自己負責的資產元數據覆蓋、用戶使用情況;
  • 平臺提供方便的數據追蹤、溯源的功能,可以快速定位數據血緣。

3. 數據團隊管理者

評價數據資產業務價值、數據對業務支撐或賦能效率,對數據開發人員進行量化考核。并對數據資產的健康度、數據成本進行管控。

1)業務場景

  • 評價數據資產建設的到底怎么樣;
  • 數據人員工作量化考核;
  • 平臺健康度管控,降本增效。

2)用戶

  • 數據開發管理者;
  • 數據部門負責人。

3)產品訴求

  • 能夠提供資產健康度評價的全面的指標,如模型覆蓋度、復用度、元數據完善度、數據質量等;
  • 資產責任人到人,可以量化考核每個數據開發者的工作數量和質量。

三、數據地圖需要具備的數據資產管理能力

1. 資產大盤

資產大盤按照不同角色的用戶,提供從總體到部門(租戶)以及個人的資產視圖,主要作用是客觀描述資產現狀,并且以健康度評價體系,提供資產建設優化指引。主要服務于數據工作者及管理團隊。例如:

  • 資產數量:資產總數、新增數量、治理數量;
  • 資源消耗:存儲資源、生產消耗計算資源;
  • 健康度:元數據覆蓋度100%表占比、數據質量異常數、高耗時任務及列表、跨層引用數、近90天無訪問數;
  • 治理維度:治理資產數量、治理效果、待治理數量。

圖:阿里數據地圖

2. 數據探索

數據檢索方式包括基于業務域、主題、標簽等層級篩選,表中英文、字段信息搜索,以及熱門推薦、個人收藏、數據專題等快捷方式。

在實際應用時,搜索功能是第一優先級的,至少要先讓用戶能夠精準觸達目標。因為業務域劃分、主題標簽維護很難做到沒有二義性,讓用戶可以順利篩選出目標數據。表的元數據信息是指可以給找數據的用戶提高更加全面、準確的業務元數據、技術元數據等一系列的信息。包括:

  • 基本信息:如表中英文名稱、負責人、業務描述、字段中英文、分區字段、字段處理邏輯、業務域、主題、標簽層級;
  • 數據預覽:提供示例數據預覽功能,可以快速查看字段內容或結構;
  • 產出信息:產出時間、任務耗時及趨勢、最后更新時間;
  • 數據血緣:數據表上下游,一鍵通知能力;
  • 數據質量:數據質量監控規則覆蓋、最新監控結果是否正常;
  • 數據審計:表使用信息、變更記錄。

圖:阿里數據地圖

3. 資產管理

資產管理主要是面向資產創建者,對所負責的資產進行業務元數據、技術元數據的維護及配置,對資產健康度負責。數據地圖需要的功能包括:

  • 元數據信息維護:業務描述、字段描述、業務邏輯、審批流程配置;
  • 元數據更新:表結構變更,如字段刪減、新增;
  • 批量配置:批量授權、批量修改主題、層級;權限移交、復制;
  • 數據治理流程:主要建立和數據質量監控、數據質量等平臺的聯動,做到跟進用戶使用情況,快速跳轉至治理平臺,一鍵治理(歸檔、下線、刪除)。

4. 配置管理

提供業務域、數據層級、主題、標簽配置,以及部門(租戶)公共參數配置能力,主要服務于數據倉庫或數據資產管理員,負責資產層級、架構以及創建流程規范的規劃。

5. 個人工作臺

個人資產盤點,例如有權限的資產,是否有權限即將到期,需要進行批量續期。自己負責的資產,用戶權限列表、資產使用分析。

代辦事項:數據資產管理要建立從上到下的管理和考核機制,否則資產創建時,為了圖快不進行元數據信息維護,就必然會導致資產復用度低。資產大盤服務于資產管理者,提供不同維度的資產健康度評價指標。而個人代辦則提供每個資產創建者,需要關注的優化任務,例如元數據覆蓋不足100%,近XX天無訪問,任務耗時長,跨層引用等等。

四、總結

數據資產管理是提升企業數據復用度的重要數據產品之一,在產品規劃和設計時,需要從用戶需求場景以及產品目標出發,提供更快速找到數據,以及更方便維護資產信息的能力,同時,為數據工作的量化考核以及開發人員的工作改進提供指引方向。阿里Dataworks、網易猛犸、火山引擎都提供了商業化的數據地圖產品解決方案可供參考。

#專欄作家#

數據干飯人,微信號公眾號:數據干飯人,人人都是產品經理專欄作家。專注數據中臺產品領域,覆蓋開發套件,數據資產與數據治理,BI與數據可視化,精準營銷平臺等數據產品。擅長大數據解決方案規劃與產品方案設計。

本文原創發布于人人都是產品經理,未經作者許可,禁止轉載。

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 寫的很專業,建議必讀。

    來自安徽 回復
  2. 寫的不錯

    來自江蘇 回復
  3. 文章里的腦圖我可以下載下來嗎,真的很有用,點贊

    來自北京 回復
  4. 數據資產是數據中臺的重要根基,沒有資產的數據中臺是無源之水,就只能叫做數據工具。

    來自湖北 回復