數據治理系列01:初識數據治理
什么是數據治理?怎么做數據治理?作者結合業界先進經驗及個人實踐經歷,進行了介紹分析。
隨著企業數據爆炸式增長,企業在用數時,會存在數據孤島問題、數據建設不規范、指標口徑不統一、數據查詢計算不穩定、數據安全等問題。因而各個公司也開始了數據治理,推動數據規范建設及使用。
接下來草帽小子將開啟數據治理的系列篇,結合借鑒業界先進的數據治理經驗及個人工作實踐經歷,幫助大家系統化地了解數據治理。
一、數據治理是干什么的
按照國際數據管理協會(DAMA)的定義,數據治理是對數據資產的管理活動形式權利和控制的活動集合(規劃、監控和執行)。
按IBM的定義,數據治理是企業通過不同的策略和標準,提高組織數據的可用性、質量和安全性的一整套制度與管理活動,數據治理的目標是維護安全且易于訪問的高質量數據,以獲取更深入的業務洞察。
名詞解釋:
- 元數據:描述數據的數據,例如記錄數據的存儲位置、模型定義、血緣關系等信息,類似畫像
- 主數據:描述企業核心業務實體的數據,例如客戶、產品、賬戶等,主數據具有較高的業務價值,可在企業內跨各個業務部門被重復使用
數據治理要點是數據穩定、規范、安全,就像蓋樓盤一樣,需要設計好樓盤架構,打好地基,制定建設規范,并推動各團隊人員進行搭建。
二、為什么要做數據治理
1. 從發展階段,看數據治理的發展原因
①第一階段:2005-2009年
2005年左右,早期的數據倉庫在中國興起,一開始主要由商業銀行、通信運營商主導,隨后能源等行業企業加入。商業銀行通過與埃森哲、IBM等國外IT咨詢公司合作,最早將數據治理的概念在中國予以實踐。
數據倉庫建設涉及從不同來源的平臺中抽取數據并進行整合,在這一過程中,需要確保數據質量,包括數據口徑、數據標準和數據模型統一等。通過數據治理,建立起數據標準、數據模型等管理體系,能夠提升數據質量,確保數據倉庫建設順利推進,進而能夠更好地支撐起BI等數據分析型應用。
草帽小子:數據治理的發展階段與大數據的發展息息相關,只要涉及大數據建設,就勢必有數據規范、數據質量、數據安全等問題。
②第二階段:2010-2014年
這一階段的數據治理需求主要集中于銀行業,主要由監管政策驅動。為了推動中國銀行參加到國際清算體系中,2011年中國推出《銀行監管統計數據質量管理良好標準》,該標準從組織機構及人員、制度建設、系統保障和數據標準、數據質量的監控、檢查與評價、應用和存儲等方面對銀行數據治理提出要求。
草帽小子:銀行等金融機構,對底層數據質量的要求更高,并面臨著一定的監管壓力,勢必需要數據治理
③第三階段:2015-2018年
2015年左右,企業興起了大數據平臺的建設,并且到2018年,數據中臺概念流行,數據中臺中包含統一資產管理、統一數據元管理等與數據治理相關的內容。在這個階段,越來越多的企業開始搭建數據治理的專職團隊。
2018年,中國銀保監會發布《銀行業金融機構數據治理指引》,包含數據治理架構、數據管理、數據質量管控、數據價值實現。
④第四階段:2019年-至今
2019年以來,企業數字化轉型進入快車道,在這一階段,數據治理已內化成為企業機制建設的一部分。
如2020年9月,國資委發布的《關于加快推進國有企業數字化轉型工作的通知》,針對央企數字化轉型工作,明確提出構建數據治理體系的要求。包含明確數據治理歸口管理部門,加強數據標準化、元數據和主數據管理工作,定期評估數據治理能力成熟度。加強生產現場、服務過程等動態數據采集,建立覆蓋全業務鏈條的數據采集、傳輸和匯聚體系。
草帽小子:國家層面推動國有企業數據化,國有企業會逐步建設數據平臺并進行數據治理,企業對數據人才的需求仍會不斷增多。
在包括金融、通信、能源、制造等數據治理開展相對成熟的行業,較多企業都已設置數據治理的專職部門和崗位,而且越是數據治理成熟的企業,專職部門越是靠近業務側,且專職部門級別越高。
2021年工信部發布的《“十四五”大數據產業發展規劃》,以釋放數據要素價值為導向,加強數據高質量治理。
2. 從現狀問題看數據治理對企業的價值
我們來看阿里云dataworks團隊,在數據建設推進與應用中遇到的階段性問題。
①起步階段:數據量與穩定性的矛盾
隨著數據量的增長,數據穩定性不足,任務調度隨著規模增大經常掛掉,集群計算資源不足,問題處理時間長。
②應用階段:數據普惠與使用效率的矛盾
在數據應用時,使用數據的人增多,數倉人員疲于取數,數據團隊壓力增大,數倉建設會逐步變得混亂,反而會阻礙后續使用數據效率。
③規模階段:靈活便捷與風險管控
數據出口多,人為泄露行為管控難,安全保障有待提高,各類數據安全的管理動作,往往會與效率背道而馳,數據分類分級難度高。
④成熟階段:業務變化與成本治理的矛盾
數據成本壓力大,不知道數據成本在哪,數據不敢刪、任務不敢下。
草帽小子:國有企業在政策的指引下,逐漸推動數字化轉型、數據治理;私營企業在業務數據不斷增長的驅動下,逐漸推動數據治理。
3. 不同類型企業如何做數據治理
傳統企業的數據治理跟數字化轉型息息相關,數據治理動作往往融入了數據化建設的每個環節中。
(1)互聯網
以阿里為例,阿里建設社dataworks大數據開發治理平臺,建設的能力包括指標數倉規范設計、數據分析、元數據管理、數據安全管理等能力。
(2)能源
包含煤炭、電力、光伏、電站等,如國家電網、中石化等。
能源行業如電力的數據治理,不能單純以數據質量、血緣分析、元數據管理等傳統IT技術為主,需要在數據治理中緊密結合業務,與各個業務環節緊密配合。
例如:設備檢修:電網公司通過對設備運行的海量數據挖掘,開展預測性檢修的研究,以較高的準確率預測出設備運行的未來狀態,預判設備發生故障的可能性,從而達到基于設備狀態來指導檢修的目的。
常見的挑戰,包含:
- 數據類型多:電力行業廣泛部署的物聯網設備,產生了格式不同、頻率不同、定義不同的多源異構數據
- 海量數據,時效性強:電力的產生、傳輸與消費情況瞬息萬變,片刻間便能產生海量的數據資源,如何及時獲取、可靠存儲、快速計算?
- 數據鏈路長:能源價值鏈整合的參與者眾多,價值活動之間存在緊密聯系,各方數據交互標準、質量、規范如何有效把握?
關鍵治理方式,包含:
- 自動采集各類數據資產信息:根據不同的數據源,開發不同的采集適配器,實現不同種類的數據自動化采集
- 全面管理企業數據資產:在實現企業元數據、技術元數據、模型元數據的全面采集后,企業做好整體數據資產的梳理、數據質量的管理
- 數據資產服務化:提供自助查詢服務、自動獲取數據服務
(3)金融
金融數據治理是金融行業數字化轉型的重要切入點,也是推動金融業從高速增長向高質量發展轉變的關鍵點。銀保監會發布的《銀行金融機構數據治理指引》,從數據治理團隊、數據管理的標準、數據質量管控、數據價值實現等方面展開。
金融數據治理的常見的挑戰,包含:
- 數據價值發現和數據信息保護的矛盾:《數據安全法》、《個人信息保護法》陸續實施,要求金融從業機構將個人客戶信息安全、隱私保護,貫穿在數據采集與應用的全過程。
- 金融如銀行機構,存在各地分行多,經營數據割裂,數據流通困難等問題
關鍵治理方式:
- 治理服務化:管理理念轉為服務理念,通過提供便利的工具或服務,全面為業務提供服務。
- 治理流程化:結合開發流程,將數據模型、數據字典管理流程化,從數據源頭落實數據標準。
- 治理場景化:與監管報送相結合,全流程監控報送質量。
- 標準開放化:構建數據標準運營體系,探索更多開放共享場景,應用數據治理成果。
- 資產智能化:構建智能數據資產管理,結合先進技術,全面釋放數據價值。
4. 數據人才的機會
在國家推動企業數字化轉型的趨勢下,不僅僅是互聯網企業需要進行數據人才,較多傳統企業包括能源、通信、金融、制造等也需數據人才。
企業信息化、數據化的程度不同,所面臨的問題也不同,所需數據人才的能力側重點也會有所差異。但在整體數字化推進時,也會需要一定的通用能力,如數據采集、數據分析、數據計算、數據治理、數據應用等。
因而,個人在工作實踐上,可不斷增長對大數據平臺,各個模塊的實踐與了解,盡可能掌握整個大數據體系;同時可放眼外界,多對比了解不同行業的數字化建設差異。
專欄作家
草帽小子,公眾號:一個數據人的自留地,人人都是產品經理專欄作家?!洞髷祿嵺`之路:數據中臺+數據分析+產品應用》書籍作者,專注用戶畫像領域。
本文原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自Unsplash,基于CC0協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
關注中,期待內容更新