數據治理:企業信息化的核心基礎性工作

0 評論 4374 瀏覽 37 收藏 21 分鐘

對個人來說,我們最熟悉的應該就是數據分析。而對企業而言,數據治理更為重要。這個數字化轉型中的核心環節,能幫企業解決很多問題。

“數據治理”這個名詞,我想無論是對身處數字化轉型的傳統企業還是數字原生企業的伙伴來說都不陌生。但這個詞所代表的具體含義及其背后的治理邏輯框架,可能就不是每個人的明晰了。

今天筆者就從什么是數據治理、為什么要進行數據治理、如何進行數據治理三方面來和各位分享下這一企業信息化的核心基礎性工作。

一、什么是數據治理

數據治理是圍繞數據資產展開的系列工作,以服務組織各層決策為目標,是數據管理技術、過程、標準和政策的集合。

通過數據治理過程提升數據質量、一致性、可得性、可用性和安全性,并最終使企業能將數據作為核心資產來管理和應用。

二、為什么要進行數據治理

其實數據治理不是一開始就有的,最初大部分企業通過數據管理就足以解決大部分的數據問題。

數據管理的目標是“控制、保護、交付和提高數據和信息資產的價值”。

隨著國內大部分領先企業都陸續建設了ERP系統、資產管理系統、人力資源系統、供應鏈管理系統、物流系統、電子商務系統、集成門戶、協同辦公、決策支持系統等各類信息化系統。這些系統通常情況下都是獨立建設,獨立運行,分別服務于企業內不同的職能部門。

由于業務和IT技術發展的漸進性,企業的各個業務系統都經歷了從無到有,不斷擴展和升級的過程,從而形成了一個又一個的業務豎井。業務系統的構建更多是以項目為中心,從下而上地構建,往往缺乏整個企業范圍內的統一規劃,從而使得一些需要在各個業務中共享的核心數據被分散到了個各個業務系統進行分別管理。

在這個以應用為中心的信息化進程中,由于企業各部門在開發或引進各種應用系統時都是單一地追求各自功能的實現,沒有從全局視角進行業務數據流分析和相互協調,沒有遵循統一的數據標準和規范,各個部門都按“自產自用”的模式管理數據資源,導致數據不一致和數據冗余問題與日俱增。

這種以職能和應用為中心的企業信息化建設在帶來數據高速增長的同時,引發諸多數據管理的問題。這些海量的、分散在不同系統中的數據資產呈現出數據量大,涉及領域廣、結構復雜的特點,導致了數據資源利用的復雜性和管理的高難度。

具體而言,大型企業在數據管理方面通常存在如下問題:

  • 缺乏數據管理的體系規劃
  • 缺乏有效的數據管理組織
  • 缺乏IT工具的支持
  • 缺乏對數據管理的正確認識

由于在數據管理上存在上述認識、規劃、組織和管理工具上的缺陷,各類業務系統往往各自為政,難以互聯互通,數據不一致和數據冗余問題與日俱增。海量的數據資產往往無法得到高層次的利用,不能及時發現潛在問題。最終,企業缺乏完善、統一的基礎數據來源和技術標準,缺乏統一、可信的基礎數據源,給企業的發展帶來了極大的障礙。企業在信息化的進程中,正在面臨“數據資產管理危機”。具體表現:

  • 信息孤島
  • 數據標準不統一
  • 數據質量差

最終呈現出的結果就是很多企業的數據資產都或多或少面臨著如下問題。

  • 數據不完整:缺少關鍵基礎數據,部分輔助數據缺失或不全面,歷史數據丟失嚴重
  • 數據分散、不一致:企業內的數據入口眾多,同一類型數據采用的標準、規則不一致
  • 數據質量低:大量數據基本上“堆積”在一起,缺乏必要的數據管理,集成數據的可用性差,質量比較低
  • 數據共享集成成本高:數據標準不統一、分散、可用質量差,數據核對、清理、映射的工作量巨大,導致共享集成和數據分析的成本非常高
  • 數據經濟效益不顯著:數據決策分析的結果可靠性差,投入與產出不匹配

因此種種,企業數據治理應運而生:

  • 企業信息化的發展,大數據概念的提出,導致企業數據的種類和數量急劇增加,企業面臨的數據環境日趨復雜
  • 企業信息化的深度應用對跨部門、跨職能領域的協作提出了更高的要求,信息系統之間的互通、互聯、互操作的復雜性持續增加
  • 海量的數據、復雜的數據環境、潛在的數據質量的缺陷阻礙了企業級的信息集成和信息深度利用,成為制約企業信息化發展的瓶頸

數據治理勢在必行。一般來說,企業可以通過治理其數據而實現以下目標:

  • 完善的數據管控體系。通過對數據管控組織、流程、標準和技術支持的統一規劃設計,實現數據管控過程的高效運行和持續優化,建立數據治理的長效機制。
  • 統一的數據來源。通過對關鍵共享數據進行集中管理,確保關鍵共享數據的一致性,構建企業層面的統一數據視圖。
  • 標準化、規范化的數據。數據清理將實現現有數據的標準化,數據申請和數據審批等業務流程將控制新增數據的標準化,從而徹底改善數據不完整、冗余、錯誤等質量問題。
  • 提高工作效率。數據的標準化將使企業內部的信息共享、業務融合更加順暢,業務對數據實時性、準確性的需求得到滿足,從而帶來工作效率的提高。
  • 降低數據管理、維護、集成成本。共享數據分散在不同的業務系統中,想要保持數據的一致性,就需要付出大量管理維護成本,但這仍然無法根治數據質量問題。數據治理通過對這部分數據統一管理,而后將一致的、權威的數據通過接口自動分發給各個業務系統,大大節約維護成本,并且保證了數據的質量。
  • 滿足數據的合規性。數據治理將幫助組織更好的遵從內外部有關數據使用和管理的監管法規,如SOX法案、Base Ⅲ 協議等。

三、如何進行數據治理

在介紹如何進行數據治理前,我們先要明確需要對誰進行治理。結合目標對象因數而治才能起到事半功倍的效果,畢竟數據這個概念太寬泛,尤其是在大數據背景下,數據低價值密度的趨勢愈發明顯,如果對所有數據一視同仁,數據質量的工作量必將會呈幾何倍數的增長,得不償失。

3.1 數據結構模型

根據企業中數據的特征、作用以及管理需求的不同,我們可根據馬爾克姆·奇澤姆的分類方法,將企業數據分為六個層次,分別為元數據、引用數據、企業機構數據、業務結構數據、業務活動數據和業務審計數據。

1)元數據

元數據是系統中最基礎的數據,是關于數據的數據,或者說是用于描述其他數據的結構的數據。元數據描述數據定義、數據約束、數據關系等。在物理模型中,元數據定義了表和屬性字段的性質。

2)引用數據

引用數據定義了元數據的可能取值范圍,也被稱為屬性值域。例如月份的引用數據為(1-12月)十二個屬性值,國家的引用數據為世界上現有的200多個國家和地區。引用數據的正確、完備和統一是其他數據質量的保證,可大大提升業務流程和數據分析的準確性和效率。

3)企業結構數據

企業結構數據描述了企業數據之間的關系,反映了現實世界中的實體間的關系或流程,如會計科目、組織架構和產品線等。這些數據是多條主數據的集合,共同描述了企業中的層次結構關系,是企業開展業務和進行管理的依據。

4)業務結構數據

業務結構數據描述了業務的直接參與者,產品數據和客戶數據都是典型的業務結構數據。掌握業務結構化數據是業務發生的必要條件。

5)業務活動數據

業務活動數據記錄了企業運營過程中產生的業務數據,其實質是主數據之間活動產生的數據,如客戶購買產品的業務記錄、工廠生產產品的生產記錄。業務活動數據是企業日常經營活動的直接體現,也是早期企業自動化的關注重點。

6)業務審計數據

業務審計數據記錄了數據的活動。例如,對客戶信息進行修改、對業務進行刪除,這些變化都將被記錄在系統中,以便日后追溯。利用業務審計數據可以對數據按照時間維度進行分析,把握企業運營趨勢。同時,一些法律法規也對業務審計數據進行了要求,特別是對銀行等關鍵業務。

以上的數據層次模型抓住了不同層次數據量、變化程度和生命周期的差異,但這個模型提出時間較早,隨著大數據和商務智能的發展,由這些基礎數據衍生出大量的分析數據未能在這個模型中體現。

所以現階段的數據結構模型,在數據層次模型的基礎上,提出了數據的域模型。根據企業中數據特征、作用以及隸屬關系的不同,我們將相對慢變的元數據、引用數據、企業結構數據、業務結構數據作為主數據來管理,業務活動數據和業務審計數據通常屬于在線事務處理(OLTP)的范疇作為業務數據管理,分析數據則和在線分析處理(OLAP)關系緊密。

1)主數據域

主數據是指具有高業務價值的、可以在企業內跨越各個業務部門被重復使用的數據,是單一、準確、權威的數據來源。

主數據包含元數據、引用數據、企業結構數據、業務結構數據等內容。

主數據依賴于靜態的關鍵基礎數據,關鍵基礎數據往往是標準的、公開的,如國家、地區、貨幣等。這些數據相對慢變,但對企業具有全局的重要作用。

2)業務數據域

業務數據包含業務活動數據和業務審計數據,業務數據是在交易和企業活動過程中動態產生的,通常有實時性的要求。

3)分析數據域

分析數據是對業務數據梳理和加工的產物,相對業務數據而言,實時性的要求較低,通常按照分析的主題進行組織和管理。同時隨著大數據技術的發展,在分析數據域中除了傳統的結構化數據之外,有大量半結構和非結構化數據引入。

在上述這三類數據資產中,主數據是上層業務數據、分析數據組織和管理的基礎,相對于上層數據具有穩定、數量少的特點,但這些關鍵數據的影響范圍廣泛。業務數據和分析數據與企業的運營決策直接相關,其數據質量嚴重依賴底層主數據的質量。因此主數據是企業數據資產的根基,只有健康的樹根才能支撐得起大樹的繁茂枝葉、累累碩果。

所以主數據治理是業務數據治理和分析數據治理的前提,為業務系統和分析系統提供基礎性的數據服務,數據治理應該是由主數據驅動的。

3.2 數據治理的基本過程

數據治理是一種完整的體系,企業通過數據標準的制定、數據組織和數據管控流程的建立健全,對數據進行全面、統一、高效的管理。數據治理正是通過將流程、策略、標準和組織有效組合,才能實現對企業的信息化建設進行全方位的監管。因此,數據治理項目的實施需要企業內部一次全面的變革,需要企業高層的授權和業務部門與IT部門的密切協作。

一個完整的數據治理流程,應該包含以下5個基本過程。

3.3 主數據驅動的數據治理框架

企業開展數據治理之前,應首先明確數據治理的目標,參照ITSS提出的數據治理規范,本框架把實施數據治理的目標總結為運營合規、風險可控、價值創造三個層面,企業可根據自身需求進行選擇。

首先,運營合規是基礎目標;在合規的基礎上,建立數據風險管控機制,確保數據及其應用滿足風險偏好和風險容忍度;以合規、可控的數據應用為基礎,構建數據價值實現體系,促進數據資產化和數據價值實現。

將數據治理的各項任務和要素劃分在5個不同的域內。

1)管理域

管理域是數據治理的主要驅動力量,負責確定數據治理的戰略、組織、制度和流程。數據治理規劃應保持與業務規劃、信息技術規劃的一致,并明確戰略規劃實施的策略。組織架構設計明確責任主體及責權利,通過完善組織機制,獲得利益相關方和理解和支持,制定數據管理的流程和制度,以支撐數據治理的實施。

2)治理域

治理域是數據治理的主體,明確數據治理的具體目標和責任。依據對數據資產構成的分析,將治理域分為主數據治理、業務數據治理、分析數據治理三部分,其中主數據治理是業務數據治理和分析數據治理的前提,為業務系統和分析系統提供基礎性的數據服務。因數據特征和管理需求的不同,三部分的治理任務有所區別,但都應包含以下基本的數據治理組件。

  • 數據標準管理
  • 數據模型管理
  • 數據質量管理
  • 數據安全管理
  • 數據生命周期管理

3)技術域

技術域是數據治理的支撐條件,提供治理所需的數據架構、管控平臺和治理工具,在IT整體規劃的基礎上,通過持續的評估、改進和優化,支撐數據治理的應用和服務。

4)過程域

過程域是數據治理的實施的具體方法。數據治理過程包含分析、設計、執行、評估4個步驟。

  1. 在分析階段,應評估數據治理的成熟度、風險及合規性,發現問題;
  2. 在設計階段,應明確數據治理目標和任務,設計數據標準、數據模型、數據架構,做好數據治理實施的準別;
  3. 在執行階段,應構建數據治理實施的機制和路徑,確保數據治理實施的有序運行;
  4. 在評估階段,應監控數據治理的過程,改進數據治理方案,優化數據治理實施策略、方法和流程,促進數據治理體系的完善。

5)價值域

數據治理的目標是通過對數據資產的有效管控持續創造價值,價值域通過對治理結果的有效整理,通過構建具體化的數據產品,實現上述的價值創造。

數據治理的價值體系具體包括三個方面:

  • 數據服務:通過數據的采集、清晰、導入,提升數據質量,確保數據的一致性。這部分體現著主數據治理的關鍵價值。
  • 數據流通:通過實現信息整合和分發機制,支持跨業務、跨部門、跨系統的信息流轉和協同。這部分體現著業務數據治理的關鍵價值。
  • 數據洞察:通過清除數據內在的質量缺陷,明確數據之間的關聯關系,幫助數據分析人員更好地理解數據,實現數據洞察。這部分體現著分析數據治理的關鍵價值。

以上便是從什么是數據治理、為什么要進行數據治理、如何進行數據治理三個問題對數據治理的初步分享。

第三部分如何進行數據治理,這次只是對框架進行了初步介紹,更加具體的數據治理實施和數據治理技術方面內容由于篇幅更多,后續再與各位進行分享。大家如果對某一個部分特別有興趣的,也可以在評論區互動,后續優先分享。

專欄作家

耳海聽潮,微信公眾號:弈囈(ID:YiYi_TANG7980),人人都是產品經理專欄作家。一個做過運營、數據、產品的互聯網從業者,企業數字化轉型的推進者。

本文原創發布于人人都是產品經理,未經許可,禁止轉載

題圖來自 Unsplash,基于 CC0 協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!