建議收藏 | 企業究竟該如何落地數據治理?
編輯導語:你是否想要了解企業在傳統數據平臺使用數據時會遇見哪些常見問題或挑戰、什么是數據治理、治理范疇是什么、如何落地數據治理等問題呢?本篇文章的作者將詳細地為大家講解這些問題,一起來看看吧!
在傳統信息架構階段,各個部門根據各自的業務需求的需要,在不同的時期不同的技術環境下建設出各自的信息系統,從而出現了一個個“信息孤島”式應用。
隨著大數據時代的到來,為解決系統孤島的現象,現如今各行各業都在進行大數據平臺的建設,都想通過大數據的能力實現數字化轉型,而數據治理作為實現企業數據價值的第一步,也就越來越被重視。
實際上,大數據平臺的建設本質還是數據的建設,企業只有保證數據的可見、可用、易用、可運營,才能盡快依靠數據成為重要的生產力。
然而,企業在傳統數據平臺碰到的所有問題,在大數據平臺也有可能遇到。且隨著數據量級的變化,大數據平臺必然還會產生新的問題。
一、企業使用數據時遇到的常見問題和挑戰
那么,企業在傳統數據平臺使用數據時會遇見哪些常見問題或挑戰呢?
為幫助你快速理解,下面我將通過一個真實案例進行切入。
數據分析師:“老大,昨天會議上你說的供應商評價場景,我感覺目前數據存在問題。你看 10 年前上的系統與去年上的新系統供應商編碼、物料編碼、人員編碼、數據單位都不一致,根本關聯不起來。
就拿其中一個指標來說吧,近 3 年的及時到貨量 = 及時到貨數量 / 到貨數量,目前我們連這個簡單的場景都做不了。因為當時編碼沒有定規則,企業沒有制定統一的數據標準,不僅這個場景做不了,涉及需要大量歷史數據訓練 AI 模型的場景也無法實現。”
老大:“他們沒有上主數據系統以此保證主數據的一致性嗎?也沒有人定義標準?看來這個坑不小呀。下面我們抓緊建立一套數據質量體系吧,針對不符合規范的內容,通過郵件定時發送給業務部門負責人。通知發送后,如果再出現問題那就是業務部門的事情了,要不然老板還懷疑我們的能力不行,這個鍋我們不背?!?/p>
算法工程師:“老大,要訓練的銷量預測數據感覺有問題,問了一圈業務領域的人,就沒有一個對歷史數據全局能說明白的,每個人都只知道自己的那一塊數據。我看了一下,營銷數據、訂單數據、采購數據、供應鏈數據統計口徑都不一致。我已經很盡力地拉了幾次會議了,可每次組織會議時,大家都有時間的情況不多,所以這個事情部門之間就推來推去,都想讓其他部門改,最后會議都是以不了了之收場。”
研發工程師:“老大,昨天采購那邊好像改了什么字段或數據,導致下游的報表數據都出現了問題,今晚又得加班了,主要是現在還不清楚問題到底在哪?”
通過以上這段對話可知,數據治理一般存在以下 4 種挑戰:
第一,數據不可知:作為業務人員/企業管理者不清楚數據與業務之間的關系到底是什么,對于數據資產完全不清晰。
第二,數據不可控:現有數據質量不高,導致業務人員的工作瑣碎,工作量巨大,且容易出錯。
第三,數據不可?。?/strong>業務人員無法根據真實需求從數據源中快速提取數據,導致業務需求無法快速被滿足。
第四,數據不關聯:因各個數據之間沒有任何關聯性,導致數據難以支撐企業實際業務。
也正是因為所使用的數據存在一系列的問題,且問題還在不斷涌現,所以企業有必要對數據進行治理,以此提升數據的價值,并為企業實現數字化戰略打好基礎。
既然數據治理如此重要,下面我們就一起來看看到底什么是數據治理?數據治理的范疇包含哪些?到底如何落地數據治理?
二、什么是數據治理?治理范疇是什么?
數據治理是一種帶有強烈目的的實踐活動,它以數據為核心對象,涉及政府、企業、個人等各類參與主體,覆蓋數據全生命周期中的各種過程和狀態,利用手段和活動釋放、保護數據的價值。
學習了數據治理的概念后,我通過一張數據治理“4W1H”模型圖說明數據治理的范疇,以幫助你快速理解。
通過上圖,我們已經很清晰地知道數據治理范疇包含了哪些。然而,隨著業務不斷生成海量數據,并將其轉移到云中,數據管理動態的基本方式也在不斷發生變化,因此,在提升大數據治理能力時,企業需要額外特別關注以下 5 個管理范疇:
(1)風險管理
人們擔心敏感信息可能會暴露給未授權的個人/系統、安全漏洞、已未知人員在錯誤的情況下訪問數據,為此,各組織都在尋求將這種風險降到最低的方法。一旦系統遭遇破壞,就需要使用額外形式的保護方式(如加密)來混淆數據對象的嵌入信息,以此保護數據。
此外,還需要其他工具支持訪問管理、識別敏感數據資產,并圍繞其保護創建策略。
(2)數據增值
隨著企業創建、更新和流化數據資產的速度不斷提高,雖然云平臺能夠處理更高的數據速度、數據容量和數據多樣性,卻仍需要引入控制和機制以便快速驗證高速數據流的質量,這很有必要。
(3)數據管理
采用外部產生的數據源和數據流(包括來自第三方的付費數據)的需求,意味著應該做好不相信所有外部數據源的準備??赡苄枰胗涗洈祿墶⒎诸惡驮獢祿? 的工具,以幫助員工(特別是數據消費者)根據他們對數據資產生成方式的了解確定數據可用性。
(4)數據發現
將數據移動到任何類型的數據湖(基于云的或本地的)都有可能失去對已移動的數據資產、其內容的特征和元數據的詳細信息的跟蹤。因此,評估數據資產內容和敏感性(無論數據在哪里)的能力變得非常重要。
(5)隱私和法規
法規遵從性要求可審計和可衡量的標準和程序,以確保符合內部數據政策和外部政府法規。將數據遷移到云意味著組織需要工具來執行、監視和報告遵從性,并確保正確的人員和服務對正確的數據具有訪問和權限。
掌握了數據治理的概念、管理范疇后,那么企業如何落地數據治理呢?下面一一為你揭曉。
三、如何落地數據治理?
在落地數據治理過程中,企業往往需要經過如下三個階段:
1. 整體規劃階段
在這個階段,數據管理經常使用的兩大理論是 DCMM、DMBok,在國內,企業主要采用的是 DCMM 方法論體系。
在數據治理整體規劃階段,企業需要通過 6 步走策略進行落地:
- 現狀調研與需求分析:通過收集資料、現場采訪了解業務現狀、信息化現狀等,再通過數據分析,形成現狀與差距評估報告。
- 藍圖規劃:通過問題盤點,制定愿景使命與目標、治理路線、各類體系。
- 平臺建設:實施方案策劃、總體推進計劃輸出、資源規劃。
- 摸家底:需要輸出各類定準表標準文檔。
- 落平臺:企業各類數據相關人員需要按照制定的相關標準進行執行。
- 抓運營:通過數據質檢平臺進行檢核,對不滿足的數據要求對應部門整改。
2. 調研、定框架、落標準階段:輸出標準階段產出物
在調研、定框架、落標準階段,就需要輸出各類標準階段產出物。這類標準產出物主要分為行業標準、國際標準、企業標準、業務標準等,如果涉及技術中、產品中的各個模塊時,它們可以再進行具體劃分。
如下截圖是我給一家大型企業落地數據標準過程中梳理的各類標準文檔,如果你想獲取對應資料,歡迎關注公眾號進行了解:
3. 標準落地階段
數據標準梳理完了,企業就需要落實到數據開發、數據運營的各個環節,只有這樣才能構成一個完整的數據生命周期管理。
(1)主數據開發
在主數據開發過程中,我們需要通過主數據平臺進行數據的模型開發、數據采集、收據分發與訂閱、主數據的申請、數據接入等。
(2)數倉建設
在數倉建設過程中,我們需要遵循如下標準:
- 數據開發:數據開發實現數據倉庫需要遵循數據標準、數據標準規范化文檔(見產品人棲息地數倉課程)
- 數據模型架構原則:數倉分層原則、主題域劃分原則、數據模型設計原則。
- 數倉公共開發規范:層次調用規范、數據類型規范、數據冗余規范、NULL字段處理規范、指標口徑規范、數據表處理規范、表的生命周期管理。
- 數倉命名規范:詞根設計規范、表命名規范、指標命名規范。
- 數倉各層開發規范:ODS 層設計規范、公共維度層設計規范、DWD 明細層設計規范、DWS 公共匯總層設計規范。
(3)指標開發
在指標開發階段,我們需要遵循原子指標、派生指標、復合指標的落地標準。
- 全局設計:用來劃分數據總線,這是數據標準,落地成數據總線文檔。
- 原子指標:用來定義業務過程中的度量邏輯,比如:SUM、COUNT、MAX、MIN、AVERAGE、STDDEV、VAR 等。
- 派生指標:落地后屬于真正業務意義上的 DWS 層指標。
- 復合指標:基于指標之間的計算獲得。
在這個階段,我們需要清晰地知道原子指標、派生指標之間的關系,如下圖所示:
當然,我們也需要很清晰地知道指標與數倉之間的關系。指標是模型層的上層應用,在可視化、規范化指標建設中,它反過來可落地成每個主題中的模型。
(4)標簽開發
標簽根據來源可以劃分為原子標簽、衍生標簽、組合標簽、自定義標簽、算法標簽這幾種,如下說明:
- 原子標簽:體的原始數據維度,它可以是實體的基本屬性,如性別、年齡、性別等,也可以是經過加工的數據,如會員等級、年收入、年消費金額等。原子標簽一般來源于離線計算DWS層的一個結果表,讀入標簽系統中,衍生標簽和組合標簽基于此計算。
- 衍生標簽:可以通過實體的主表、輔表或關系表的基礎字段來創建,支持配置規則或寫 SQL 兩種加工方式。
- 組合標簽:屬于規則類標簽,它是多個標簽的組合,由原子標簽、衍生標簽、自定義標簽組合而成。
- 自定義標簽:通過導入標簽數據的方式創建的標簽。
- 算法標簽:通過機器學習分類學習得到的標簽。
當然,標簽也可以根據內容側和場景主題進行劃分。
在實際落地過程中,我們需要清楚地知道標簽的分層邏輯:原子標簽 ——組合標簽—— 業務標簽,且要清楚標簽也需要遵循一定的規范。
然而,現實中很多企業在給實體打標簽時,因為沒有遵循一定的規范,使得標簽越來越不精準,業務人員也感覺越來越力不從心。久而久之,隨著標簽越來越多,業務人員也就更加不知所措,標簽的維護成本也越來越高……
比如,很多企業給一個實體(用戶/企業)打了很多標簽,在使用時卻并不清楚當初標簽是如何定義的,能用于什么場景。此時,如果發生“標簽爆炸”,那么這套系統就會被玩壞了。
(5)數據運營
在數據運營階段,我們需要對任何模型進行數據質檢,最終生成對應的數據報告,且報送對應業務線需要對發生問題的數據進行處理,這就形成了一套從標準、制定檢核任務、根據質檢結果進行 check、對數據進行梳理或者發現缺少的標準進行補充的完善 PDCA 數據治理閉環。
數據運營階段我們要做哪些事情呢 ?比如數據格式不規范、空值、數據趨勢波動趨勢、值域等問題,我們可以通過數據質檢平臺進行質檢。
數據質檢平臺主要包括兩方面的能力:技術側檢測規則、數據質量。指定檢核規則需要從數據的一致性、唯一性、準確性、有效性、及時性、完整性這 6 個維度進行梳理。
如下圖是數據的一致性、唯一性、準確性、有效性、及時性、完整性案例,建議收藏,在其他地方估計你很難再找到這么詳細的數據檢核規則文檔了:
然后,經過定時的任務調度,生成數據質量檢核報告。在報告中,我們就可以看到每個數據維度上存在的問題及存在問題的具體數據,再將對應的數據下發到對應的部門進行復盤,該調整的調整,該增加規范的增加。
四、小結
企業從關注技術到關注數據治理和運營,是對數據價值本身的回歸。
因此,在大數據時代,企業必須盤活業務數據,并構建一套從數據展示、數據分析、數據挖掘等多場景的高效應用,唯有如此才能在激烈的競爭中脫穎而出。這就要求企業不僅僅需要關注現在數據中臺化的能力,還需要基于數據中臺在落地數據治理過程中做統一的數據規劃。
未來,我相信,隨著大數據與人工智能的發展,越來越多的智能場景將被賦能自動化業務。
公眾號:產品人棲息地
本文由 @DataSir 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
您好 想請問一下 如何進一步溝通?文章中的材料能否分享,謝謝。
專業
歡迎大家閱讀《一本書講透數據治理》,這本書是由我們團隊一起寫的
平臺的標簽體系體系如何搭建呢(不限于用戶的標簽)
碼住了碼住了,收藏起學習一下,希望能夠有幫助
數據標準梳理完,企業需要落實到數據開發、數據運營的各個環節