談?wù)剶?shù)據(jù)治理是什么?
本人所在的公司正在進(jìn)行體系化的數(shù)據(jù)治理工作,結(jié)合自己的實(shí)際工作經(jīng)營(yíng)和了解的數(shù)據(jù)治理相關(guān)信息,寫了這篇文章,這只代表我對(duì)數(shù)據(jù)治理的理解。
數(shù)據(jù)治理這項(xiàng)工作一直都是存在的,和數(shù)據(jù)庫(kù)設(shè)計(jì)的三范式一樣都是為了數(shù)據(jù)的管理。數(shù)據(jù)治理是一整套完整的組織、制度、技術(shù)管理行為。
我們可以將大數(shù)據(jù)治理定義:大數(shù)據(jù)治是廣義信息化治理計(jì)劃的一部分,即制定與大數(shù)據(jù)有關(guān)的管理優(yōu)化、數(shù)據(jù)保護(hù)、數(shù)據(jù)變現(xiàn)的政策。
它的發(fā)起背景多數(shù)是由于公司戰(zhàn)略政策和業(yè)務(wù)日益變大的數(shù)據(jù)需求和要求所產(chǎn)生的。我所在的公司,當(dāng)業(yè)務(wù)經(jīng)歷粗放式增長(zhǎng)后,原有的模式已不能帶動(dòng)業(yè)務(wù)的增長(zhǎng),需要通過數(shù)據(jù)手段賦能新的業(yè)務(wù)增長(zhǎng)點(diǎn)。因此業(yè)務(wù)對(duì)數(shù)據(jù)提出了準(zhǔn)確性、及時(shí)性等要求,原有業(yè)務(wù)采集一個(gè)需求需要4天時(shí)間已經(jīng)不能滿足業(yè)務(wù),從而產(chǎn)生了數(shù)據(jù)治理項(xiàng)目的啟動(dòng)。
說了數(shù)據(jù)治理產(chǎn)生的背景,我再來談下數(shù)據(jù)治理的對(duì)象。它包括數(shù)據(jù)、開發(fā)流程、管理流程、制度、組織。我認(rèn)為只要和目標(biāo)相關(guān)聯(lián)的,都可以算作治理的對(duì)象,數(shù)據(jù)治理就是將關(guān)聯(lián)方通過一套完整的管理行為,形成有序的工作以達(dá)成目標(biāo)。
數(shù)據(jù)治理框架:
下面主要是介紹范圍這塊:
數(shù)據(jù)治理項(xiàng)目的范圍
數(shù)據(jù)治理項(xiàng)目的范圍通常都會(huì)包含:組織建設(shè)、數(shù)據(jù)安全、數(shù)據(jù)開發(fā)、數(shù)據(jù)質(zhì)量、元數(shù)據(jù)管理、數(shù)據(jù)價(jià)值等幾個(gè)模塊。當(dāng)然基于每家公司的數(shù)據(jù)治理的目標(biāo)不一樣,每家公司的數(shù)據(jù)治理實(shí)施關(guān)鍵路徑也會(huì)不一樣。我所在的公司數(shù)據(jù)治理的目標(biāo)是為方便業(yè)務(wù)快速掌握了解數(shù)據(jù)、公開透明數(shù)據(jù)資產(chǎn)的動(dòng)態(tài),所以把數(shù)據(jù)價(jià)值、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量做為了實(shí)施關(guān)鍵路徑。
元數(shù)據(jù)管理
元數(shù)據(jù)從數(shù)據(jù)的角度可以分為三類:業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和管理元數(shù)據(jù)。
- 業(yè)務(wù)元數(shù)據(jù)是從業(yè)務(wù)的視角去描述數(shù)據(jù),讓不懂?dāng)?shù)據(jù)的人可以快速讀懂?dāng)?shù)據(jù),例如:表名稱、表的血緣關(guān)系、表的字段說明、指標(biāo)的統(tǒng)計(jì)口徑等多種業(yè)務(wù)描述;
- 技術(shù)元數(shù)據(jù)自然就是從技術(shù)的角度去描述數(shù)據(jù),例如:表的sql、字段長(zhǎng)度、字段類型等多種技術(shù)描述;
- 管理元數(shù)據(jù)是包含數(shù)據(jù)管理的信息在里面,例如:表的業(yè)務(wù)屬主、表的技術(shù)負(fù)責(zé)人。
元數(shù)據(jù)的管理通常包含:血緣分析、數(shù)據(jù)生命周期。
血緣分析:對(duì)元數(shù)據(jù)的上下游進(jìn)行分析,我的公司按照數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)將血緣分析分為了兩類:
- 存在Hadoop平臺(tái)的血緣分析,可用通過腳本解析出到字段級(jí)的上下游關(guān)系;
- 建表有主外鍵的,可通過主外鍵建立血緣關(guān)系。
數(shù)據(jù)生命周期:數(shù)據(jù)都存在生命周期,當(dāng)元數(shù)據(jù)訪問量變低,數(shù)據(jù)價(jià)值不存在的時(shí)候,可將它下線清除,釋放存儲(chǔ)空間。
數(shù)據(jù)安全
數(shù)據(jù)安全主要是對(duì)數(shù)據(jù)的安全脫敏管控和安全檢查,脫敏機(jī)制有兩種方案:
1)在數(shù)據(jù)倉(cāng)庫(kù)的接入和輸出進(jìn)行脫敏管控:數(shù)據(jù)接入識(shí)別敏感信息,通過脫敏工具進(jìn)行脫敏處理,產(chǎn)生脫敏表和敏感表兩張表(脫敏表與敏感表之間要有映射關(guān)系),敏感數(shù)據(jù)不對(duì)中間層開放,對(duì)于數(shù)倉(cāng)中間層則只有脫敏表,開發(fā)和測(cè)試的時(shí)候也只能使用脫敏表,在數(shù)據(jù)輸出層,首先應(yīng)用層的開發(fā)先對(duì)敏感數(shù)據(jù)進(jìn)行申請(qǐng),申請(qǐng)通過后得到敏感表的使用權(quán),開發(fā)通過映射關(guān)系將敏感表的脫敏數(shù)據(jù)進(jìn)行關(guān)聯(lián)處理。
這種方案的好處:安全易管控,脫敏過程少,但會(huì)增加開發(fā)的工作量。
2)針對(duì)用戶進(jìn)行脫敏管理,數(shù)據(jù)倉(cāng)庫(kù)的每一層都需要對(duì)敏感數(shù)據(jù)進(jìn)行脫敏處理,對(duì)于敏感數(shù)據(jù)申請(qǐng)權(quán)限的用戶可以查看敏感信息,沒有權(quán)限的用戶只能查看脫敏表。這種脫敏機(jī)制好處在于對(duì)開發(fā)沒什么影響,但加大安全管理的復(fù)雜度,需要全域掃描敏感信息,脫敏工作大。
數(shù)據(jù)質(zhì)量
數(shù)據(jù)質(zhì)量的提升通常包含以下幾個(gè)方面:
1)數(shù)據(jù)質(zhì)量評(píng)估,提供數(shù)據(jù)質(zhì)量評(píng)估能力,如數(shù)據(jù)一致性、完整性、正確性、合規(guī)性、及時(shí)性等,對(duì)數(shù)據(jù)進(jìn)行全面檢查;
2)數(shù)據(jù)質(zhì)量檢查,提供可配置化的檢查規(guī)則,通過腳本定時(shí)調(diào)度執(zhí)行;
3)數(shù)據(jù)質(zhì)量監(jiān)控,提供報(bào)警規(guī)則,根據(jù)配置檢查規(guī)則的閥值,對(duì)超出閥值的進(jìn)行不同程級(jí)的告警和通知;
4)問題處理機(jī)制,對(duì)數(shù)據(jù)問題按照流程進(jìn)行處理,規(guī)范問題處理機(jī)制和步驟,強(qiáng)化問題認(rèn)證,提高數(shù)據(jù)質(zhì)量;
5)根據(jù)血緣關(guān)系和業(yè)務(wù)場(chǎng)景鎖定高價(jià)值數(shù)據(jù),進(jìn)行高安全級(jí)別管控,避免數(shù)據(jù)出錯(cuò)。
數(shù)據(jù)價(jià)值
數(shù)據(jù)治理最重要的產(chǎn)出物,通過數(shù)據(jù)治理能為業(yè)務(wù)帶來的業(yè)務(wù)價(jià)值。如我所在的公司,數(shù)據(jù)價(jià)值體現(xiàn)在數(shù)據(jù)資產(chǎn)可視化。對(duì)于不同看數(shù)據(jù)角色定義不同的價(jià)值,對(duì)于數(shù)據(jù)業(yè)務(wù)分析人員,通過數(shù)據(jù)標(biāo)準(zhǔn)化管理和平臺(tái)搭建,讓不懂?dāng)?shù)據(jù)的業(yè)務(wù)能夠快速掌握數(shù)據(jù),并可以自己進(jìn)行數(shù)據(jù)挖掘、數(shù)據(jù)分析等工作。
對(duì)于高層領(lǐng)導(dǎo),將公司的業(yè)務(wù)數(shù)據(jù)以報(bào)告的形式,讓領(lǐng)導(dǎo)快速了解數(shù)據(jù)的成本及分布情況。當(dāng)然不同的公司側(cè)重的價(jià)值會(huì)不一樣,數(shù)據(jù)治理同時(shí)也能有效的控制數(shù)據(jù)成本,減少因?yàn)閿?shù)據(jù)帶來的摩擦,提升數(shù)據(jù)質(zhì)量和安全。
數(shù)據(jù)開發(fā)
對(duì)數(shù)據(jù)開發(fā)進(jìn)行標(biāo)準(zhǔn)的流程管理是數(shù)據(jù)治理核心的一部分,首先根據(jù)公司實(shí)際情況分析、制定可落地的數(shù)據(jù)開發(fā)管理規(guī)范。過于復(fù)雜的數(shù)據(jù)開發(fā)規(guī)范維護(hù)成本高,同時(shí)也加重開發(fā)工作量,導(dǎo)致難以執(zhí)行。過于簡(jiǎn)單的規(guī)范又無法很好的管理開發(fā)流程。最主要的還是定制完規(guī)范后拉各關(guān)聯(lián)方進(jìn)行評(píng)審,大家對(duì)可落地,可管理的角度是評(píng)估規(guī)范。
當(dāng)規(guī)范制定好后,就是按照規(guī)范進(jìn)行落地執(zhí)行。通常數(shù)據(jù)開發(fā)規(guī)范包含:數(shù)據(jù)建模、數(shù)據(jù)設(shè)計(jì)、數(shù)據(jù)項(xiàng)目部署和實(shí)施。
數(shù)據(jù)建模是一種分析和設(shè)計(jì)方法,用于:
- 定義和分析數(shù)據(jù)需求;
- 設(shè)計(jì)滿足需求的數(shù)據(jù)結(jié)構(gòu)。
數(shù)據(jù)設(shè)計(jì)是做表的關(guān)聯(lián)影響分析,數(shù)據(jù)上游于哪些表, 根據(jù)數(shù)據(jù)開發(fā)規(guī)范對(duì)表的命名和結(jié)構(gòu)進(jìn)行設(shè)計(jì)。數(shù)據(jù)項(xiàng)目部署和實(shí)施主要是發(fā)布管理,就不做解釋了。
組織建設(shè)
數(shù)據(jù)組織是保障數(shù)據(jù)治理能夠長(zhǎng)期有效的重要手段之一,通常數(shù)據(jù)組織都是可以跨職責(zé)的,組織的職能和分類如下:
1)數(shù)據(jù)治理委員會(huì),在公司內(nèi)部擁有數(shù)據(jù)的最高決策權(quán),代表了企業(yè)的高層視角
2)數(shù)據(jù)管理指導(dǎo)委員會(huì),為數(shù)據(jù)委員會(huì)提供支持,針對(duì)一些具體數(shù)據(jù)管理措施起草相關(guān)政策和標(biāo)準(zhǔn),提供委員會(huì)評(píng)審和批準(zhǔn)
3)數(shù)據(jù)管理制度團(tuán)隊(duì),在某個(gè)業(yè)務(wù)領(lǐng)域內(nèi),協(xié)助完成數(shù)據(jù)制度管理的數(shù)據(jù)管理專員小組,數(shù)據(jù)管理制度團(tuán)隊(duì)來著不同的部門和跨業(yè)務(wù)領(lǐng)域的數(shù)據(jù)專家
下面這張圖摘至于《數(shù)據(jù)治理體系》-管理組織:
本文由 @木子姐 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
數(shù)據(jù)質(zhì)量:基于場(chǎng)景的規(guī)則類型確定,搭建數(shù)據(jù)規(guī)則,從任務(wù)創(chuàng)建,規(guī)則配置再到調(diào)度配置進(jìn)行數(shù)據(jù)質(zhì)量管理,確認(rèn)數(shù)據(jù)質(zhì)量的評(píng)分等級(jí);
元數(shù)據(jù)管理:描述數(shù)據(jù)的數(shù)據(jù),搭建數(shù)據(jù)源管理和采集任務(wù)管理,采集數(shù)據(jù)信息,其中包括數(shù)據(jù)源信息,數(shù)據(jù)庫(kù)信息,分區(qū)信息,變更信息,調(diào)度信息,血緣信息,字段信息等等進(jìn)行數(shù)據(jù)的治理,這是一個(gè)作用,另外一個(gè)是通過業(yè)務(wù)屬性,技術(shù)屬性,管理屬性建立數(shù)據(jù)標(biāo)準(zhǔn)對(duì)接數(shù)倉(cāng)進(jìn)行依標(biāo)建表;
數(shù)據(jù)安全;對(duì)表進(jìn)行分類,部位維度,角色維度登進(jìn)行配置,可以按照表維度和角色維度進(jìn)行配置,也可以申請(qǐng)表的權(quán)限進(jìn)行審批,收回;
數(shù)據(jù)價(jià)值:數(shù)據(jù)是賦能業(yè)務(wù)的,價(jià)值的考慮如果是電商精細(xì)化運(yùn)營(yíng),包括指標(biāo),標(biāo)簽等進(jìn)行衡量
前輩是否同意這些觀點(diǎn)
mark
您好,想向您申請(qǐng)授權(quán)轉(zhuǎn)載這篇文章到公眾號(hào)~
可以呀