怎么保障企業(yè)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)質(zhì)量?

2 評(píng)論 5715 瀏覽 39 收藏 8 分鐘

不同的企業(yè)以及企業(yè)的不同發(fā)展階段,關(guān)于數(shù)倉(cāng)數(shù)據(jù)質(zhì)量保障的要求都不盡相同。文章從互聯(lián)網(wǎng)公司發(fā)展的各個(gè)階段對(duì)數(shù)據(jù)質(zhì)量管理的要求,以及常見的數(shù)據(jù)質(zhì)量衡量標(biāo)準(zhǔn)和通用的數(shù)據(jù)質(zhì)量管理流程出發(fā),分享了關(guān)于數(shù)據(jù)質(zhì)量管理的相關(guān)經(jīng)驗(yàn)。

前段時(shí)間被問(wèn)起:公司的數(shù)據(jù)質(zhì)量管理是怎么控制的?基于目前大部分互聯(lián)網(wǎng)公司的數(shù)據(jù)部門都會(huì)建設(shè)集團(tuán)數(shù)據(jù)倉(cāng)庫(kù),上層數(shù)據(jù)產(chǎn)品的數(shù)據(jù)來(lái)源也基本上來(lái)自數(shù)據(jù)倉(cāng)庫(kù)。所以,這個(gè)問(wèn)題我理解為:怎么保障企業(yè)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)質(zhì)量?

結(jié)合以往的數(shù)據(jù)項(xiàng)目經(jīng)驗(yàn),我做了簡(jiǎn)單的回答:

(1)數(shù)據(jù)基礎(chǔ)建設(shè)

想要有一個(gè)高質(zhì)量的數(shù)據(jù)倉(cāng)庫(kù),那么首先從數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)上,我們就得有一個(gè)主題域完善,層級(jí)分明(通常分為ODS【數(shù)據(jù)源表層】,DWD【數(shù)據(jù)明細(xì)層】,DWS【數(shù)據(jù)匯總層】,DWA【數(shù)據(jù)應(yīng)用層】),且數(shù)據(jù)消費(fèi)場(chǎng)景明確,數(shù)據(jù)加工鏈路清晰的數(shù)據(jù)倉(cāng)庫(kù)體系。

有了這個(gè)基礎(chǔ)之后,我們才能對(duì)不同主題域,不同層級(jí)的數(shù)據(jù)分別進(jìn)行監(jiān)控。

(2)數(shù)據(jù)處理監(jiān)控

通過(guò)數(shù)據(jù)血緣關(guān)系管理,監(jiān)控并定位數(shù)據(jù)處理鏈路上出問(wèn)題的執(zhí)行節(jié)點(diǎn),通過(guò)系統(tǒng)或者郵件或企業(yè)員工管理平臺(tái)通知到相應(yīng)的負(fù)責(zé)人。

(3)業(yè)務(wù)系統(tǒng)調(diào)整響應(yīng)

一是新增業(yè)務(wù)模塊,導(dǎo)致有新的數(shù)據(jù)需要及時(shí)接入到數(shù)據(jù)倉(cāng)庫(kù)中。

二是業(yè)務(wù)模塊變更,導(dǎo)致數(shù)倉(cāng)中某些指標(biāo)的歷史統(tǒng)計(jì)口徑發(fā)生了改變。

無(wú)論是哪一種,除了借助相應(yīng)的發(fā)布平臺(tái)工具之外,同時(shí)還需要規(guī)范及優(yōu)化人為干預(yù)流程,降低業(yè)務(wù)部門與數(shù)據(jù)部門的溝通成本,提升數(shù)據(jù)部門的數(shù)據(jù)輸出質(zhì)量及數(shù)據(jù)響應(yīng)速度。

雖然對(duì)于不同的企業(yè)以及企業(yè)的不同發(fā)展階段,關(guān)于數(shù)倉(cāng)數(shù)據(jù)質(zhì)量保障的要求都不盡相同,但是都有相關(guān)的方法論可以參考。

下面從互聯(lián)網(wǎng)公司發(fā)展的各個(gè)階段對(duì)數(shù)據(jù)質(zhì)量管理的要求,以及常見的數(shù)據(jù)質(zhì)量衡量標(biāo)準(zhǔn)和通用的數(shù)據(jù)質(zhì)量管理流程來(lái)聊聊數(shù)據(jù)質(zhì)量管理那些事兒。

一、從公司發(fā)展周期看數(shù)據(jù)質(zhì)量管理

1. 發(fā)展初期

業(yè)務(wù)模式不清晰,各條業(yè)務(wù)線都處于快速試錯(cuò)階段,數(shù)據(jù)體量也不大,數(shù)據(jù)的輸出相對(duì)簡(jiǎn)單,數(shù)據(jù)質(zhì)量問(wèn)題還沒(méi)有那么突出。

這時(shí)候關(guān)于數(shù)據(jù)就是一個(gè)“快”字,需要及時(shí)的提供數(shù)據(jù)支撐,幫助業(yè)務(wù)及產(chǎn)品迅速完成產(chǎn)品的迭代及業(yè)務(wù)模式的探索。所以更注重的是數(shù)據(jù)的快速接入,分析報(bào)表的快速輸出。

2. 發(fā)展中期

各條業(yè)務(wù)線的業(yè)務(wù)模式都已經(jīng)趨于成熟,數(shù)據(jù)體量呈指數(shù)式增長(zhǎng)。由于需要經(jīng)常提供跨業(yè)務(wù)系統(tǒng)的數(shù)據(jù)分析,以及各種算法模型的數(shù)據(jù)支撐,這時(shí)候再回頭想從眼花繚亂的數(shù)據(jù)表中及時(shí)的提供準(zhǔn)確的數(shù)據(jù)內(nèi)容,就顯得極其困難。

這個(gè)時(shí)候關(guān)于數(shù)據(jù)就是一個(gè)“理”字,這里的“理”是“梳理”和“治理”的意思,梳理我們的所有業(yè)務(wù)內(nèi)容并治理我們的數(shù)據(jù)。這個(gè)時(shí)候就得按照數(shù)據(jù)質(zhì)量管理的流程,開展一系列數(shù)據(jù)治理工作,建設(shè)公司的數(shù)據(jù)質(zhì)量管理規(guī)范。同時(shí),也要從戰(zhàn)略層面上打造集團(tuán)的數(shù)據(jù)中臺(tái),通過(guò)及時(shí)準(zhǔn)確的數(shù)據(jù)響應(yīng),賦能前臺(tái)業(yè)務(wù)快速增長(zhǎng)。

3. 發(fā)展穩(wěn)定期

這時(shí)候公司處于一個(gè)穩(wěn)定增長(zhǎng)的狀態(tài),可能也會(huì)進(jìn)行一些新業(yè)務(wù)模式的嘗試,但是總體發(fā)展趨于穩(wěn)定。伴隨著中期的數(shù)據(jù)治理過(guò)程,整個(gè)數(shù)據(jù)團(tuán)隊(duì)的組織架構(gòu)也趨于完善,如大數(shù)據(jù)數(shù)倉(cāng)組,算法組,研發(fā)組,測(cè)試組,產(chǎn)品組等。

這時(shí)候關(guān)于數(shù)據(jù)就是一個(gè)“穩(wěn)”字,這里的“穩(wěn)”是“穩(wěn)發(fā)展”和“穩(wěn)創(chuàng)新”的意思?!胺€(wěn)發(fā)展”是指整個(gè)數(shù)據(jù)中心的規(guī)模及狀態(tài)穩(wěn)步發(fā)展,包括框架的穩(wěn)步迭代更新以及整體架構(gòu)的逐步優(yōu)化?!胺€(wěn)創(chuàng)新”是指數(shù)據(jù)中臺(tái)要穩(wěn)定的像前臺(tái)輸出一些創(chuàng)新性的數(shù)據(jù)產(chǎn)品,幫助業(yè)務(wù)部門挖掘新的業(yè)務(wù)模式和變現(xiàn)渠道。

二、數(shù)據(jù)質(zhì)量衡量標(biāo)準(zhǔn)

1. 完整性

主要包括實(shí)體缺失、屬性缺失、記錄缺失和字段值缺失四方面。

2. 準(zhǔn)確性&合理性

數(shù)據(jù)中記錄的信息和數(shù)據(jù)是否準(zhǔn)確、是否存在異常或者錯(cuò)誤的信息。主要包括格式、類型、值域和業(yè)務(wù)規(guī)則的合理有效。

3. 一致性

系統(tǒng)之間的數(shù)據(jù)差異和相互矛盾的一致性,業(yè)務(wù)指標(biāo)統(tǒng)一定義,數(shù)據(jù)邏輯加工結(jié)果一致性。

4. 及時(shí)性

數(shù)據(jù)倉(cāng)庫(kù)ETL、應(yīng)用展現(xiàn)的及時(shí)和快速性,Jobs運(yùn)行耗時(shí)、運(yùn)行質(zhì)量、依賴運(yùn)行及時(shí)性。

圖一:數(shù)據(jù)衡量標(biāo)準(zhǔn)說(shuō)明

三、數(shù)據(jù)質(zhì)量管理流程

數(shù)據(jù)質(zhì)量管理流程:通過(guò)劃分?jǐn)?shù)據(jù)資產(chǎn)等級(jí)和分析元數(shù)據(jù)的應(yīng)用鏈路,對(duì)不同資產(chǎn)等級(jí)的數(shù)據(jù)采取相對(duì)應(yīng)的質(zhì)量管理方式。

1. 數(shù)據(jù)資產(chǎn)等級(jí)劃分

分析業(yè)務(wù)場(chǎng)景,根據(jù)應(yīng)用的影響程度,確定當(dāng)前以及生產(chǎn)鏈路上的數(shù)據(jù)資產(chǎn)等級(jí)。

2. 數(shù)據(jù)加工過(guò)程校驗(yàn)

在各個(gè)加工環(huán)節(jié)上根據(jù)不同資產(chǎn)等級(jí)對(duì)數(shù)據(jù)采取不同的質(zhì)量管理方式。

3. 數(shù)據(jù)處理風(fēng)險(xiǎn)監(jiān)控

對(duì)數(shù)據(jù)加工過(guò)程中存在的風(fēng)險(xiǎn)點(diǎn)進(jìn)行監(jiān)控,包括數(shù)據(jù)質(zhì)量風(fēng)險(xiǎn)和數(shù)據(jù)及時(shí)性。

圖二:數(shù)據(jù)質(zhì)量管理流程圖

四、后續(xù)

通過(guò)以上內(nèi)容,我們對(duì)數(shù)據(jù)質(zhì)量管理有了一個(gè)初步的認(rèn)知,也了解了數(shù)據(jù)質(zhì)量衡量標(biāo)準(zhǔn)以及數(shù)據(jù)質(zhì)量管理流程。相信大家對(duì)數(shù)據(jù)質(zhì)量管理的實(shí)施過(guò)程和思路也有了大致的了解。下一篇文章,我會(huì)拆解數(shù)據(jù)質(zhì)量管理流程,詳細(xì)介紹數(shù)據(jù)資產(chǎn)等級(jí)劃分,數(shù)據(jù)加工過(guò)程校驗(yàn)及數(shù)據(jù)處理風(fēng)險(xiǎn)監(jiān)控等的實(shí)施方法論。感謝各位的支持與關(guān)注,希望后續(xù)有更多高質(zhì)量的文章與大家分享!

數(shù)據(jù)產(chǎn)品路上,與君共勉!

 

本文由 @BennettC 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 大家期待已久的《數(shù)據(jù)產(chǎn)品經(jīng)理實(shí)戰(zhàn)訓(xùn)練營(yíng)》終于在起點(diǎn)學(xué)院(人人都是產(chǎn)品經(jīng)理旗下教育機(jī)構(gòu))上線啦!經(jīng)過(guò)迭代優(yōu)化,現(xiàn)在已經(jīng)第7期開啟報(bào)名啦
    本課程非常適合新手?jǐn)?shù)據(jù)產(chǎn)品經(jīng)理,或者想要轉(zhuǎn)崗的產(chǎn)品經(jīng)理、數(shù)據(jù)分析師、研發(fā)、產(chǎn)品運(yùn)營(yíng)等人群。
    課程會(huì)從基礎(chǔ)概念,到核心技能,再通過(guò)典型數(shù)據(jù)分析平臺(tái)的實(shí)戰(zhàn),幫助大家構(gòu)建完整的知識(shí)體系,掌握數(shù)據(jù)產(chǎn)品經(jīng)理的基本功。
    學(xué)完后你會(huì)掌握怎么建指標(biāo)體系、指標(biāo)字典,如何設(shè)計(jì)數(shù)據(jù)埋點(diǎn)、保證數(shù)據(jù)質(zhì)量,規(guī)劃大數(shù)據(jù)分析平臺(tái)等實(shí)際工作技能~
    現(xiàn)在就添加空空老師(微信id:anne012520),咨詢課程詳情并領(lǐng)取福利優(yōu)惠吧!

    來(lái)自廣東 回復(fù)
  2. 來(lái)自北京 回復(fù)