數(shù)據(jù)產(chǎn)品:數(shù)據(jù)地圖是什么?與地圖數(shù)據(jù)的關(guān)系?
編輯導(dǎo)語:不同于我們以往所認(rèn)知的“地圖”,數(shù)據(jù)地圖是供人查找數(shù)據(jù)的數(shù)據(jù)資產(chǎn)管理工具。它所提供的業(yè)務(wù)功能也與常見地圖不同。本篇文章里,作者就詳細(xì)介紹了數(shù)據(jù)地圖的定義,并闡述了數(shù)據(jù)地圖的功能與架構(gòu)。如果你也想了解數(shù)據(jù)地圖的話,就一起來看一下吧。
一、前言
上周,產(chǎn)品架構(gòu)群里一位老哥“郭同學(xué)”突然在群里發(fā)了一張這個(gè)圖:
然后問:我在研究中臺(tái)里說的數(shù)據(jù)地圖到底長(zhǎng)什么樣子的,結(jié)果找來找去,就只能找到這個(gè)。是不是只有這種才叫數(shù)據(jù)地圖?
這下可炸了鍋了,一群數(shù)據(jù)產(chǎn)品經(jīng)理紛紛過來,要給他上一課。
為此,我特意開了一個(gè)數(shù)據(jù)產(chǎn)品的研討會(huì),專門給大家聊聊,什么叫“數(shù)據(jù)地圖”。
二、數(shù)據(jù)地圖在中臺(tái)的位置
既然郭同學(xué)問的是數(shù)據(jù)中臺(tái)中的數(shù)據(jù)地圖,那就先得看看數(shù)據(jù)地圖在數(shù)據(jù)中臺(tái)處于什么位置。這里借用一下數(shù)瀾的數(shù)據(jù)中臺(tái)全景圖(已獲授權(quán)):
注意看上圖中間標(biāo)紅的位置,在數(shù)瀾的數(shù)據(jù)中臺(tái)架構(gòu)中,數(shù)據(jù)地圖處于數(shù)據(jù)資產(chǎn)治理部分。
資產(chǎn)管理具體負(fù)責(zé)什么呢?我們?cè)倏纯磾?shù)瀾的這張圖。數(shù)據(jù)資產(chǎn)化的具體內(nèi)容是:數(shù)據(jù)規(guī)范定義、可視化數(shù)據(jù)建模、數(shù)據(jù)質(zhì)量保障、全鏈路血緣分析、掌握資產(chǎn)現(xiàn)狀和數(shù)據(jù)安全合規(guī)。
其中全鏈路血緣分析的作用是:“支持通過血緣分析、影響性分析,找出上下游表及若一張表更改之后對(duì)下游表的影響。通過數(shù)據(jù)鏈路圖,用戶能夠清晰查看數(shù)據(jù)從哪里來,被用到哪里去。”
那能不能再具體一些?
三、數(shù)據(jù)地圖是干啥的?
我們?cè)倏纯淳〇|某次公開分享資料中的數(shù)據(jù)平臺(tái)門戶,其中也有數(shù)據(jù)地圖,其位置是在元數(shù)據(jù)應(yīng)用層,同級(jí)別的應(yīng)用有:元數(shù)據(jù)體檢、關(guān)聯(lián)分析、影響分析、數(shù)據(jù)瀏覽、血緣分析和數(shù)據(jù)檢索。
很明顯,數(shù)據(jù)地圖是給使用數(shù)據(jù)的同學(xué)使用的,甚至是只給數(shù)據(jù)開發(fā)的同學(xué)使用的。
其核心功能是用來找數(shù)據(jù)的。
我們?cè)俜絹喰趴萍嫉臄?shù)據(jù)事業(yè)部總經(jīng)理高偉寫的《數(shù)據(jù)資產(chǎn)管理》一書中,第三章“治理管控:數(shù)據(jù)資產(chǎn)管理的基礎(chǔ)所在”,第六節(jié)“建立數(shù)據(jù)地圖,盤活數(shù)據(jù)資產(chǎn)”,里面寫的很清楚:
數(shù)據(jù)地圖是一種圖形化的數(shù)據(jù)資產(chǎn)管理工具,它提供了多層次的圖形化展示,并具備各種力度控制能力,滿足業(yè)務(wù)使用、數(shù)據(jù)管理、開發(fā)運(yùn)維不同應(yīng)用場(chǎng)景的圖形查詢和輔助分析需求。
主要解答幾個(gè)問題:
- 數(shù)據(jù)是什么?
- 數(shù)據(jù)在哪里?
- 數(shù)據(jù)如何???
- 數(shù)據(jù)怎么用?
還能做好各種數(shù)據(jù)管理工作:
- 數(shù)據(jù)體檢;
- 運(yùn)維監(jiān)控;
- 安全評(píng)估。
提供的數(shù)據(jù)服務(wù)主要有:
- 支付快速搜索定位,找到企業(yè)各種數(shù)據(jù)資產(chǎn),形成有效的數(shù)據(jù)交匯;
- 提供各種數(shù)據(jù)資產(chǎn)快速展現(xiàn)的個(gè)性化形式,方便使用者獲取所需要的關(guān)鍵信息;
- 積累過去所有進(jìn)行過的數(shù)據(jù)加工知識(shí),在相似場(chǎng)景下可以更好地推送或復(fù)用數(shù)據(jù);
- 在數(shù)據(jù)搜尋結(jié)果之上,直接配備方便的分析工具,使得數(shù)據(jù)使用更加得心應(yīng)手;
- 建立數(shù)據(jù)資產(chǎn)分布及綜合評(píng)估的入口,更好地了解數(shù)據(jù)資產(chǎn)使用的各方面信息。
四、為什么要有數(shù)據(jù)地圖?
我們大致已經(jīng)知道了數(shù)據(jù)地圖到底是個(gè)什么玩意,但是為什么要有數(shù)據(jù)地圖呢?
其實(shí),如果公司的數(shù)據(jù)庫里只有百十來張表,那基本上不需要啥數(shù)據(jù)地圖,因?yàn)榭磕X子就能全記住了。
但是,如果有好幾個(gè)系統(tǒng)、幾百張表,而且在數(shù)倉里還分了好多層,之間的關(guān)系錯(cuò)綜復(fù)雜,誰能全部記得住???
比如這位小姐姐的煩惱,相必你也能體會(huì)得到:
不僅是個(gè)人有這個(gè)煩惱,作為一個(gè)組織,保障知識(shí)的傳承、減少溝通成本也是非常必要的。
既然有需求、有問題,人腦又不能完全記住,那肯定得借助系統(tǒng)的力量,做個(gè)產(chǎn)品啊。
至于為啥叫“數(shù)據(jù)地圖”,其實(shí)就是借用了地圖“找信息”的功能,意思是在“數(shù)據(jù)地圖”功能中,能找到所有的數(shù)據(jù)。
五、數(shù)據(jù)地圖長(zhǎng)啥樣?
數(shù)據(jù)地圖不是跟百度地圖、高德地圖一樣,而是跟ETL流程DAG一樣的,或者直接是表格展示。這是atlas的例子:
更簡(jiǎn)單的表格基本上就是庫名、表名、元數(shù)據(jù)代碼、字段名、數(shù)倉位置、上游 、下游、管轄單位、負(fù)責(zé)人等。
六、血緣分析和影響分析
數(shù)據(jù)地圖其實(shí)還能衍生出三個(gè)非常重要的應(yīng)用:全鏈路分析、血緣分析和影響分析。
這是某數(shù)據(jù)治理公司的產(chǎn)品,全鏈路分析。
中間黃色的塊就是查詢對(duì)象,整張圖就是查詢對(duì)象上下所有數(shù)據(jù)鏈路的關(guān)系,所以叫“全鏈路”數(shù)據(jù)分析,看數(shù)據(jù)是怎么來的,再往哪里去。
全鏈路理解了,血緣分析和影響分析就很容易理解了。
血緣分析就是做親子鑒定一樣,不斷找“爸爸”。
我們看到一張報(bào)表,想找到數(shù)據(jù)根源在哪里,就得一層一層地向上追溯,直到找到ODS甚至業(yè)務(wù)庫。
這就是“血緣分析”:
那么對(duì)應(yīng)的,影響分析就是不斷地找兒子了。
業(yè)務(wù)庫想改一張基礎(chǔ)表,怕對(duì)下游的數(shù)據(jù)報(bào)表造成影響,那就得向下找到這張表涉及的所有下游表。
這就是“影響分析”:
七、技術(shù)架構(gòu)
早期的數(shù)據(jù)地圖都是直接存在數(shù)據(jù)庫中,也不太智能,大多數(shù)時(shí)候都得靠人工錄入信息,非常不好用。
現(xiàn)在基本都存在圖數(shù)據(jù)庫中,而且還能自動(dòng)讀取和更新元數(shù)據(jù),非常人性。
這是Atlas架構(gòu)圖,所有數(shù)據(jù)都存在JanusGraph圖數(shù)據(jù)庫中,用圖數(shù)據(jù)庫的天然“關(guān)系”處理能力,做各種血緣、影響分析再合適不過了。
八、結(jié)語
遇到任何問題,一定要刨根問底。不用害怕,不要彷徨,學(xué)習(xí)的事,哪有什么丟人的?加入我們,一起進(jìn)步!
加油,數(shù)字人,今天又是美好的一天!
#專欄作家#
大數(shù)據(jù)架構(gòu)師,微信公眾號(hào):大數(shù)據(jù)架構(gòu)師,人人都是產(chǎn)品經(jīng)理專欄作家。國(guó)藥國(guó)華大數(shù)據(jù)總監(jiān),擅長(zhǎng)BI、數(shù)倉、數(shù)據(jù)中臺(tái)產(chǎn)品規(guī)劃領(lǐng)域。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于 CC0 協(xié)議
數(shù)據(jù)地圖包含數(shù)據(jù)血緣嗎
????
感謝分享