做數(shù)據(jù)血緣到底有何價(jià)值
數(shù)據(jù)在產(chǎn)生與使用的過程中,會(huì)出現(xiàn)各種各樣的問題,我們會(huì)針對(duì)這些進(jìn)行治理。例如針對(duì)數(shù)據(jù)的準(zhǔn)確性、數(shù)據(jù)變更情況、數(shù)據(jù)到底產(chǎn)生了多少價(jià)值、數(shù)據(jù)安全性是否可以得到保障等等,本文闡述數(shù)據(jù)血緣分析解決在數(shù)據(jù)治理過程中是如何解決這些問題的。
價(jià)值一:破除數(shù)據(jù)質(zhì)疑
在我們?nèi)粘9ぷ鞯倪^程中,相信大家經(jīng)常遇到這樣的場(chǎng)景。業(yè)務(wù)人員或者高層領(lǐng)導(dǎo)對(duì)于電腦屏幕上的報(bào)表中的數(shù)據(jù)或指標(biāo)數(shù)據(jù),產(chǎn)生了很大的疑問,“這個(gè)數(shù)據(jù)偏差這么大,是不是有問題???”“為什么這個(gè)數(shù)據(jù)和線下的不一致,你們的計(jì)算邏輯是不是有問題?””為什么都是本月銷售收入這個(gè)字段,A系統(tǒng)是這個(gè)數(shù),B系統(tǒng)是這個(gè)數(shù),你們的數(shù)是用的哪個(gè)口徑呢?”……面對(duì)這一系列的問題,數(shù)據(jù)部門疲于奔命地去排查打消用戶對(duì)報(bào)告數(shù)據(jù)的質(zhì)疑。
面對(duì)用戶對(duì)報(bào)告數(shù)據(jù)可靠性、真實(shí)性的質(zhì)疑,無(wú)非是如下問題導(dǎo)致數(shù)據(jù)可能失真:
- 及時(shí)性問題,大數(shù)據(jù)集群資源不足或者平臺(tái)系統(tǒng)故障導(dǎo)致任務(wù)延遲;
- 開發(fā)代碼質(zhì)量問題,取數(shù)口徑不清晰或者不準(zhǔn)確導(dǎo)致計(jì)算后的數(shù)據(jù)存在錯(cuò)誤;
- 業(yè)務(wù)規(guī)則計(jì)算邏輯變更,系統(tǒng)并未同步更新,導(dǎo)致線上線下數(shù)據(jù)不一致;
- 數(shù)據(jù)質(zhì)量問題,無(wú)論是線上或者線下數(shù)據(jù)存在不準(zhǔn)確、不完整、不及時(shí)的問題,導(dǎo)致最后數(shù)據(jù)失真;
面對(duì)以上的數(shù)據(jù)問題,傳統(tǒng)的排查方式非常冗長(zhǎng)且效率不高:
- 第一步:找到報(bào)表指標(biāo)來源的API接口,確定來源數(shù)據(jù)表。
- 第二步:查找來源數(shù)據(jù)表對(duì)應(yīng)的數(shù)據(jù)同步任務(wù),以及Hive表的產(chǎn)出任務(wù),查看任務(wù)是否正常執(zhí)行完畢。
- 第三步:找到Hive表加工任務(wù)的上游,逐層向上排查,先保證整個(gè)鏈路的任務(wù)都是正常執(zhí)行的,因?yàn)榧皶r(shí)性問題是最高頻、常見且容易處理的問題。
- 第四步:檢查數(shù)據(jù)加工流程各項(xiàng)正常后,再看指標(biāo)產(chǎn)出表的加工代碼,一是看是否近期有人為變更,二是翻代碼校驗(yàn)對(duì)應(yīng)的邏輯,按照指標(biāo)加工的代碼層級(jí)逐級(jí)定位有問題的數(shù)據(jù)表。
- 第五步:通過層層排查,定位了問題,但是問題的修復(fù)和數(shù)據(jù)重跑需要些時(shí)間,得趕緊通知下游,避免錯(cuò)誤數(shù)據(jù)給業(yè)務(wù)帶來的錯(cuò)誤決策和應(yīng)用,比如錯(cuò)把老客算成新客,帶來營(yíng)銷費(fèi)用損失等等問題。
一旦檢查出數(shù)據(jù)有異常,印證了用戶的對(duì)數(shù)據(jù)真實(shí)性、可靠性的顧慮,用戶則逐漸會(huì)對(duì)數(shù)據(jù)喪失信任感,不僅沒有提升使用數(shù)據(jù)的效率,反而讓數(shù)據(jù)管理人員對(duì)每個(gè)質(zhì)疑的數(shù)據(jù)進(jìn)行一遍一遍的鋪排檢查,由于數(shù)據(jù)從生產(chǎn)到賦能業(yè)務(wù)應(yīng)用經(jīng)過很多的處理環(huán)節(jié),業(yè)務(wù)端報(bào)表或數(shù)據(jù)應(yīng)用服務(wù)異常時(shí),需要第一時(shí)間定位問題,排查修復(fù)。
如果靠一層一層的人肉翻代碼效率非常低下,一方面數(shù)據(jù)開發(fā)人力花費(fèi)在排查上,另一方面定位問題時(shí)間越長(zhǎng)業(yè)務(wù)影響和損失越大。
如果利用數(shù)據(jù)血緣分析技術(shù),則可以大大提升排查效率,特別是數(shù)據(jù)血緣的可視化,能讓用戶自主對(duì)數(shù)據(jù)來源以及鏈路進(jìn)行檢查,直觀地發(fā)現(xiàn)數(shù)據(jù)生產(chǎn)鏈路,以及各個(gè)環(huán)節(jié)有無(wú)異常。
如此一來,則能快速打消終端用戶對(duì)報(bào)告數(shù)據(jù)可靠性的懷疑。
價(jià)值二:數(shù)據(jù)變更影響范圍快速評(píng)估
數(shù)據(jù)開發(fā)的過程中,數(shù)據(jù)血緣能夠提供的兩個(gè)價(jià)值點(diǎn)分別是提升問題解決效率和高效評(píng)估數(shù)據(jù)影響。
數(shù)據(jù)血緣單純的數(shù)據(jù)角度來看包含的維度有數(shù)據(jù)庫(kù)、表、字段、系統(tǒng)、應(yīng)用程序,即數(shù)據(jù)存儲(chǔ)在什么數(shù)據(jù)庫(kù)的什么表,對(duì)應(yīng)的字段是什么以及字段的屬性,數(shù)據(jù)所屬的系統(tǒng)以及與數(shù)據(jù)有關(guān)的應(yīng)用程序。
數(shù)據(jù)血緣從業(yè)務(wù)角度來看包含的維度主要是數(shù)據(jù)所屬業(yè)務(wù)線,涉及到業(yè)務(wù)便要梳理清楚數(shù)據(jù)的產(chǎn)生邏輯、數(shù)據(jù)的使用邏輯以及業(yè)務(wù)線之間的關(guān)聯(lián)關(guān)系。
數(shù)據(jù)血緣對(duì)于數(shù)據(jù)治理至關(guān)重要——包括合規(guī)性、數(shù)據(jù)質(zhì)量、數(shù)據(jù)隱私和安全性。它對(duì)于數(shù)據(jù)分析和數(shù)據(jù)科學(xué)也很重要。映射和驗(yàn)證數(shù)據(jù)如何被訪問和更改的能力對(duì)于數(shù)據(jù)透明度至關(guān)重要。
它有助于生成特定數(shù)據(jù)來源的詳細(xì)記錄。它還顯示了數(shù)據(jù)是如何被更改、影響和使用的。數(shù)據(jù)血緣還可以更輕松地響應(yīng)合規(guī)性審計(jì)和報(bào)告查詢。它還通過使組織能夠跟蹤和識(shí)別數(shù)據(jù)流中的潛在風(fēng)險(xiǎn)來幫助提高安全狀況。
數(shù)據(jù)血緣可幫助組織采取積極主動(dòng)的方法來識(shí)別和修復(fù)業(yè)務(wù)應(yīng)用程序所需的數(shù)據(jù)差距。這對(duì)于數(shù)據(jù)分析和客戶體驗(yàn)計(jì)劃特別有用。
收集敏感數(shù)據(jù)會(huì)使組織面臨監(jiān)管審查和業(yè)務(wù)濫用。數(shù)據(jù)血緣顯示敏感數(shù)據(jù)和其他關(guān)鍵業(yè)務(wù)數(shù)據(jù)如何在整個(gè)組織中流動(dòng)。通過這種方式,您可以確保您的策略與現(xiàn)有的控制措施保持一致。
對(duì)于 IT 運(yùn)營(yíng),數(shù)據(jù)血緣有助于可視化數(shù)據(jù)更改對(duì)下游分析和應(yīng)用程序的影響。它還有助于了解業(yè)務(wù)流程變更的風(fēng)險(xiǎn)。它使您能夠采取更積極主動(dòng)的方法進(jìn)行變更管理。它還通過減少耗時(shí)的手動(dòng)流程來提高運(yùn)營(yíng)效率,并通過消除重復(fù)數(shù)據(jù)和數(shù)據(jù)孤島來降低成本。
此外,數(shù)據(jù)血緣有助于實(shí)現(xiàn)成功的云數(shù)據(jù)遷移和推動(dòng)轉(zhuǎn)型的現(xiàn)代化計(jì)劃。數(shù)據(jù)血緣可以幫助可視化不同的數(shù)據(jù)對(duì)象和數(shù)據(jù)流如何與數(shù)據(jù)圖相關(guān)和連接。這種更深入的理解使數(shù)據(jù)架構(gòu)師更容易預(yù)測(cè)移動(dòng)或更改數(shù)據(jù)將如何影響數(shù)據(jù)本身。預(yù)測(cè)對(duì)依賴它的下游流程和應(yīng)用程序的影響并驗(yàn)證更改也變得更加容易。
價(jià)值三:數(shù)據(jù)資產(chǎn)價(jià)值評(píng)估度量工具
在數(shù)字時(shí)代,數(shù)據(jù)被普遍認(rèn)為是一項(xiàng)重要的企業(yè)資產(chǎn)。普遍對(duì)于數(shù)據(jù)資產(chǎn)的定義是指?jìng)€(gè)人或企業(yè)擁有或者控制的,能夠?yàn)槠髽I(yè)帶來未來經(jīng)濟(jì)利益的,以物理或電子的方式記錄的數(shù)據(jù)資源。數(shù)據(jù)資產(chǎn)的關(guān)鍵特征是:
- 擁有數(shù)據(jù)權(quán)屬((勘探權(quán)、使用權(quán)、所有權(quán)));
- 有價(jià)值;
- 可計(jì)量;
- 可讀取的數(shù)據(jù)集。
總而言之,使用者越多(需求方)、使用量級(jí)越大、更新越頻繁的數(shù)據(jù)往往更有價(jià)值。比如CRIC研究中心是易居中國(guó)旗下克而瑞信息集團(tuán)的專業(yè)研發(fā)部門,十年以來一直致力于對(duì)房地產(chǎn)行業(yè)及企業(yè)課題的深入探索。
很多企業(yè)花錢購(gòu)買其調(diào)研成果數(shù)據(jù),這樣的數(shù)據(jù)價(jià)值很明顯,就可稱之為企業(yè)資產(chǎn);貴陽(yáng)大數(shù)據(jù)交易平臺(tái)可以將自己的數(shù)據(jù)打包成服務(wù)、API提供客戶購(gòu)買使用;聚合平臺(tái)、企查查、天眼查提供企業(yè)信息查詢這都屬于價(jià)值很明顯,可兌現(xiàn)價(jià)值的數(shù)據(jù)交易,這些數(shù)據(jù)就實(shí)實(shí)在在的成為企業(yè)間共享的數(shù)據(jù),即為數(shù)據(jù)資產(chǎn)。
所以基于這樣的一些思路,如何讓數(shù)據(jù)成為有價(jià)值的資產(chǎn)可能取決于這些數(shù)據(jù)是否現(xiàn)在或者未來具有潛在的交易價(jià)值。
基于以上問題,數(shù)據(jù)血緣可以作為數(shù)據(jù)資產(chǎn)價(jià)值評(píng)估的一個(gè)度量工具,具體價(jià)值體現(xiàn)如下:
數(shù)據(jù)血緣能夠清晰記錄數(shù)據(jù)的采購(gòu)、生產(chǎn)成本,即使隨著后續(xù)的加工,數(shù)據(jù)的全周期都能清晰對(duì)數(shù)據(jù)的成本進(jìn)行記錄。解決數(shù)據(jù)資產(chǎn)的初始確認(rèn)不定的問題。
例如:我們通過數(shù)據(jù)供應(yīng)商外采的數(shù)據(jù),可以記錄這些數(shù)據(jù)的入賬價(jià)值是多少。如果是我們內(nèi)部通過人工加工形成的數(shù)據(jù)指標(biāo)等資產(chǎn),那可以繼續(xù)追蹤血緣數(shù)據(jù)的成本價(jià)值是多少,并最終形成匯總。
由于數(shù)據(jù)血緣體現(xiàn)了數(shù)據(jù)的多源性,每個(gè)數(shù)據(jù)項(xiàng)在進(jìn)行加工處理的過程中,我們可以進(jìn)一步對(duì)形成的數(shù)據(jù)資產(chǎn)進(jìn)行確認(rèn)。例如某項(xiàng)指標(biāo)數(shù)據(jù),涉及到的數(shù)據(jù)匯總加工,都可以分?jǐn)偲涑杀尽?/p>
數(shù)據(jù)血緣關(guān)系,體現(xiàn)了數(shù)據(jù)的生命周期,體現(xiàn)了數(shù)據(jù)從產(chǎn)生到消亡的整個(gè)過程。當(dāng)數(shù)據(jù)被封存或者銷毀后,實(shí)際就代表了記錄數(shù)據(jù)資產(chǎn)的使用壽命。從而能進(jìn)一步去對(duì)資產(chǎn)的價(jià)進(jìn)行度量。特別是隨著業(yè)務(wù)地發(fā)展數(shù)據(jù)不斷增長(zhǎng),任務(wù)、數(shù)據(jù)表只增不減會(huì)不斷膨脹大數(shù)據(jù)資源成本。
通過構(gòu)建全面準(zhǔn)確的全鏈路數(shù)據(jù)血緣,就可以找出數(shù)據(jù)下游應(yīng)用方,做好溝通和信息同步,長(zhǎng)期沒有調(diào)用的服務(wù),及時(shí)做下線處理,節(jié)省數(shù)據(jù)成本。
數(shù)據(jù)資產(chǎn)需要考慮數(shù)據(jù)有沒有流通(也就說我們說的拉通共享)我們絕大部分的數(shù)據(jù)項(xiàng)目,都是服務(wù)內(nèi)部管理場(chǎng)景的需求。
而我們也需要考慮一些參考數(shù)據(jù),是否有流通在市場(chǎng)上,例如公布在官方網(wǎng)站上的報(bào)表、經(jīng)營(yíng)數(shù)據(jù)、技術(shù)指標(biāo)等等,形成流通的數(shù)據(jù)資產(chǎn)(產(chǎn)品化)。
無(wú)論是內(nèi)部使用、還是提供給外部共享的數(shù)據(jù),我們都需要衡量其價(jià)值。這就需要利用類似于數(shù)據(jù)血緣的技術(shù),去做數(shù)據(jù)資產(chǎn)的在線化登記。
將數(shù)據(jù)價(jià)值度量形成資產(chǎn)化,一方面可以有利于數(shù)據(jù)共享交易過程中的定價(jià),另外一個(gè)非常重要的方面就是依據(jù)數(shù)據(jù)資產(chǎn)可量化的價(jià)值,形成數(shù)據(jù)安全的保護(hù)等級(jí)。
傳統(tǒng)的數(shù)據(jù)安全保護(hù)等級(jí)評(píng)估,往往完全依靠相關(guān)法規(guī)要求和業(yè)務(wù)經(jīng)驗(yàn),缺少在具體應(yīng)用場(chǎng)景中的評(píng)估依據(jù),評(píng)估脫離了數(shù)據(jù)的應(yīng)用場(chǎng)景和真實(shí)的業(yè)務(wù)價(jià)值。
而數(shù)據(jù)血緣則提供了一種基于數(shù)據(jù)實(shí)際應(yīng)用的評(píng)估方法:使用者越多(需求方)、使用量級(jí)越大、價(jià)值越大、更新越頻繁的數(shù)據(jù)安全保護(hù)等級(jí)就應(yīng)該越高。
總而言之,要將數(shù)據(jù)資產(chǎn)化,就必須要圍繞“數(shù)據(jù)價(jià)值鏈”去構(gòu)思一系列制度和技術(shù)手段,確保價(jià)值可以量化,可以度量。而數(shù)據(jù)血緣是將原始數(shù)據(jù)、數(shù)據(jù)資源到數(shù)據(jù)產(chǎn)品、數(shù)據(jù)資產(chǎn)的過程顯現(xiàn)化的關(guān)鍵技術(shù)。
價(jià)值四:為數(shù)據(jù)濫用加上一把“道德”之鎖
近年來,大數(shù)據(jù)讓公眾的生活變得越來越便捷,但隨之而來的大數(shù)據(jù)殺熟、濫用人臉識(shí)別技術(shù)、過度索取權(quán)限等亂象,損害了公眾的合法利益。面對(duì)各種亂象,公眾往往苦不堪言,卻又束手無(wú)策。
而數(shù)據(jù)濫用的主要原因之一就是大量數(shù)據(jù)被超級(jí)平臺(tái)占有,數(shù)據(jù)在生產(chǎn)、收集、流通、使用等過程中的產(chǎn)權(quán)歸屬不清。
對(duì)以上挑戰(zhàn),我們也逐步完善了不少安全措施,例如:進(jìn)行訪問控制和隔離,實(shí)施多租戶訪問隔離措施,數(shù)據(jù)安全分類分級(jí)劃分,支持基于標(biāo)簽的強(qiáng)制訪問控制,提供基于ACL的數(shù)據(jù)訪問授權(quán)模型,提供數(shù)據(jù)視圖的訪問控制。并提供數(shù)據(jù)脫敏和加密功能、統(tǒng)一的密鑰管理和訪問鑒權(quán)服務(wù)、數(shù)據(jù)訪問審計(jì)日志等等。
值得重點(diǎn)注意的,數(shù)據(jù)血緣分析技術(shù)是解決數(shù)據(jù)濫用的關(guān)鍵手段,通過數(shù)據(jù)血緣的追蹤,我們能確認(rèn)數(shù)據(jù)的源頭、OWNER和數(shù)據(jù)的流向。
這樣我們可以提供采集、存儲(chǔ)、使用、傳輸、共享、發(fā)布、銷毀等基于數(shù)據(jù)生命周期的具體信息,有的放矢的去進(jìn)行管理措施。特別是解決數(shù)據(jù)產(chǎn)生方和使用方、挖掘方的權(quán)利關(guān)系,有利于數(shù)據(jù)確權(quán)后避免濫用的情況發(fā)生。
數(shù)據(jù)血緣間接提供了一種合規(guī)機(jī)制,用于審計(jì)、改進(jìn)風(fēng)險(xiǎn)管理,并確保數(shù)據(jù)的存儲(chǔ)和處理符合數(shù)據(jù)治理政策和法規(guī)。例如,2016 年制定了 GDPR 立法,以保護(hù)歐盟和歐洲經(jīng)濟(jì)區(qū)人員的個(gè)人數(shù)據(jù),讓個(gè)人能夠更好地控制自己的數(shù)據(jù)。
在美國(guó),加利福尼亞州等個(gè)別州制定了《加利福尼亞消費(fèi)者隱私法》(CCPA) 等政策,該法案要求企業(yè)告知消費(fèi)者其數(shù)據(jù)的收集情況。這種類型的立法使這些數(shù)據(jù)的存儲(chǔ)和安全成為重中之重,如果沒有數(shù)據(jù)血緣分析技術(shù)或者相關(guān)工具,組織會(huì)發(fā)現(xiàn)不合規(guī)問題是一項(xiàng)耗時(shí)且昂貴的工作。
數(shù)據(jù)血緣是數(shù)據(jù)精細(xì)化管控時(shí)代的一把利器,如果企業(yè)能夠用好它,必將在數(shù)據(jù)資產(chǎn)領(lǐng)域大有可為。
本文由人人都是產(chǎn)品經(jīng)理作者【老司機(jī)聊數(shù)據(jù)】,微信公眾號(hào):【老司機(jī)聊數(shù)據(jù)】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!