一則小故事科普:數(shù)據(jù)治理到底怎么弄?

4 評論 6191 瀏覽 41 收藏 11 分鐘

文章以數(shù)據(jù)產(chǎn)品經(jīng)理老曹和數(shù)據(jù)開發(fā)工程師大熊對話的這則小故事,來給大家科普一下,數(shù)據(jù)治理到底是怎么去弄呢?

最近,前同事老曹跳槽到去了一家初具規(guī)模的互聯(lián)網(wǎng)公司,作為剛入職公司的第一位數(shù)據(jù)產(chǎn)品經(jīng)理,在數(shù)據(jù)質量這塊,明顯感覺到了前所未有的焦慮和心酸:

數(shù)據(jù)分析師翠花:

老曹,今天的數(shù)據(jù)又沒有產(chǎn)出,咋回事?。课疫€忙著寫分析報告呢?。。?/p>

數(shù)據(jù)產(chǎn)品經(jīng)理老曹:

呃……你等等,我和數(shù)據(jù)開發(fā)工程師大熊一起看看。

于是,老曹急忙跑到數(shù)據(jù)開發(fā)工程師大熊身邊,氣喘吁吁的說:

大熊,今天數(shù)據(jù)的pipeline是不是又掛掉了???

數(shù)據(jù)開發(fā)工程師大熊一臉迷茫的看著老曹,膽怯的說到:

“我也不知道啊,我手動查查看吧?!?/p>

數(shù)據(jù)產(chǎn)品經(jīng)理老曹有點暴躁了,一臉問號的說:

數(shù)據(jù)沒有產(chǎn)出或者有問題,你們都不做報警的嗎?

數(shù)據(jù)開發(fā)工程師大熊低下了頭,一言不語。

老曹有點忍不了了,拖過來一個畫板,開始給大熊科普下數(shù)據(jù)治理應該怎么搞。

產(chǎn)品千萬種,數(shù)據(jù)第一條,建設不規(guī)范,公司兩行淚。

作為一個在大數(shù)據(jù)領域工作多年的數(shù)據(jù)產(chǎn)品經(jīng)理,我覺得數(shù)據(jù)中特別重要的就是數(shù)據(jù)質量,隨著業(yè)務發(fā)展,數(shù)據(jù)量呈爆炸式增加,數(shù)據(jù)發(fā)揮的價值越來越大,數(shù)據(jù)質量問題也變得越來越嚴重,低質量的數(shù)據(jù)不僅使用不便,還會誤導決策,甚至災難性的結果,數(shù)據(jù)質量的好壞,決定了數(shù)據(jù)是否能夠真正發(fā)揮價值。

數(shù)據(jù)開發(fā)工程師大熊低著頭說:

你說的這些,我都懂,但是總感覺數(shù)據(jù)質量有點虛,應該從哪些方面來衡量它呢?

老曹接著往下說:

是的,那么如何判斷數(shù)據(jù)質量的高低呢?什么樣的數(shù)據(jù)是高質量的呢?

引用美國著名的質量管理學家朱蘭博士(J.M.Juran)的一句話:If they are fit for their intended in operations, decision making and planning.翻譯一下,就是,如果根據(jù)這些數(shù)據(jù)做出的操作、決策和規(guī)劃,符合之前的預期,那么這些數(shù)據(jù)就是高質量的,換個角度來理解,高質量的數(shù)據(jù)可以真實反映它們所代表的主體信息。

結合大數(shù)據(jù)與業(yè)務經(jīng)驗,在從定性的角度來看,影響數(shù)據(jù)質量的因素包括數(shù)據(jù)完整性、數(shù)據(jù)正確性、數(shù)據(jù)一致性、數(shù)據(jù)的可獲取性以及數(shù)據(jù)的時效性等方面。

  • 其中,數(shù)據(jù)的完整性是指業(yè)務涉及到數(shù)據(jù)是完整的,能夠對業(yè)務使用影響很大的數(shù)據(jù)都要保持一定的完整性;
  • 數(shù)據(jù)的正確性要滿足準確性和精準性兩方面,即數(shù)據(jù)要是準確無誤的,數(shù)據(jù)要在精度上滿足業(yè)務需求;
  • 數(shù)據(jù)的一致性要滿足同一個指標的口徑要一致,數(shù)據(jù)不要有二義性;
  • 數(shù)據(jù)的可獲取性是指使用數(shù)據(jù)的時候,數(shù)據(jù)是被有效組織的,并且能夠被高效獲?。粩?shù)據(jù)的時效性指使用的業(yè)務數(shù)據(jù)都是最新的,而不是無效的過期數(shù)據(jù)。

數(shù)據(jù)開發(fā)工程師大熊越聽越有興趣,抬起頭說:

我們程序員都比較關注架構和具體實現(xiàn),有沒有一些架構和方案可以分享下???

數(shù)據(jù)產(chǎn)品經(jīng)理老曹點點頭,覺得能夠起到一定效果了,抓緊跟他說:

“影響數(shù)據(jù)質量的因素又有很多,包括數(shù)據(jù)埋點質量、數(shù)據(jù)傳輸過程中出現(xiàn)的問題,數(shù)據(jù)口徑是否一致等等,因此,為了保證數(shù)據(jù)質量,有資源和精力的公司會搭建自己的數(shù)據(jù)管理系統(tǒng),這個圖就是數(shù)據(jù)管理中心產(chǎn)品架構,主要包含指標體系管理、全局數(shù)據(jù)管理、元數(shù)據(jù)管理等。另外,在數(shù)據(jù)安全性的前提下,還可以通過全局數(shù)據(jù)接口對外輸出高質量的數(shù)據(jù)?!?/p>

今天的數(shù)據(jù)又沒出來!咋回事?

邊說老曹邊畫了一個數(shù)據(jù)管理中心的產(chǎn)品架構圖。然后接著給大熊講到:

以數(shù)據(jù)管理系統(tǒng)為例,它側重于從時效性和數(shù)據(jù)一致性這兩大質量方向保證數(shù)據(jù)的可讀性。

首先,要做數(shù)據(jù)倉庫的數(shù)據(jù)時效性檢查。

明確每天的每一個層級、每一個數(shù)據(jù)表的最早和最晚生成時間,發(fā)現(xiàn)影響當天數(shù)據(jù)生成延誤的數(shù)據(jù)表,并能夠通過數(shù)據(jù)管理系統(tǒng)回答以下問題:

當天 MySQL 表和 Hive 表中的核心指標是何時生成的?有哪些表的產(chǎn)出時間比預期時間延遲了?任務延遲的原因是由哪幾張表造成的?瓶頸在哪里?優(yōu)化哪幾層?哪幾張表可以提高核心指標等的生成時間?

大熊一聽,趕緊問道:

這個是不是要給我打KPI啊,如果我的任務延遲會不會給我扣工資?。?/p>

數(shù)據(jù)產(chǎn)品經(jīng)理老曹趕緊補充說:

你想多啦,我給你畫一下這個原型,你就知道拉,他的目的是了解任務的延遲情況,然后還能為以后的復盤使用,不是為了就揪小辮子??!

今天的數(shù)據(jù)又沒出來!咋回事?

數(shù)據(jù)產(chǎn)品經(jīng)理老曹接著說:

然后,就是要做數(shù)據(jù)倉庫的數(shù)據(jù)一致性檢查。

通過數(shù)據(jù)一致性檢查,在數(shù)據(jù)質量視圖的展現(xiàn)下,我們可以快速了解存在依賴關系的數(shù)據(jù)表的分維度數(shù)據(jù)變化情況。

為了對數(shù)據(jù)一致性進行檢查,大數(shù)據(jù)管理系統(tǒng)項目需要做的事情主要分為以下幾步:

  • 第一步,建立數(shù)據(jù)依賴引擎,實現(xiàn)依賴圖譜。依賴圖譜用于構建數(shù)據(jù)倉庫表之間的分層級依賴關系,然后存入MySQL表并能支持可視化展現(xiàn)。
  • 第二步,計算數(shù)據(jù)準備情況。各個表、各個分區(qū)的數(shù)據(jù)準備就緒時間按天、小時級進行匯總。根據(jù)Hive倉庫的Meta信息可以獲取Hive表各個分區(qū)的創(chuàng)建時間,根據(jù)創(chuàng)建時間確定數(shù)據(jù)的實效性,用來分析展現(xiàn)每天、每小時的狀態(tài)和瓶頸。如果需要對MySQL進行驗證,則通過SQL語句查詢的方式獲取對應時間在MySQL中是否存在。
  • 第三步,建立數(shù)據(jù)計算引擎。根據(jù)定義的小時級指標、天級別指標規(guī)則,結合數(shù)據(jù)表各個分區(qū)的準備就緒時間,調用Spark SQL計算核心指標。
  • 第四步,數(shù)據(jù)比較引擎。根據(jù)表和表之間核心指標的關系、表和表之間的規(guī)則進行比較驗證。例如,A = B,A + B = C,B/A < 0.95等邏輯判斷。

大熊仿佛懂了很多,補充說:

這里是不是可以有數(shù)據(jù)的血緣管理來展示?

今天的數(shù)據(jù)又沒出來!咋回事?

老曹表示認同的點點頭,豎起來大拇指。

是的,數(shù)據(jù)的血緣管理可以用來很形象的展現(xiàn)數(shù)據(jù)表之間的依賴關系,這只是一種展現(xiàn)方式,最重要的還是要根據(jù)比較引擎,找出數(shù)據(jù)異常的任務,然后給你及時發(fā)異常通知啊!

大熊撓撓頭,不好意思的說到:

是啊,還需要及時提醒我數(shù)據(jù)有問題,要不我根本感知不到,現(xiàn)在睡覺都害怕。有這個系統(tǒng)就方便多了,還能快速幫助我定位問題,簡直就是數(shù)據(jù)開發(fā)工程師的福利啊,咱們啥時候搞一個啊。

數(shù)據(jù)產(chǎn)品經(jīng)理老曹看大家已經(jīng)意識了數(shù)據(jù)質量管理平臺的價值,補充道:

當然是越快越好了,提升了數(shù)據(jù)質量,這樣你就有更多的時間約妹子出去吃飯啦!

大熊臉一紅:

你這么一說人家怪不好意思的,不過說的很對,趕緊搞起來吧!

#專欄作家#

大鵬,公眾號:一個數(shù)據(jù)人的自留地。人人都是產(chǎn)品經(jīng)理專欄作家《數(shù)據(jù)產(chǎn)品經(jīng)理修煉手冊》作者。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉載

題圖來自Unsplash,基于CC0協(xié)議

作者:明明

本文由@一個數(shù)據(jù)人的自留地 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載。

題圖來自Unsplash,基于CC0協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 謝謝,學習!

    來自廣東 回復
  2. 對于沒有做規(guī)范化之前的歷史數(shù)據(jù)沒辦法梳理。
    還有 有時候業(yè)務需求不斷變化,還有一些活動頁面用完就扔或者復用,埋點也是跟需求走,埋點怎么做到系統(tǒng)化呢?

    來自河南 回復
  3. 大家期待已久的《數(shù)據(jù)產(chǎn)品經(jīng)理實戰(zhàn)訓練營》終于在起點學院(人人都是產(chǎn)品經(jīng)理旗下教育機構)上線啦!

    本課程非常適合新手數(shù)據(jù)產(chǎn)品經(jīng)理,或者想要轉崗的產(chǎn)品經(jīng)理、數(shù)據(jù)分析師、研發(fā)、產(chǎn)品運營等人群。

    課程會從基礎概念,到核心技能,再通過典型數(shù)據(jù)分析平臺的實戰(zhàn),幫助大家構建完整的知識體系,掌握數(shù)據(jù)產(chǎn)品經(jīng)理的基本功。

    學完后你會掌握怎么建指標體系、指標字典,如何設計數(shù)據(jù)埋點、保證數(shù)據(jù)質量,規(guī)劃大數(shù)據(jù)分析平臺等實際工作技能~

    現(xiàn)在就添加空空老師(微信id:anne012520),咨詢課程詳情并領取福利優(yōu)惠吧!

    來自廣東 回復
  4. fsdfsdfs

    來自廣東 回復