如何從0到1開始做大數據治理(下)

1 評論 9014 瀏覽 21 收藏 8 分鐘

編輯導語:大數據治理的過程對于業務梳理可以起到很大的作用,上篇講了大數據治理的背景、目標、核心,如何從0開始做大數據治理(上);本篇進入實踐環節,聊聊具體如何實施大數據治理、大數據治理的步驟及效果驗證。

04?數據治理的實施

1. 存儲優化

數據膨脹是大數據治理最先要解決的問題,它直接關系到成本問題,解法是進行存儲優化,也就是設計規范化的存儲策略,提高數據的共享程度。

從空間方面思考:

  • 第一個關鍵詞是合并,即合并冗余表;一方面是掃描數據表的依賴關系,上游表相似,表字段也相似,判斷可能是冗余表,只留一個;另一方面把高度重合的表合并,從小表變大表。
  • 第二個關鍵詞是舍棄,即舍棄冗余字段;有些字段并沒有多大存儲意義,或者可以從其他來源處獲取,可以從數據表中剔除。
  • 第三個關鍵詞是拆分,即內容壓縮;例如通過一個數據壓縮節點把大json字段拆分成幾個內容字段,把格式相關的部分舍棄,需要還原的時候再通過數據解壓縮節點逆向還原回來,平均可帶來30%的存儲空間釋放。

從時間方面思考:

  • 第一個關鍵詞是生命周期:合理規劃數據的生命周期,不同層的數據保留時間不一樣。有的需要永久保存,有的不需要永久保存。
  • 第二個關鍵詞是冷熱:對于那些暫時沒有業務調用的冷數據,壓縮歸檔。

如何從0到1開始做大數據治理(下)

除了通用化的策略外,不同行業,不同類型的數據還有自身特性化的治理策略。例如設備在某一個位置停留時間過久,回傳了大量的重復坐標。

2. 計算優化

計算優化的目的,一是節省運算資源,二是提高數據加工處理的速度,縮短數據生產周期。

第一個優化點是避免在異常數據上浪費算力。有些數據雖然格式上沒有問題,但實際上根據業務場景的定義是異常的,可以忽略;還例如某個設備是故障的,將它識別出來后它所產生的數據都不再參與計算。

第二個優化點是識別并應對數據傾斜。所謂數據傾斜有兩種情況,一種是某一塊區域的數據大于其他區域,另一種是某一些數據的大小要遠遠大于平均值;對存在數據傾斜的部分進一步分割,可以加速計算。

第三個優化點是提升核心UDF的性能。UDF 的性能很大程度上決定了處理流程的時間長短。通過代碼審查,找出性能可以優化的節點進行代碼優化;另外,將Python的UDF改成Java的UDF也可以提升一部分性能。

第四個優化點是引擎配置調優,例如開啟數據壓縮傳輸、合理設置map/reduce數、合理應用Hash/Range Cluster索引機制等。

第五個優化點是將MR streaming節點改寫為SELECT TRANSFORM方式,SELECT TRANSFORM的性能很好,而且也更靈活,能夠提高計算節點的可擴展性。

【拓展】SELECT TRANSFORM介紹:

很多時候我們面對的是這么一種場景,SQL內置的函數不能支持把數據A變成數據B的功能,所以我們用一個腳本來實現,而我們又想讓它分布式的執行,這樣的場景可以用使用SELECT TRANSFORM來實現。

SELECT TRANSFORM功能允許SQL用戶指定啟動一個子進程,將輸入數據按照一定的格式通過stdin輸入子進程,并且通過解析子進程的stdout輸出來獲取輸出數據;SELECT TRANSFORM非常靈活,不僅支持java和python,還支持shell,perl等其它腳本和工具。

3. 工具提效

大數據治理需要牽扯到大量的表和節點上線、下線、測試、添加監控等,如果每個環節都需要人工操作,都要耗費很多人力;因此使用一些自動化和半自動工具可以顯著提高效率,減少人工成本。

主要涉及到了數據比對工具、節點批量下線工具、自動化測試工具等。

05?數據治理的步驟

大數據治理與業務的正常發展是同步進行的,這就需要一個平滑的過渡過程。

1. 增量數據灰度平遷

這一步的作用是驗證經過治理后的數據是下游數據應用方可以正常使用的,可以滿足業務方使用數據的需求;主要需要解決好新舊數據表字段映射、字段擴展后數據補錄等問題。

業務的遷移按照灰度原則,先遷業務輕體量小的,后遷業務重體量大的;分批次遷移之后持續跟蹤、分析數據波動情況,一旦發現問題及早修復,以保障數據質量的可靠性。

2. 存量數據遷移

在增量數據上驗證通過后,下一步就是遷移存量數據了;這一步需要關注的是存儲空間的問題,一次性增加太多的新數據存儲,舊數據來不及釋放,會使得存儲壓力大增。

如何從0到1開始做大數據治理(下)

06?數據治理的效果驗證

大數據治理的效果體現在數據存儲成本是否降低、數據產出周期是否縮短、數據質量是否提高、數據量增長勢頭是否減緩等方面。

07 總結

大數據治理的過程是一個很好的梳理現有業務的機會;一次成功的數據治理不僅給企業帶來成本、效能上的改善,還鍛煉了數據團隊,為數據價值體系建設奠定了基礎。

#專欄作家#

大鵬,公眾號:一個數據人的自留地。人人都是產品經理專欄作家,《數據產品經理修煉手冊》作者。

本文原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議。

作者:明明

本文由@一個數據人的自留地 原創發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 寫的有點簡單

    來自山西 回復