大數據開發與管理架構完整剖析
編輯導語:隨著通信技術的發展,互聯網網民規模呈現出井噴式的增長,在此背景下,通過大數據管理,挖掘其中的價值,實現用戶更好的體驗與服務,成為了當下研究的熱點之一。本文對大數據開發與管理架構進行了詳細的剖析,希望對你有所啟發。
一、為什么要進行大數據開發與管理
在通信技術的大力發展下,互聯網、終端數字設備與傳感器不斷普及,進而呈現用戶數量穩步增長,數據量井噴型增長。2021年中國互聯網統計發展報告顯示全國網民規模達10.11億,數字化應用日漸豐富,涉及生活服務、文娛內容、醫療教育等領域,預計2025年全球每天產生的數據量將達到491EB。
在此背景下,通過管理大數據,挖掘其中的價值為用戶提供更好的體驗與服務成為了當下的熱門研究點之一。
用戶通過線上/線下行為產生的數據推動功能服務優化,更好的服務又反饋服務于用戶,例如:
- 通過采集用戶消費記錄提取特征,計算與用戶偏好匹配度更高的商品進行推薦;
- 通過分析用戶群體行為特征進行未來行為發展預測等。
這樣的形式讓“數據”與“服務”相輔相成形成良性循環,但這兩者是無法直接連通的,中間存在各種問題,例如:
- 數據來源不同、數據類型眾多
- 數據質量參差不齊
- 數據可能重復或缺失
- 不同的服務需要的數據不同,如何提供數據支撐使成本最低
- 海量數據耗費存儲資源
- ……
為了解決這類問題,需要構建“中間服務”——大數據開發及管理,通過提供統一的數據采集、處理與管理服務使數據達到“高質量”“高效率”“輕體量”的狀態。
二、大數據開發與管理分幾步
大數據開發與管理平臺可分為5大模塊:數據采集、整合計算、數據管理、數據安全與數據應用。
1. 數據采集
目的:將多源異構數據匯聚至數據湖中,等待下一步處理。
要做什么:
- 日志數據:對于日志數據可根據未來的分析需求與留痕需求進行埋點采集,通過使用User Track、Aplus.JS或一些自動化埋點工具結合相應規范進行采集。
- 其他數據庫:對于其他數據庫來源的數據需要根據對方數據庫的參數進行配置建立采集任務,同時需要配置存儲庫表參數。
- 意外處理:對于以上兩類數據,在采集過程中可能存在一些意外情況需要處理,例如:一些短時間內來自同一IP的高頻訪問可能是網絡攻擊,不能視為正常操作采集日志;在零點左右采集日志時可能發生數據漂移的情況;數據為null(無效值)需要剔除等。在圖中列舉了一些意外處理情況。
2. 整合計算
目的:對采集來的數據進行清洗、質檢等操作。
要做什么:
- 模型設計:根據上層應用/分析需求進行數據模型設計,這里涉及三個維度的模型:維表(針對某一事物的描述,例如:會員數據、商品數據、店鋪數據)、事實表(某一業務過程的描述,例如:商品收藏數據、下單數據)、指標數據(基于維表或事實表中的原子指標產生的派生指標,結合了時間周期、限定詞等描述信息)。模型設計不僅要定義每個表中的字段還需要定義字段規則、更新時間等參數。
- 數據清洗/質量檢測:根據字段映射關系與模型設計中的字段規則對數據進行清洗,根據清洗情況出具相應的質量檢測報告。
- 任務調度:根據計算資源、實時性等因素對計算任務進行合理調度分配。
3. 數據管理
目的:對原始數據、經過處理的數據等資源進行分層管理,合理配置存儲資源。
要做什么:
- 分層管理:對于不同階段產生的數據需要分別進行管理,以便每一步處理留痕方便后續歷史追溯。主要分為5部分:ODS(Operation Data Store 數據源頭層)、DWD(Data Warehouse Details 數據細節層)、DWS(Data Warehouse Service 數據服務層)、ADS(ApplicationData Service 應用數據服務)、DIM(Dimension 維表層)。
- 存儲成本管理:由于數據產生量巨大,同時還伴隨需保留中間處理結果,所以存儲成本需要進行相應控制,控制方式有4種:數據治理、數據壓縮、數據生命周期管理、模型優化。
4. 數據應用
目的:將處理好的數據對外提供展開應用。
要做什么:
- 應用支撐:對于需要數據支撐的系統與模塊提供服務。首先,需要對各維度進行模型構建,例如:商品、用戶、會員等。建立描述完整的寬表;其次,需要梳理數據域、業務流程、各項原子指標與派生指標,定義各項指標口徑,選擇合適的模型構建方法(例如:雪花模型、星型模型)進行關聯構建,構建好的專題庫(也可稱之為業務塊)向上提供服務。
- 開放接口:組織數據資產中的部分字段為接口,定義請求與相應參數并將其開放至數據市場中,用戶可根據需求進行訂閱申請。
5. 數據安全
目的:保證數據安全可追溯。
要做什么:
- 日志審計:對關鍵操作進行數據埋點,采集日志數據進行審計。
- 安全預警:構建預警模型,配置關鍵性指標報警等級與閾值,預警后相關人員會通過各類渠道收到通知。
- 數據脫敏: 在涉及安全數據或者一些商業性敏感數據的情況下,需要對某些敏感信息通過脫敏規則進行數據的變形實現隱私保護。
- 簽章水?。簩D片、視頻等文件進行可見/不可見水印加密并根據業務需求進行簽章明確權責。
本文由@丸子不愛吃丸子 原創發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于CC0協議
評論
感謝分享,建立描述完整的寬表;其次,需要梳理數據域、業務流程、各項原子指標與派生指標,定義各項指標口徑,選擇合適的模型構建方法(例如:雪花模型、星型模型)進行關聯構建,構建好的專題庫(也可稱之為業務塊)向上提供服務。