離線數據單表集成設計詳解
數據集成平臺可以將外部數據源的數據同步存儲,進行統一管理,其中,按照集成數據的有效性,又可以分為實時數據同步和離線數據同步。這篇文章里,作者就對離線數據集成進行了設計拆解,一起來看看吧,或許會對你有所幫助。
數據集成平臺是“數據工廠”的首站,用于將外部數據源的數據(元數據、業務數據)同步至統一存儲中心,進行統一納管,解決數據分散問題。按照集成表規模分為單表同步、整庫同步,按集成數據時效性分為離線數據同步、實時數據同步。
本文主要對離線批量數據單表同步進行總結,離線數據通道通過定義源端和目標端數據源、數據表,利用數據抽取插件、數據轉換插件、數據寫入插件,實現任意結構化、半結構化數據源之間數據傳輸。
一、數據源管理
對源端數據源和目標端數據源連接屬性的配置管理。
不同項目對數據源的需求不同,所以在做數據源管理設計時要松耦合,數據源類型可擴展,參數配置動態取值。
1. 創建數據源
不同類型的數據源,配置參數也不相同,以MySQL為例,介紹創建數據源頁面。
- 數據源名稱:根據連接的數據源類型,用戶可自定義便于記憶、區分的名稱。
- 數據源編碼:用戶可自定義編碼,用于數據源唯一區分。
- 連接類型:數據源類型,例如GAUSS、GREENPLUM、KUDU、MYSQL、SFTP等。選擇類型后,配置參數動態取值顯示。
- 服務器地址:要連接的數據庫的IP地址或域名。
- 端口號:要連接的數據庫的端口。
- 數據庫名稱:要連接的數據庫名稱。
- 用戶名:用戶賬號。該數據庫用戶需要有數據表的讀寫權限,以及對元數據的讀取權限。
- 密碼:用戶名密碼。
2. 集成平臺對已創建的數據源有以下操作
- 刪除:對已經維護的數據源進行刪除操作,不能刪除已被使用的數據源。
- 編輯:對已經維護的數據源進行修改操作。不能修改連接類型,可修改連接參數。修改連接時,需要重新輸入數據源的登錄密碼。
- 測試連接:測試連接的連通性。
- 查看詳情:展示當前數據源的配置信息。
二、集成任務管理
數據集成平臺架構分上下兩層,上層為命令層,通過制定集成任務,控制下層的執行。命令層會告知執行層數據從哪里來,到哪里去,怎樣去,何時去,執行層負責完成這些指令。
1. 生命周期管理
生命周期管理是對命令層任務從創建到刪除的全生命周期活動的管理,包括創建任務、修改任務、生效任務、運行任實例、失效任務和刪除任務。
通過生效狀態和實例運行狀態標記任務生命周期階段:
- 未生效:創建任務后的默認狀態,或失效成功后狀態,此狀態下可以編輯、刪除任務。
- 已生效:生效任務后的狀態,生效后的任務可以運行實例。
- 運行中:運行/恢復實例成功后實例狀態;此狀態實例可以停止,停止失敗依然為運行中。
- 運行失敗:運行實例失敗后實例狀態。
- 運行停止:已停止的實例狀態,可以恢復。
- 運行結束:采集數據完畢后狀態。
2. 創建集成任務
用戶通過填寫基本信息,配置源端、目標端庫表,確定全量/增量同步,配置字段映射和配置任務執行參數六個步驟,在頁面創建數據集成任務。
選擇數據來源和數據去向后,需要指定讀取端和寫入端列的映射關系,配置字段映射關系后,任務將根據字段映射關系,將源端字段寫入目標端對應類型的字段中。源端表和目標表會按照字段編碼自動映射,也可手動更改映射。源端和目標端的字段操作有:
① 源端數據清洗轉換:點擊色湖之按鈕,使用源端數據庫支持的函數,對字段進行函數處理。
② 為目標字段賦值:通過添加一行的方式,為目標表添加常量、變量。
第三步參數設置是對定時、增量字段、同步并發、流量控制和臟數據控制的設置。
3. 集成平臺對已創建的集成任務有以下操作
- 刪除:對已經維護的集成任務進行刪除操作,只能刪除未生效的任務。
- 編輯:對已經維護的集成任務進行修改操作。不能修改源端和目標端數據源。
- 查看詳情:展示當前集成任務的配置信息。
- 生效/失效任務:對任務生效狀態的變更。
- 運行任務實例:手動運行或定時周期運行任務實例。
- 停止/恢復運行:停止運行中的任務,恢復已停止的實例。
- 查看歷史任務:查看該任務的歷史執行記錄、作業執行的日志信息。
三、集成任務運維監控
此模塊主要查看離線同步任務實例運行情況、監控任務運行狀態和任務運行日志等,從任務運行統計分析詳數據和詳細數據2個方面展示。
- 統計分析數據通過可視化圖表展示同步任務數、同步數據量、同步記錄數、任務運行狀態分布、周期實例及任務趨勢等運維監控指標。
- 任務實例詳情點擊可視化圖表,可以進入詳細數據展示區域,可通過開始運行時間、結束運行時間、任務狀態和任務名稱等條件篩選,快速搜索任務實例,查看該實例的執行情況和錯誤日志。
在當今數字化時代,企業面臨著海量的數據和分散的信息孤島,數據集成成為了解決這一挑戰的關鍵,將數據整合到一統一的數據存儲庫中,以實現數據的一致性、可訪問性和可用性,使企業能夠更好地利用數據進行分析、決策和業務創新。
由于不同來源、不同格式、不同結構和數據范圍不同,導致數據集成面臨的情況多樣復雜,本文僅對離線數據集成進行描述,以后會逐步展開其他。
專欄作家
余田,人人都是產品經理專欄作家,數據產品經理,《用戶至上-用戶研究方法與實踐》譯者。
本文原創發布于人人都是產品經理,未經作者許可,禁止轉載。
題圖來自 Unsplash,基于CC0協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!