從數(shù)據(jù)源到數(shù)據(jù)可視化的全鏈路解析
有時(shí)候,企業(yè)中存留的大量數(shù)據(jù)之間沒有很好的連接,數(shù)據(jù)無法被很好地使用,會(huì)導(dǎo)致數(shù)據(jù)無法支撐企業(yè)的經(jīng)營決策。這個(gè)時(shí)候,我們可以怎樣解決數(shù)據(jù)使用難的問題呢?本文作者便拆解了相應(yīng)案例,一起來看看作者的解決方案。
在傳統(tǒng)IT架構(gòu)下,產(chǎn)生了大量分散的數(shù)據(jù),這些數(shù)據(jù)像煙囪一樣垂直林立,彼此之間無法連接,無法很好的支撐企業(yè)的經(jīng)營決策,也無法應(yīng)對(duì)快速變化的前端業(yè)務(wù)。本案例引入“數(shù)據(jù)工廠”,鏈接數(shù)據(jù)源頭和上層應(yīng)用,對(duì)企業(yè)實(shí)際的生產(chǎn)過程進(jìn)行跟蹤和監(jiān)控,對(duì)關(guān)鍵性指標(biāo)進(jìn)行不同維度的可視化展示和預(yù)警,讓各層級(jí)管理人員,能夠更加直觀的了解企業(yè)現(xiàn)狀,及時(shí)發(fā)現(xiàn)問題和定位問題,提高企業(yè)執(zhí)行過程中的預(yù)警決策能力。
一、企業(yè)數(shù)據(jù)使用難
某客戶在數(shù)字化流程建設(shè)過程中發(fā)現(xiàn)某些業(yè)務(wù)線操作步驟過多、耗時(shí)過長(zhǎng)、風(fēng)險(xiǎn)較高,客戶規(guī)劃出近百個(gè)質(zhì)效指標(biāo),期望能對(duì)質(zhì)效指標(biāo)數(shù)據(jù)進(jìn)行全方位分析,最終通過可視化平臺(tái)展現(xiàn)指標(biāo)數(shù)據(jù)。經(jīng)過現(xiàn)場(chǎng)調(diào)研,發(fā)現(xiàn)客戶的數(shù)據(jù)存在如下問題:
1. 數(shù)據(jù)孤島嚴(yán)重
客戶有很多煙囪式林立的系統(tǒng),系統(tǒng)間數(shù)據(jù)不互通,且底層數(shù)據(jù)存儲(chǔ)架構(gòu)多源、異構(gòu)。
2. 數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一
客戶數(shù)據(jù)繁雜,不同的業(yè)務(wù)線對(duì)指標(biāo)的定義不同,且存在部門壁壘。
3. 開發(fā)資源不到位
數(shù)據(jù)生產(chǎn)鏈路長(zhǎng),且沒有專業(yè)的技術(shù)人員應(yīng)對(duì)數(shù)據(jù)開發(fā),針對(duì)數(shù)據(jù)需求,僅用excel做基礎(chǔ)分析,分析效率低。
4. 數(shù)據(jù)質(zhì)量良莠不齊
各系統(tǒng)起步建設(shè)時(shí)間不同,數(shù)據(jù)落地的硬性要求不同,導(dǎo)致數(shù)據(jù)完整度和準(zhǔn)確率偏低。
5. 數(shù)據(jù)不能重復(fù)利用
分析結(jié)果不共享,每次分析重新取數(shù),不能重復(fù)使用。
二、如何解決數(shù)據(jù)使用難
由于客戶既有系統(tǒng)繁多且孤立、數(shù)據(jù)繁雜、數(shù)據(jù)分析口徑不統(tǒng)一、數(shù)據(jù)質(zhì)量良莠不齊等原因,傳統(tǒng)的BI系統(tǒng)已無法解決企業(yè)面臨的數(shù)據(jù)使用難、數(shù)據(jù)質(zhì)量差、不能重復(fù)使用的問題;
我們決定引入“數(shù)據(jù)工廠”,統(tǒng)一數(shù)據(jù)源,解決客戶質(zhì)效指標(biāo)的落地建設(shè),并把加工后的數(shù)據(jù)輸出給可視化系統(tǒng)使用。
三、數(shù)據(jù)工廠
數(shù)據(jù)工廠需要有數(shù)據(jù)集成、數(shù)據(jù)治理及數(shù)據(jù)服務(wù)能力,通過數(shù)據(jù)采集能力形成統(tǒng)一的元數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)存儲(chǔ)中心;在存儲(chǔ)中心進(jìn)行數(shù)據(jù)的清洗、轉(zhuǎn)換后,按照業(yè)務(wù)維度對(duì)數(shù)據(jù)進(jìn)行歸類建模;最后通過數(shù)據(jù)服務(wù)實(shí)現(xiàn)對(duì)上游應(yīng)用的數(shù)據(jù)開放共享。
1. 數(shù)據(jù)集成
數(shù)據(jù)集成用于將外部數(shù)據(jù)源的數(shù)據(jù)(元數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù))集成進(jìn)統(tǒng)一存儲(chǔ)中心,進(jìn)行統(tǒng)一納管,解決數(shù)據(jù)分散和數(shù)據(jù)效率問題。元數(shù)據(jù)采集任務(wù)采集源端表表名、表結(jié)構(gòu)、存儲(chǔ)位置等,并在存儲(chǔ)中心進(jìn)行標(biāo)準(zhǔn)化定義,消除后續(xù)建模等活動(dòng)字段不統(tǒng)一問題。業(yè)務(wù)數(shù)據(jù)采集任務(wù)一般會(huì)把客戶數(shù)據(jù)集成入貼源層(ODS)模型數(shù)據(jù)表中。
2. 數(shù)據(jù)建模
① 貼源層是數(shù)據(jù)建模的第一層,不做清洗、轉(zhuǎn)換,異常和錯(cuò)誤數(shù)據(jù)處理,將不同來源的數(shù)據(jù)整合到數(shù)據(jù)工廠,保證源系統(tǒng)和貼源層數(shù)據(jù)一致性,便于問題排查。
② 整合層用于數(shù)據(jù)的清洗、轉(zhuǎn)換,異常和錯(cuò)誤數(shù)據(jù)的處理。
③ 明細(xì)模型設(shè)計(jì)包含維度表和事實(shí)表的構(gòu)建。事實(shí)表通過主/外鍵實(shí)現(xiàn)與維度表的關(guān)聯(lián)。事實(shí)表的設(shè)計(jì)是為了度量業(yè)務(wù)過程,通過各種維度和度量來確定業(yè)務(wù)事實(shí)。事實(shí)表一般為業(yè)務(wù)明細(xì)數(shù)據(jù),便于數(shù)據(jù)的聚合和多維分析,后續(xù)的指標(biāo)設(shè)計(jì)都要基于事實(shí)表進(jìn)行。
④ 指標(biāo)設(shè)計(jì)包含原子指標(biāo)、衍生指標(biāo)和復(fù)合指標(biāo)的構(gòu)建,具體構(gòu)建策略,詳見文章《聊聊業(yè)務(wù)指標(biāo)到技術(shù)指標(biāo)的落地轉(zhuǎn)化》。
⑤ 匯總事實(shí)模型圍繞某一主題(維度)進(jìn)行建模,包含維度屬性、衍生指標(biāo)和復(fù)合指標(biāo),在數(shù)倉架構(gòu)中位于匯總明細(xì)層。
⑥ 數(shù)據(jù)應(yīng)用層面向業(yè)務(wù)定制,給數(shù)據(jù)產(chǎn)品或數(shù)據(jù)分析提供結(jié)果數(shù)據(jù)或指標(biāo)數(shù)據(jù)。在實(shí)際業(yè)務(wù)中,經(jīng)過DWS聚合匯總統(tǒng)計(jì)的數(shù)據(jù)往往需要再次加工計(jì)算,才能被前端報(bào)表、分析圖表或儀表盤等使用,應(yīng)用層解決了匯總表數(shù)據(jù)再次計(jì)算使用的問題。
3. 模型計(jì)算
上述建模和指標(biāo)設(shè)計(jì)僅僅創(chuàng)建了模型的計(jì)算邏輯,業(yè)務(wù)數(shù)據(jù)還沉在貼源層表,沒有完成向下計(jì)算。離線計(jì)算任務(wù)用于模型的數(shù)據(jù)邏輯計(jì)算,可根據(jù)模型自動(dòng)生成編排好的、可執(zhí)行的數(shù)據(jù)計(jì)算任務(wù),并通過計(jì)算任務(wù)中心進(jìn)行調(diào)度配置、運(yùn)行和監(jiān)控,通過任務(wù)狀態(tài)、拓?fù)鋱D和實(shí)例日志及時(shí)判斷任務(wù)運(yùn)行情況。
4. 數(shù)據(jù)服務(wù)
數(shù)據(jù)開發(fā)人員根據(jù)數(shù)據(jù)規(guī)模和已知的應(yīng)用場(chǎng)景,使用上述創(chuàng)建的貼源層表、維度表、事實(shí)表和匯總表,在數(shù)據(jù)服務(wù)平臺(tái)快速定義數(shù)據(jù)API,完成接口的測(cè)試、上線,并注冊(cè)至API市場(chǎng)。應(yīng)用開發(fā)人員可以在API市場(chǎng)找到想要的API數(shù)據(jù),發(fā)起API請(qǐng)求權(quán)限申請(qǐng)。審批通過后,數(shù)據(jù)應(yīng)用就完成了數(shù)據(jù)對(duì)接,同一接口可被不同的應(yīng)用調(diào)用。
四、BI分析平臺(tái)
通過數(shù)據(jù)工廠的API服務(wù)或者連接到指定數(shù)據(jù)庫,BI分析平臺(tái)獲取到表和數(shù)據(jù),映射成邏輯表,直接對(duì)加工后的數(shù)據(jù)表做數(shù)據(jù)集管理和處理,儀表板引用這些數(shù)據(jù)集,通過拖拉拽方式制作圖表,幫助用戶快速分析數(shù)據(jù)并洞察業(yè)務(wù)趨勢(shì),從而實(shí)現(xiàn)業(yè)務(wù)的改進(jìn)與優(yōu)化。
本文從解決方案角度宏觀描述了從數(shù)據(jù)源到數(shù)據(jù)可視化的全鏈路過程,并說明了數(shù)據(jù)工廠各模塊實(shí)現(xiàn)的功能及模塊間的流轉(zhuǎn),后續(xù)文章會(huì)逐步細(xì)化各模塊的設(shè)計(jì),期望能對(duì)大家有所幫助。
專欄作家
余田,人人都是產(chǎn)品經(jīng)理專欄作家,數(shù)據(jù)產(chǎn)品經(jīng)理,《用戶至上-用戶研究方法與實(shí)踐》譯者。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
個(gè)人感覺更像《數(shù)據(jù)工廠》這個(gè)產(chǎn)品針對(duì)客戶的售前材料講解,而不是針對(duì)產(chǎn)品經(jīng)理“如何做數(shù)據(jù)分析”的教程。