說透數據建設的四大核心能力

0 評論 2319 瀏覽 18 收藏 23 分鐘

數字化轉型這個概念相信大多數人都不陌生,那么,你知道如果想做好數字化轉型,需要做好哪方面的內容嗎?答案之一,便是數據建設。怎么理解數據建設之于數字化轉型的重要性,以及數據建設中的核心能力?一起來看看本文的分享。

開篇語

近代人類文明的飛速發展和社會面貌的改變,要從開啟工業時代的蒸汽機發明說起,隨著工業革命,人類開啟了技術變革經濟、技術變革政治乃至技術變革生活的技術變革歷程。從工業時代到電子時代,再到信息時代,逐步走進了如今這個數字化和智能化的時代。不管是全球經濟大勢,還是國家頂層設計發文,言必談及“數字化轉型”這樣一個熱門詞匯。

數字化轉型,又包含哪些核心內涵呢?答案是數據。如果做不好數據建設,數字化轉型就如同無根之木,無源之水,因此,數字化轉型必先做好數據建設。

一、數字化轉型

1. 什么是數字化轉型

下面這段話摘自MBA智庫的“數字化轉型”詞條解釋:

數字化轉型是指順應新一輪科技革命和產業變革趨勢,不斷深化應用云計算、大數據、物聯網、人工智能、區塊鏈等新一代信息技術,激發數據要素創新驅動潛能,打造提升信息時代生存和發展能力,加速業務優化升級和創新轉型,改造提升傳統動能,培育發展新動能,創造、傳遞并獲取新價值,實現轉型升級和創新發展的過程。

從大背景上來說,為什么“數字化轉型”浪潮正在席卷全球呢?

簡言之,數字化轉型已成為企業適應數字經濟,謀求生存發展的必然選擇。特別是對于中國,經歷連續高速增長,中國經濟增長已經由高速增長,轉入低速增長和高質量驅動的階段。面對產業結構調整、資源環境挑戰、數字技術與創新帶來的行業顛覆與機遇,中國企業逆水行舟,不進則退。因此,應對新環境和新時代的挑戰,企業轉型勢在必行。

2. 數字化轉型的關鍵

我們已經知道了數字化轉型的重要性和必要性,那么,數字化轉型要成功,關鍵在于什么呢?人、信息與基礎架構。

具體來說,數字化轉型要做的就是將人的創造力、由信息衍生的智慧與結合萬物和流程的連接性這三大關鍵價值驅動因素匯集起來。

3. 數字化轉型的相關技術

俗話說:工欲善其事,必先利其器。

那么數字化轉型的“利器”是什么?技術。

需要哪些技術?筆者羅列如下。

  • 云平臺:基于硬件的服務,提供計算、網絡和存儲能力。
  • 移動化:在綜合通信平臺基礎上,通過應用、服務及網絡三個層面,實現管理和服務的移動化、電子化和網絡化,向社會提供高效優質等全方位管理與服務。
  • 物聯網:通過智能感知、識別技術與普適計算、泛在網絡的融合應用,實現智能化識別和管理。
  • 人工智能:通過普通電腦實現的智能化。
  • 網絡分析:依托網絡拓撲關系,考察網絡元素的空間及屬性數據,對網絡性能進行多方面分析。
  • 互聯網安全:使網絡系統的硬件、軟件及其系統中的數據受到保護。
  • 云計算:通過網絡以按需、易擴展的方式獲得所需的服務。
  • SDCI(軟件定義互聯基礎架構):增強數據中心虛擬化的收益,提高資源靈活性和利用率。

4. 數字化轉型與數據建設的聯系

雖然數字化轉型的相關技術里并沒有提到大數據、數據建設等關鍵詞,但所提到的云平臺、云計算、人工智能等,則是個個都離不開數據建設和應用。云平臺所提供的存算能力正是為了數據服務的,云計算所提供的服務也大多是以數據結果的方式,而人工智能則是完全的以數據為載體的應用和服務。因此,數據建設是數字化轉型這個系統工程的核心子工程。

二、數據建設

1. 數據中臺

有人說,在數字化時代,數據將成為地位等同于黃金、石油等稀缺物質資源的新型戰略資源。如果把數據比作石油,數據最終的價值變現則是體現在所有會用到“石油”的場景里。那么數據這種“石油”是直接就可以應用并產生價值了嗎?那肯定是不行的,需要“煉油廠”。

“煉油廠”是什么?就是數據中臺。

數據將由數據中臺進行“采集”->“加工提純”->“分發應用”的整個鏈路,最終轉化為數據應用或者數據服務提供業務價值。

而在這個場景里,數據中臺的價值是什么?

數據中臺的價值在于——讓數據穩定持續地發揮業務價值,實現業務賦能。

2. 數據生產消費全鏈路

數據生產消費全鏈路如下圖所示。

從圖中我們可以知道,要實現整個全鏈路的搭建和穩定持續地產生價值,需要做很多個模塊的構建和協同,經過進一步抽象和提煉,其實是要依托四大核心能力,分別是:數據采集、數據開發、數據管理和數據應用。

3. 數據中臺架構

對于數據中臺架構,業界內基本上都是大同小異的,這里放一個相對標準的以供參考。

4. 四大核心能力

1)數據采集

首先,數據采集是整個數據全鏈路的源頭。數據采集解決的是什么問題?數據來源。整個數據鏈路上,到底有哪些數據資源可以用來做加工?獲取這些數據資源的時效性如何,有延遲還是實時?這是由數據采集決定的,更深一層,這也是由需求和終端業務場景所決定的。

為了把這個問題說得更清晰一點,這里舉個簡單的例子。

我們投入了很大的精力和成本,把來自業務系統的訂單數據采集做成了實時同步(即每當業務系統中產生了一條新的訂單數據,馬上就采集過來了),但實際在數據應用上,不管是看數(使用數據看板等可視化功能)、分析(使用BI等數據分析功能)還是取數(使用自助取數功能),用戶都僅僅是拉取以月粒度為主的數據來使用,對數據更新的敏感程度最多到天這個粒度,并且有沒有當天的數據參與分析,也不是特別重要。

那么這時候,我就會發現,至少在數據采集這個工作上,“殺雞”用上了“牛刀”。雖然我們在技術上很厲害,支持到了實時級別的同步更新,但實際上投產比很低,并不是一個好的實踐。

這個例子想要說明的是,在數據采集的實務落地上,應面向需求制定方案,而不是面向技術。

除了切合需求本身,想要做好數據采集,還需要關注哪些關鍵點呢?

① 打破數據孤島

在兼顧技術可行性和成本的情況下,能夠盡可能地連接與業務相關的數據資源,是打破數據孤島的路徑。除了打通業務系統獲取主業務流中的數據以外,格局還可以放大一些,我們還可以去關注公司自研系統之外的數據來源,比如公司外采的系統(常見的如SAP的業財、ERP、WMS等系統)、公司在第三方電商平臺/渠道上開展了線上業務所沉淀在平臺上的數據、公司競對的市場競爭數據、公司業務相關的流量/信息渠道的聲量、輿情、用戶興趣偏好等非結構化數據(如百度搜索、抖音、小紅書等)。

② 解決多源異構問題

在我們的努力下,數據孤島被各個擊破,隨著數據來源的逐步豐富,數據的多源異構問題浮上水面,這是必須要解決的問題,它決定了數據效率的上限和數據質量的下限。

玩過文明系列電腦游戲的應該都知道,在邁向工業化時代及工業化走向成熟時期的標志性事件是什么?零件標準化。這個道理對標到這里,也是一樣的。解決多源異構問題的過程,就是源數據標準化的過程。在數據采集環節解決多源異構問題是數據標準化工作的第一道關卡。

③ 源數據質量管控

說到數據質量,其實這是整個數據建設和治理工作中的一個專題了,甚至可以專門為了管理好數據質量做一個系統,這屬于數據管理的范疇。但為什么把“源數據質量管控”放到數據采集這里來說呢?那是因為要保證最終的數據質量達標,源頭是重中之重。就好比污水治理,如果不把控好上游的源頭,下游花重金治理一定是事倍功半的。

怎么做好源數據質量管控?需要在數據同步進來的時候做好把關。一些很明顯的數據質量問題,如空值、數據取值不合邏輯、數據結構混亂等,是很容易發現的,這一類數據一經發現就應該拒絕入湖,并且反饋問題到業務系統的產研團隊,明確要求整改,整改完畢后再行補數。

④ 采集SDK必要性辯證

像字節跳動的火山引擎出品的DataLeap套件,就提供了采集SDK的功能,即用戶可自行配置SDK完成個性化的數據連接和采集入湖。采集SDK做還是不做的必要性,需要具體情況具體分析,需要根據自身的業務需求和場景、數據資源分布情況、可投入技術資源等進行辯證后得出結論。

2)數據開發

對于數據開發,其實就是需要給出一套工具和規范來承載整個數據存儲、計算和開發的過程,并且盡可能使這個過程標準化、高效率和可控。

比如在工具層面,很多大廠都已經完成了商業化封裝并提供了一整套數據開發套件,感興趣的同學可以去搜索DataLeap(火山)、DataWork(阿里)、TBDS(騰訊)等產品白皮書和技術文檔以作詳細的對比和了解。

再比如在工具集成開發流程和規范方面,美團、嗶哩嗶哩都有被稱為“一體化建?!钡膬炐銓嵺`。

總之,在數據開發這個能力下,我們關注的是:

  • 數據存哪里?遷移和備份怎么搞?
  • 整合與完善
  • 數據建模的規范性、健壯性和可擴展性
  • 從業務流到數據流的抽象與組織
  • 數據范圍與實體
  • 數據分層建模、維度建模等方法論的代碼層落地
  • 數據開發的質量管控,CodeReview機制

以上,不一而足。

3)數據管理

關于數據管理,又有些什么內涵呢?如果有讀者感興趣,希望詳細了解,筆者推薦一本書《DAMA數據管理知識體系指南》。這本書不僅系統性地把數據管理范疇的所有要點做了概述和解析,同時還是數據領域權威認證——數據治理工程師(CDGA)證書的教材用書。

筆者對數據管理范疇的關鍵內涵進行簡單介紹。

① 數據標準

內涵:是指保障數據的內外部使用和交換的一致性與準確性的規范性約束。

應用場景:應用于數據開發、數據質量管理,要點如下:

  • 基于數據標準編制數據質量規則,聚焦業務域和質量問題,持續監控應用情況。
  • 業務術語管理是數據標準管理的基礎性工作。

② 數據資產管理

內涵:對數據資產進行規劃、控制和供給的一組活動職能。

兩個關鍵環節:

數據資源化:將原始數據轉變為數據資源,使數據具備一定的潛在價值,是數據資產化的必要前提。以提升數據質量、保障數據安全為工作目標;包括以下活動職能:數據模型管理、數據標準管理、數據質量管理、主數據管理、數據安全管理、元數據管理、數據開發管理等

數據資產化:將數據資源轉變為數據資產,使數據資源的潛在價值得以充分釋放。以擴大數據資產的應用范圍、厘清數據資產的成本與效益為工作重點,并使數據供給端與數據消費端之間形成良性反饋閉環;包括以下活動職能:數據資產流通、數據資產運營、數據價值評估等活動職能。

作用:逐步提高數據價值密度,奠定數據要素化基礎

在實踐中,我們可以通過搭建數據資產管理系統來完成企業級的數據資產管理。數據資產管理系統中需要有以下功能模塊:

數據資產門戶:

提供全局統計企業數據資產情況的功能,讓企業管理者對數據的分布、增長、使用、質量情況有所直觀了解。具體呈現數據包括:

  1. 指標統計:數據源數量、表數量、存儲量、使用量、質量評分。
  2. 趨勢統計:數據分布、數據增長趨勢、數據使用熱度。
  3. 數據排行:數據存儲排行、質量規范排行。

數據地圖:

數據地圖也可稱為“可視化的數據資產中心”,支持查看所有數據表,同時全方位管理數九資產。具體功能點包括:

  1. 數據查找:匯聚所有數據表信息,方便開發人員快速定位,方便業務人員快速查詢,支持依類目、表名、項目、狀態等篩選和檢索。
  2. 元數據卡片:針對某張具體的數據表,在卡片中展示該表的基本信息,如表名、物理存儲大小、生命周期、分區信息、字段列表等,同時支持少量數據預覽。
  3. 數據類目管理:用戶可自定義層級、名稱并將數據表指定到類目節點上。
  4. 審批授權:提供表級別數據權限的管理,當用戶需要跨項目訪問表時,需通過審批授權進行權限申請,審批通過后才可訪問。
  5. 生命周期管理:支持用戶建表時指定生命周期,定時檢測數據更新時間,自動清除超效期數據,釋放存儲空間,降低存儲壓力和成本。
  6. 數據血緣:可自動解析同步任務和SQL代碼,生成表級別、字段級別血緣關系,用戶可查詢每個指標的“來龍去脈”,便于開發人員快速定位排查問題,業務人員深度理解指標。

③ 數據質量

數據質量是整個數據建設和治理工作的“可用基線”。不能保證數據質量的數據體系,即使數據應用建設得再炫酷,那也是“空中樓閣”,既不可信,也不可用。因此,數據質量管理是數據管理中不可或缺的部分。

我們如何衡量數據質量是否達標?看六個維度:完整性、規范性、一致性、準確性、唯一性、及時性。

我們又該如何開展數據質量管理工作呢?如下步驟可供參考:

  • Step1 計劃:參考數據標準->定義數據質量規則庫->構建數據質量評價指標體系->制定數據質量管理策略和計劃。
  • Step2 執行:依托工具,管理內外部要求、規則庫、評價指標體系->確定業務、項目、數據范疇,開展質量稽核和差異化管理。
  • Step3 檢查/分析:記錄稽核結果,分析問題成因,確定責任人,出具報告和整改建議。
  • Step4 改進:建立數據質量管理知識庫,完善管理流程,提升管理效率,優化管理策略。

在數據質量管理這件事上,我們應該遵循兩大原則:源頭治理和閉環管理。

④ 數據安全

數據安全也是數據管理的一項重頭戲,關乎整個企業的合法合規紅線。我們如何保障企業的數據安全?通過包括兩方面的內涵:其一是數據防外泄;其二是數據內部共享需合規。

我們需要做那些工作來實現這兩個內涵呢?

宏觀上,我們需要:組織建立數據安全治理團隊,制定數據安全相關制度規范,構建數據安全技術體系,建設數據安全人才梯隊等。

實務上,我們需要做如下事項:

制度規范類:理解安全需求和監管要求并制定制度體系(包括個人信息保護管理制度、數據分類分級標準規范、合規稽查及安全審計制度)

技術體系類:

  • 搭建工具,識別敏感數據,應用分類分級規范
  • 根據敏感級別,部署防控措施(如權限管控、數據脫敏、數據防泄漏、安全審計等)

改進執行類:總結問題與風險,動態評估規范適用性、有效性并予以更符合實務的調整,持續優化安全管理過程。

4)數據應用

數據應用是整個數據鏈路的最后一個關鍵環節,同時也是最重要的,直接與數據價值體現掛鉤的。所有終端的用戶,都是通過數據應用來消費數據,感受數據價值的。

而相比于前三項核心能力,數據應用能力的最大不同在于:前三項核心能力在業界相對有比較固定或通用的做法和方案,而數據應用能力則是可能呈現“百花齊放”的現象,根據企業所處行業、企業自身、服務用戶、業務場景等不同而具有不同的形態。但總的來說可分類以下幾類:

  • 面向C端用戶的數據產品:比如高德地圖(以地圖為呈現載體的數據產品,但其核心能力支撐來自于數據能力的建設)。
  • 智能化數據產品:比較常見的比如內容生成、內容推薦、智能商品推薦、AI問答機器人等。
  • 可視化數據產品:如數據門戶、業務專題數據看板(如銷售域看板)等。
  • 分析類數據產品:如BI、自助取數、決策分析系統等。
  • 數據服務:一般是指將最終的數據結果封裝為API的形式提供給下游應用的信息服務。

結語

以上內容所探討的主要是數字化轉型的概念,數據建設之于數字化轉型的重要性,數據建設中的四大核心能力內涵及范圍等內容,至于每一項能力具體在應用場景上如何構建,那又是一整個從需求到上線的完整過程和獨立議題了,后續筆者會逐步開專題做詳細分享。希望本篇文章的內容對你有所幫助和啟發。

本文由 @maggieC 原創發布于人人都是產品經理,未經許可,禁止轉載

題圖來自 Unsplash,基于 CC0 協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!