數據中臺建設的目的是什么?如何理解數據中臺?
文章就和大家聊聊我們對于“數據中臺”的理解,以及和“數據智能的技術體系”間的區別。
在上一篇文章《行業前沿:互聯網人必須讀懂的“數據智能”》中,我們概括性地闡述了對“數據智能”的理解,先做個簡單的總結:
數據智能的定義:
數據智能就是以數據作為生產資料,通過結合大規模數據處理、數據挖掘、機器學習、人機交互、可視化等多種技術,從大量的數據中提煉、發掘、獲取知識,為人們在制定決策時提供有效的數據智能支持,減少或者消除不確定性。
數據智能的技術體系至少需要包含三個方面:數據治理系統、數據質量保證系統、數據安全計算體系。
最近一段時間,在“新基建”浪潮的推動下,“數據中臺”這個詞異?;馃帷S谑怯腥藛柫宋覂蓚€問題:“數據中臺”與這個系列的核心“數據智能的技術體系”有什么區別?你們是怎么理解“數據中臺”這個概念的呢?
順著這兩個問題,這篇文章就和大家聊聊我們對于“數據中臺”的理解,以及和“數據智能的技術體系”間的區別。
再從數據的價值談起
數據的產生來源于我們的產品和服務所提供的直接價值。以打車軟件為例,因為APP需要提供給乘客所在地點周圍的司機信息,因此系統需要及時收集司機的位置以及車載乘客狀態以確定是否可被調度,然后把乘客的轎車需求發送給設定參數范圍內的可用車輛。司機在進行搶單或者配單后,就可以接上乘客并按照導航送至目的地。
在這個過程中,乘客的上車位置、下車位置、司機車輛的位置、狀態以及車輛行駛過程中的位置信息等數據都是為“打車”這個動作的直接價值服務。
正如大家所知,我們可以利用這些幾千幾萬輛車的位置信息,聚合出每個道路的交通狀況,再把這些知識提供給交通優化等。這就是數據的擴展價值,數據的多種價值匯總起來就是數據的選擇價值。
再打個比方,數據的首要價值被挖掘后仍能夠不斷給予,它的真實價值就像漂浮在海洋中的冰山,絕大部分被隱藏在表面下。數據的選擇價值也就是“取之不盡,用之不竭”的數據創新成果。這些數據創新并不是事先就規劃好或者事先都能想到的。
那么為了保證這種創新的可能性,我們需要讓這些數據都能被保存下來,而不是在實現了直接價值后,就棄之如敝屣。這個也是接下來要提到的“數據湖”的由來。
數據湖與數據倉庫
數據湖的概念是2011年提出的。由于無法對已流失的數據進行回溯,一些大數據廠商在Hadoop為基礎的技術棧上,把一個組織中產生的原始數據存儲在一個單一的系統中。一般大家會用開源的Hadoop來構建數據湖,不過數據湖的概念比Hadoop更為廣泛。
看到數據湖,大家肯定會想到數據倉庫或者數據集市,那么兩者的區別在哪里呢?我們先來看看下面的這個圖。
圖 1 數據湖示意
數據湖存儲數據源提供的原始數據,沒有對數據的形式進行任何假設。每個數據源可以使用其選擇的任何形式,最終數據的消費者會根據他們自己的目的來使用數據,這是數據湖區別于數據倉庫的一個非常重要的原因。同時,這也是數據倉庫沒有走得更遠的原因,因為數據倉庫首先需要考慮數據方案(schema)。
圖 2 數據倉庫示意
數據倉庫傾向于為所有分析需求設計一個總體的方案表示,但是實際上即使是一個非常小的組織,想要通過一個統一的數據模型來涵蓋一切,也是不太實用的。另外,數據倉庫在使用中會出現數據質量問題:不同的分析需求對數據的構成有不同的質量要求和容忍度。數據倉庫的這個特征導致了漫長的開發周期、高昂的開發成本和維護成本、細節數據丟失等問題的出現。
數據湖在直觀上更像一個數據質量差異很大的數據傾倒場,如果只是聚合后的數據,意味著會丟掉很多數據。數據湖應該包含所有數據,因為你不知道人們可以在什么時候找到有價值的東西,可能是在今天,也可能是在未來幾年的時間里。
數據湖的這種原始數據的復雜性意味著我們可以通過一些方式來將數據轉變成一個易于管理的結構,這樣還可以減少數據的體量,更易于處理。數據湖還是不應該經常性地被直接訪問,因為數據是很原始的,需要很多技巧才能使之變得有意義。一般可以按照下圖來處理,我們可以把它稱為數據湖岸集市。
圖 3 數據湖岸集市
把所有數據放入湖中的一個很關鍵的點是需要有一個清晰的治理。每個數據項應該有一個清晰的跟蹤,以便于知道數據從哪個系統中來以及什么時候產生等,也就是元數據管理、數據血緣以及必要的數據安全。
數據中臺
數據中臺這個概念是阿里巴巴提出來的。隨著業務的快速發展,企業的多條業務線都產生了大量的數據,而且數據都按照不同的形式進行采集、存儲、處理等。為了快速滿足每個前端業務的需求,公司通常會讓前臺直接去聯系后臺。譬如:大部分公司的大后臺就是財務,初始可能比較有效,但是隨著需求越來越多、越來越頻繁,溝通成本大大提高,效率大大降低。
同時,對于一個公司的多個業務來說,哪怕看起來很個性的需求,經過抽象以及合并同類項后,我們發現也可以形成共有的能力。其實,對于后臺的很多功能,同樣可以抽象出來,成為各業務共有的能力。這樣可以讓數據更靈活更敏捷地服務于前臺的各項業務,這個就是數據中臺的初衷。
對于阿里來說,如何更好地把包括自己不同業務的數據、被收購公司的數據在內的多個數據變成One Data , 然后為整個公司的業務服務,也是數據中臺的一個核心目標。
事實上,數據中臺的建設與數字化轉型一樣,其實也是一個螺旋上升的過程,往往需要不斷根據業務變化需求進行完善。哪怕再宏大的數據中臺戰略,也必須要用真實的業務場景去實踐,通過以小到大的場景不斷去鍛煉中臺。
總結而言,數據中臺是練出來的,即數據的復用率決定了數據中臺的成功與否。一個數據中臺的成功意味著不少數據都在進行著重復使用。此外,我們需要注意數據安全策略的執行,包括底層數據安全的實現以及業務層數據的合規使用。
如果一個公司的數據中臺沒有和業務中臺緊密配合,那么這種純粹的數據中臺只是蹭熱點,不會有很大的效果。所以我們認為,更有價值的中臺是業務偏向的數據中臺,而不是通用型的數據中臺。這個觀點,和前阿里數據委員會主席車品覺是一致的。
根據上面的分析,我們建議公司在業務或者產品比較單一抑或數據戰略并不太清晰的情況下,可以建設數據湖,而不是為了建設中臺而去建設。從本系列第一篇文章《數據智能時代來臨:本質及技術體系要求》的整體介紹來看,我們數據智能的體系和數據中臺的目標是一致的。
結語
從我們自身的理解來看,數據智能體系和數據中臺一樣,本質上是把數據作為資產,整理出企業的元數據和數據血緣關系,再以這些數據為中心,抽象出公共服務的能力。最后,讓前端流程的構造和企業的穩定數據公共服務解耦。這樣就沉淀出了公共服務能力,即把這些能力SaaS化。
數據智能體系或者說中臺,最根本的目的是敏捷地支撐業務部門的業務創新需求,打造快速服務商業需求的服務能力,并且盡量實時處理,體現數據的資產化及價值最大化。
我們認為中臺最主要的用戶是數據開發者群體,包括數據研發人員、數據分析及建模人員。建設中臺的目的在于提高他們的效率、降低學習曲線、提高數據質量。
作者:葉新江,個推CTO
本文由 @個推 原創發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自?Unsplash,基于 CC0 協議
本文由 @個推 原創發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
如何把一個單產品打造成一個爆款產品呢?
這話問的,就跟如果能考上清華北大一樣
hhh,
其實光靠中臺這個概念很難被市場接受了 ??
同為產品,也做過中臺,好想去您公司啊
非常好的干貨文章,期待后續更新
大佬講的很贊??