數(shù)據(jù)中臺演進的四個階段
數(shù)據(jù)中臺的演進可以分為四個階段,分別是:數(shù)據(jù)庫階段;數(shù)據(jù)倉庫階段;數(shù)據(jù)平臺階段;數(shù)據(jù)中臺階段。筆者將具體介紹這四個階段的數(shù)據(jù)化特點以及發(fā)展歷程。
2009年,阿里云開啟了中國的云時代。
十年市場教育,中國的公有云市場也已經(jīng)從無到有,邁過了300億元大關(guān),預(yù)計到2021年更是能達到900億元的規(guī)模。
「數(shù)據(jù)中臺」已經(jīng)從一個技術(shù)詞匯,慢慢轉(zhuǎn)變成為企業(yè)界的共識:如果想要在信息商業(yè)中擁有一席之地,就必須要借助云計算和數(shù)據(jù)的力量,完成企業(yè)的數(shù)字化轉(zhuǎn)型。
只是,數(shù)據(jù)到底在轉(zhuǎn)型中扮演什么樣的角色,要如何利用好數(shù)據(jù),數(shù)據(jù)上云后如何支持業(yè)務(wù),企業(yè)需要哪些核心能力?這些問題,對于大多數(shù)的非技術(shù)業(yè)者而言,仍然是知其然不知其所以然。
一般而言,「數(shù)據(jù)上云」更多強調(diào)的是數(shù)據(jù)的存儲和計算,而要讓數(shù)據(jù)能夠賦能業(yè)務(wù),則更需要「數(shù)據(jù)中臺」來進行數(shù)據(jù)處理,進而支持業(yè)務(wù)決策和優(yōu)化運營。
這是「數(shù)據(jù)中臺」和「數(shù)據(jù)上云」最大的不同。
一、數(shù)據(jù)中臺最終要幫助企業(yè)降本增效
作為數(shù)據(jù)業(yè)務(wù)領(lǐng)域的先行者,阿里云總裁張建鋒,在最新的演講中,把數(shù)據(jù)智能作為數(shù)據(jù)處理的核心能力:
「今天處理數(shù)據(jù)絕大部分都不是單純靠算力,算力是基礎(chǔ),而主要是靠上面的智能化的算法,算法跟各行各業(yè)的業(yè)務(wù)有密切相關(guān),所以阿里巴巴通過與各行各業(yè)合作,沉淀了一個完整的智能化平臺。我們認為在基礎(chǔ)設(shè)施的云化、核心技術(shù)的互聯(lián)網(wǎng)化以及在之上疊加大數(shù)據(jù)+智能化的平臺和能力,完整地組成了阿里云智能的整體能力框架。這是我們核心的能力?!?/p>
這里面?zhèn)鬟_出了幾個核心信息:
- 云計算為數(shù)據(jù)智能提供了基礎(chǔ)算力;
- 行業(yè)(經(jīng)驗轉(zhuǎn)化而來的)算法是智能處理數(shù)據(jù)的主要工具;
- 數(shù)據(jù)+智能的平臺和能力,前提是基礎(chǔ)設(shè)施的云化和核心技術(shù)的互聯(lián)網(wǎng)化。
這是阿里云所認為的數(shù)據(jù)處理的能力框架,而在目前的市場上,我們通常把這種能力框架稱為「數(shù)據(jù)中臺」。
輿論往往會更強調(diào)技術(shù)的作用,強調(diào)技術(shù)對業(yè)務(wù)的推動作用,但事實上,在商業(yè)領(lǐng)域,更多的時候,技術(shù)發(fā)展都是跟著業(yè)務(wù)走,技術(shù)的發(fā)展常常來自于業(yè)務(wù)需求和業(yè)務(wù)場景的倒逼。
例如,隨著越來越多的企業(yè)把業(yè)務(wù)流程上云,日益增長的數(shù)據(jù)存儲和仍然稀缺的數(shù)據(jù)應(yīng)用就成為了企業(yè)的主要矛盾之一,而且這種矛盾不是一天就能夠解決,需要從業(yè)務(wù)、技術(shù)、組織幾個不同的領(lǐng)域一起來探尋數(shù)據(jù)的解決方案。
簡單來說,「數(shù)據(jù)中臺」就是這一系列解決方案的基礎(chǔ)設(shè)施。
數(shù)據(jù)中臺不是一套軟件系統(tǒng),也不是一個標(biāo)準(zhǔn)化產(chǎn)品,站在企業(yè)的角度上,數(shù)據(jù)中臺更多地指向企業(yè)的業(yè)務(wù)目標(biāo),也即幫助企業(yè)沉淀業(yè)務(wù)能力,提升業(yè)務(wù)效率,最終完成數(shù)字化轉(zhuǎn)型。
直白點說,中臺只講技術(shù),不講業(yè)務(wù),都是大忽悠。
這么多年來,互聯(lián)網(wǎng)的發(fā)展都建立在更低成本、更高效率的連接之上,線下也一定會復(fù)制線上的發(fā)展邏輯,用更多連接帶來更多的數(shù)據(jù)。
比如,通過攝像頭,我們就可以低成本建立顧客的Face ID檔案,從而豐富人和店鋪的關(guān)系數(shù)據(jù),店鋪進而可以根據(jù)數(shù)據(jù)分析結(jié)果,給顧客提供更有針對性的服務(wù)項目。
更多連接,更低成本,更高效率——所有跟流通相關(guān)的線下生意,數(shù)據(jù)中臺的意義就在于降本增效,別無其他。
二、數(shù)據(jù)中臺發(fā)展經(jīng)歷了四個階段
在數(shù)據(jù)史上,2015年是一個重要的關(guān)口:2015年全年產(chǎn)生的數(shù)據(jù)量等于歷史上所有人類產(chǎn)生數(shù)據(jù)的總和,這是數(shù)據(jù)從乘數(shù)型增長全面轉(zhuǎn)向了指數(shù)型增長的方向標(biāo),海量數(shù)據(jù)處理成為全人類的挑戰(zhàn);
同一時間,阿里巴巴向外發(fā)布了DT時代的提法,用Data Technology(DT,數(shù)據(jù)技術(shù))替代了Information Technology(IT,信息科技),強調(diào)數(shù)據(jù)技術(shù)將成為未來商業(yè)的驅(qū)動力。
一個標(biāo)志性的事件是:阿里巴巴用幾百人的運營團隊支撐了幾萬億的GMV,其中60%-70%來源于數(shù)據(jù)支持的機器決策,機器智能賦能業(yè)務(wù),用更低的成本、更高的效率去服務(wù)顧客,提供千人干面的個性化體驗。
未來學(xué)家認為,機器智能最終會超越人的智慧,而這兩者的臨界點就被稱為「奇點」。從這點來說,我們可以認為,阿里巴巴已經(jīng)跨越了奇點,真正成為一家數(shù)據(jù)公司。
下面我們從數(shù)據(jù)的角度來梳理下這個過程。
阿里巴巴的數(shù)據(jù)處理經(jīng)歷了四個階段,分別是:
- 數(shù)據(jù)庫階段,主要是OLTP(聯(lián)機事務(wù)處理)的需求;
- 數(shù)據(jù)倉庫階段,OLAP(聯(lián)機分析處理)成為主要需求;
- 數(shù)據(jù)平臺階段,主要解決BI和報表需求的技術(shù)問題;
- 數(shù)據(jù)中臺階段,通過系統(tǒng)來對接OLTP(事務(wù)處理)和OLAP(報表分析)的需求,強調(diào)數(shù)據(jù)業(yè)務(wù)化的能力。
(數(shù)據(jù)中臺演進的四個階段)
第一個階段-數(shù)據(jù)庫階段
淘寶還只是一個簡單的網(wǎng)站,淘寶的整個結(jié)構(gòu)就是前端的一些頁面,加上后端的DB(DataBase,數(shù)據(jù)庫),只是個簡單的OLTP系統(tǒng),主要就是交易的事務(wù)處理。
這個階段,互聯(lián)網(wǎng)黃頁才剛剛出現(xiàn),數(shù)據(jù)來源大部分還是傳統(tǒng)商業(yè)的ERP/CRM的結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)量并不大,也就是GB的級別。簡單的DB就能滿足需求。
這里要說明的是,OLTP的交易場景和OLAP的分析場景區(qū)別在于:前者強調(diào)高并發(fā)、單條數(shù)據(jù)簡單提取和展示(增刪改查);后者對并發(fā)的要求不高,但是需要打通不同的數(shù)據(jù)庫,比如ERP、CRM、行為數(shù)據(jù)等等,并且能夠進行批量的數(shù)據(jù)處理,也就是通常說的低并發(fā),大批量(批處理)、面向分析(query+計算,用于制作報表)。
隨著淘寶用戶超過100萬,分析需求的比重就越來越大。淘寶需要知道它的交易來自于哪些地區(qū),來自于哪些人,誰在買淘寶的東西等等,于是,就進入了數(shù)據(jù)處理的第二個階段。
第二個階段-數(shù)據(jù)倉庫階段
正如前文所述,OLTP和OLAP對數(shù)據(jù)存儲和計算的需求非常不一樣,前者處理的是結(jié)構(gòu)化的交易數(shù)據(jù),而OLAP對應(yīng)的是互聯(lián)網(wǎng)數(shù)據(jù),而互聯(lián)網(wǎng)里面數(shù)據(jù)量最大的是網(wǎng)頁日志,90%以上的數(shù)據(jù)都是點擊(log)什么的非結(jié)構(gòu)化的數(shù)據(jù),而且數(shù)據(jù)量已經(jīng)達到了TB的級別。
針對分析需求,就誕生了數(shù)據(jù)倉庫(DW,DataWarehouse),我2004年加入阿里,用Oracle RAC搭建了阿里巴巴第一個DW,解決大量數(shù)據(jù)的存儲和計算需求,也就是去把非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù),存儲下來。
這個階段,DW支持的主要就是BI和報表需求。
順帶提一下,數(shù)據(jù)庫(DB)這時也在從傳統(tǒng)DB轉(zhuǎn)向分布式DB。主要原因是以前交易穩(wěn)定,并發(fā)可控,傳統(tǒng)DB能滿足需求,但是后來隨著交易量的增長,并發(fā)越來越不可控,對分布式DB的需求也就出來了。
隨著數(shù)據(jù)量越來越大,從TB進入了PB級別,原來的技術(shù)架構(gòu)越來越不能支持海量數(shù)據(jù)處理,這時候就進入了第三個階段。
第三個階段-數(shù)據(jù)平臺階段
這個階段解決的還是BI和報表需求,但是主要是在解決底層的技術(shù)問題,也就是數(shù)據(jù)庫架構(gòu)設(shè)計的問題。
這在數(shù)據(jù)庫技術(shù)領(lǐng)域被概括為「Shared Everything、Shared Nothing、或Shared Disk」,說的就是數(shù)據(jù)庫架構(gòu)設(shè)計本身的不同技術(shù)思路之爭。
Shared Everything一般是針對單個主機,完全透明共享CPU/MEMORY/IO,并行處理能力是最差的,典型的代表SQLServer。
Shared Disk的代表是Oracle RAC,用戶訪問RAC就像訪問一個數(shù)據(jù)庫,但是這背后是一個集群,RAC來保證這個集群的數(shù)據(jù)一致性。
問題在于Oracle RAC是基于IOE架構(gòu)的,所有數(shù)據(jù)用同一個EMC存儲。在海量數(shù)據(jù)處理上,IOE架構(gòu)有天然的限制,不適合未來的發(fā)展。
阿里巴巴的第一個數(shù)據(jù)倉庫就是建立在Oracle RAC上,由于數(shù)據(jù)量增長太快,所以很快就到達20個節(jié)點,當(dāng)時是全亞洲最大的Oracle RAC集群,但阿里巴巴早年算過一筆賬,如果仍然沿用IOE架構(gòu),那么幾年后,阿里的預(yù)計營收還遠遠趕不上服務(wù)器的支出費用,就是說如果不去IOE,阿里會破產(chǎn)。
Shared Nothing的代表就是Hadoop。Hadoop的各個處理單元都有自己私有的存儲單元和處理單元,各處理單元之間通過協(xié)議通信,并行處理和擴展能力更好。中間有一個分布式調(diào)度系統(tǒng),會把表從物理存儲上水平分割,分配給多臺服務(wù)器。
Hadoop的好處是要增加數(shù)據(jù)處理的能力和容量,只需要增加服務(wù)器就好,成本不高,在海量數(shù)據(jù)處理和大規(guī)模并行處理上有很大優(yōu)勢。
綜上,用一個關(guān)鍵詞來概括第三階段就是「去IOE」,建立Shared Nothing的海量數(shù)據(jù)處理平臺來解決數(shù)據(jù)存儲成本增長過快的問題。在阿里巴巴,前期是Hadoop,后期轉(zhuǎn)向自研的ODPS。
第四階段-數(shù)據(jù)中臺階段
這個階段的特征是數(shù)據(jù)量的指數(shù)級增長,從PB邁向了EB級別,未來會到什么量級,我也說不清楚。
主要是因為,2015年之后,IOT(物聯(lián)網(wǎng))發(fā)展起來,帶動了視圖聲(視頻、圖像、聲音)數(shù)據(jù)的增長,未來90%的數(shù)據(jù)可能都來自于視圖聲的非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)需要視覺計算技術(shù)、圖像解析的引擎+視頻解析的引擎+音頻解析的引擎來轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)。5G技術(shù)的發(fā)展,可能會進一步放大視圖聲數(shù)據(jù)的重要性。
線下要想和線上一樣,通過數(shù)據(jù)來改善業(yè)務(wù),就要和線上一樣能做到行為可監(jiān)測,數(shù)據(jù)可收集,這是前提。線下最大量的就是視圖聲數(shù)據(jù),而這些數(shù)據(jù)靠人來手工收集,肯定是不靠譜的,依靠IOT技術(shù)和算法的進步,最終會通過智能端來自動化獲取數(shù)據(jù)。
要使用這些數(shù)據(jù),光有視覺算法和智能端也不行,要有云來存儲和處理這些數(shù)據(jù),以及打通其他領(lǐng)域的數(shù)據(jù)。
另一方面,從業(yè)務(wù)來看,數(shù)據(jù)也好,數(shù)據(jù)分析也好,最終都是要為業(yè)務(wù)服務(wù)的。也就是說,要在系統(tǒng)層面能把OLAP和OLTP去做對接,這個對接不能靠人來完成,要靠智能算法。
目前的數(shù)據(jù)中臺,最底下的數(shù)據(jù)平臺還是偏技術(shù)的,是中臺技術(shù)方案的其中一個組件,主要解決數(shù)據(jù)存儲和計算的問題;在上面就是一層數(shù)據(jù)服務(wù)層,數(shù)據(jù)服務(wù)層通過服務(wù)化API能夠把數(shù)據(jù)平臺和前臺的業(yè)務(wù)層對接;數(shù)據(jù)中臺里面就沒有人的事情,直接系統(tǒng)去做對接,通過智能算法,能把前臺的分析需求和交易需求去做對接,最終賦能業(yè)務(wù)。
綜合上述兩個方面,我認為未來要做好數(shù)據(jù)中臺,只做云或者只做端都不靠譜,需要把兩者合起來做。智能端負責(zé)數(shù)據(jù)的收集,云負責(zé)數(shù)據(jù)的存儲、計算、賦能。端能夠豐富云,云能夠賦能端。
未來的數(shù)據(jù)中臺,一定是「AI驅(qū)動的數(shù)據(jù)中臺」,這個中臺包括「計算平臺+算法模型+智能硬件」,不僅要在端上具備視覺數(shù)據(jù)的收集和分析能力,而且還要能通過Face ID,幫助企業(yè)去打通業(yè)務(wù)數(shù)據(jù),最終建立線上線下觸達和服務(wù)消費者的能力。
真正做到「一切業(yè)務(wù)數(shù)據(jù)化,一切數(shù)據(jù)業(yè)務(wù)化」。
三、數(shù)據(jù)中臺需要具備三大能力
那么,數(shù)據(jù)中臺是怎么來賦能業(yè)務(wù)使用數(shù)據(jù)的呢?這里舉一個TCIF的例子。
現(xiàn)在大家可能都認識到了統(tǒng)一消費者數(shù)據(jù)的必要性,但是在幾年前,哪怕是在阿里巴巴,消費者的信息也分散在各個業(yè)務(wù)中,碎片化、散點化,而業(yè)務(wù)當(dāng)時需要把這些分散的人的數(shù)據(jù)集中起來,進行人群畫像。道理很明白,人群畫像越清晰,服務(wù)就會越精準(zhǔn)。
怎么統(tǒng)一消費者數(shù)據(jù)?
首先,定義埋點規(guī)范,同一個人就用同一個標(biāo)識,ID打通,也就是所謂的One ID;
其次,還會碰上一家人使用一個登錄帳號的問題,那么就需要建立同人的數(shù)據(jù)模型,通過一些方式,比如,IP網(wǎng)段是不是一樣,來分辨出具體的那個人,建立AID(Alibaba ID);
再次,每個人還有各種網(wǎng)絡(luò)行為,要如何把這些行為結(jié)構(gòu)化,裝到各種框架里面?這個特別難,我們當(dāng)時主要是跟人類學(xué)家合作,一起把行為的分類樹做出來。這個分類樹非常細,甚至能夠把一個人的發(fā)質(zhì)都結(jié)構(gòu)化了。
最后,就需要通過算法模型,把所有的標(biāo)簽都貼回到人上面,當(dāng)時TCIF用上述方式生產(chǎn)出了3000多個消費者標(biāo)簽。
這些標(biāo)簽被阿里巴巴的其他產(chǎn)品所使用,比如阿里媽媽的達摩盤就把這些標(biāo)簽提供給廣告主,讓廣告主能夠通過標(biāo)簽去建立人群畫像,進行人群細分,以及建立投放用的人群包。
從TCIF的例子來看,數(shù)據(jù)中臺未來一定需要具備三種能力。
1. 數(shù)據(jù)模型能力
在業(yè)務(wù)層面,業(yè)務(wù)抽象能夠解決80%的共性問題,開放的系統(tǒng)架構(gòu)來解決20%的個性問題,但同時又要把平臺上的業(yè)務(wù)邏輯分開,因為不同的業(yè)務(wù)邏輯之間可能有沖突。
這在數(shù)據(jù)中臺就表現(xiàn)為數(shù)據(jù)的中心化,也就是數(shù)據(jù)的高內(nèi)聚、低耦合,需要對共性問題抽象出業(yè)務(wù)的規(guī)則,建立數(shù)據(jù)模型。一個好的內(nèi)聚模塊能夠解決一個事情,同時又要降低模塊和模塊之間的耦合度,讓模塊具有良好的可讀性和可維護性。
這里的前提是要有真正懂業(yè)務(wù)能沉淀經(jīng)驗的人,以及要在企業(yè)層面開展數(shù)據(jù)治理,讓數(shù)據(jù)能夠準(zhǔn)確、適度共享、安全地被使用。
2. AI算法模型能力
要實現(xiàn)數(shù)據(jù)業(yè)務(wù)化,前提是做到數(shù)據(jù)的資產(chǎn)化。要能夠從數(shù)據(jù)原油里面,去提煉出可以使用的汽油。
比如說數(shù)據(jù)的標(biāo)簽化,背后就有投入產(chǎn)出比的考量:通過標(biāo)簽,廣告主可以非常方便快捷地去建立自己的人群包,實現(xiàn)精準(zhǔn)營銷;同時投放的ROI也是可見的、透明的,廣告主可以自己去評估數(shù)據(jù)資產(chǎn)的使用情況。
3. 行業(yè)的應(yīng)用能力
行業(yè)的應(yīng)用能力,也就是我們通常說的數(shù)據(jù)業(yè)務(wù)化能力。
和數(shù)據(jù)中心化類似,數(shù)據(jù)業(yè)務(wù)化也需要很強的行業(yè)經(jīng)驗來指導(dǎo),建立合適的業(yè)務(wù)場景,在場景里面去使用數(shù)據(jù),從而體現(xiàn)數(shù)據(jù)的價值,來大大擴展數(shù)據(jù)在行業(yè)中的應(yīng)用能力。
最后總結(jié)一下,未來的數(shù)據(jù)中臺最重要的不單是數(shù)據(jù)的存儲和計算能力,而是要能從「存、通、用」的角度和業(yè)務(wù)結(jié)合,幫助企業(yè)從數(shù)據(jù)中獲取價值,沉淀數(shù)據(jù)資產(chǎn),最終用數(shù)據(jù)賺錢。
本文由 @奇點云 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
其實用不用中臺方案,看企業(yè)有沒有發(fā)展到數(shù)據(jù)繁多但各業(yè)務(wù)使用某些共性的內(nèi)容,如果有,看量級和使用頻率,因為不管什么方案,是解決問題的,問題不可以忽略的情況下,成本ROI越大越好。中臺可以理解為中間件,公共數(shù)據(jù)平臺等,數(shù)據(jù)共享或控制共享的方案
這句總結(jié)的精辟,受教了