從大數(shù)據(jù)的發(fā)展史,看數(shù)據(jù)中臺的核心價值
編輯導(dǎo)語:自從數(shù)據(jù)中臺提出以后,各行各業(yè)都開始推出關(guān)于中臺的應(yīng)用和落實;數(shù)據(jù)中臺的核心價值是什么?所有公司都適合做數(shù)據(jù)中臺嗎?本文作者詳細分析了大數(shù)據(jù)下的數(shù)據(jù)中臺。
“數(shù)據(jù)中臺”是進今年比較火的一個詞,正在做數(shù)字化轉(zhuǎn)型的傳統(tǒng)型公司都會首選做數(shù)據(jù)中天項目,建設(shè)數(shù)據(jù)中臺嫣然成為傳統(tǒng)企業(yè)數(shù)字轉(zhuǎn)型的首選。
但為什么要做中臺、好處是什么、能給企業(yè)帶來什么價值、是不是所有公司都適合做數(shù)據(jù)中臺,這是隨之而來的問題。
一、大數(shù)據(jù)發(fā)展的歷史
上個世紀90年代開始出現(xiàn)數(shù)據(jù)倉庫概念,他幫助企業(yè)做出經(jīng)營分析決策,例如在銷售行業(yè)的門店管理中,如何使單個門店的利益最大化,就需要分析每個商品的銷售、庫存數(shù)據(jù),按照不同的時間周期:每日、每周、每月,找到商品銷售規(guī)律以及關(guān)聯(lián)影響,然后制定出合理的商品采購計劃和促銷活動,這些都是依賴與大量的數(shù)據(jù)分析。
比爾.恩門給出的數(shù)據(jù)倉庫定義:數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的集成的、與時間相關(guān)的,不可修改的數(shù)據(jù)集合。
所以數(shù)據(jù)倉庫是會按照主題去集成數(shù)據(jù),你可以把主題理解成一個目錄。主題是不會輕易改變,所以劃分主題時要盡量做到與業(yè)務(wù)相關(guān),且容易區(qū)分數(shù)據(jù)劃分規(guī)則。
進入互聯(lián)網(wǎng)時代后,數(shù)據(jù)規(guī)模前所未有的快速增長:
- 例如:抖音、微信,每天都在產(chǎn)生千億級的用戶行為數(shù)據(jù),同時數(shù)據(jù)結(jié)構(gòu)也在變得復(fù)雜多樣化,有結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)產(chǎn)生;
- 例如:app、web的埋點數(shù)據(jù)、后臺日志數(shù)據(jù)。
這些特點都是傳統(tǒng)數(shù)據(jù)倉庫所難以承載的。
所以hadoop出現(xiàn)了,他有兩個優(yōu)勢:
- 完全分布式,易擴展,而且使用廉價的計算機就可以集成一個計算、存儲能力很強的集群,滿足海量數(shù)據(jù)處理需求;
- 弱化數(shù)據(jù)格式,數(shù)據(jù)集成到hadoop后,數(shù)據(jù)模型與數(shù)據(jù)存儲分離,在數(shù)據(jù)使用時,按照不同的數(shù)據(jù)模型讀取數(shù)據(jù),滿足多種數(shù)據(jù)結(jié)構(gòu)的分析需求。
隨著hadoop技術(shù)成熟,出現(xiàn)了數(shù)據(jù)湖的概念,數(shù)據(jù)湖的出現(xiàn)我認為標志這hadoop是走向商業(yè)化成熟的標志,企業(yè)可以基于hadoop構(gòu)建數(shù)據(jù)湖,將數(shù)據(jù)作為企業(yè)核心資產(chǎn)。
接下來如何讓數(shù)據(jù)的加工能夠像流水線一樣作業(yè),大數(shù)據(jù)平臺的概念就被提出來了,就是為了提升研發(fā)的效率,降低數(shù)據(jù)研發(fā)的門檻,讓數(shù)據(jù)像流水線一樣被加工。
大數(shù)據(jù)平臺服務(wù)的對象是數(shù)據(jù)研發(fā)人員,可分為數(shù)據(jù)集成、數(shù)據(jù)模型開發(fā)、數(shù)據(jù)測試、數(shù)據(jù)運維,底層是以HADOOP為代表的大數(shù)據(jù)框架,包含,存儲、計算、資源調(diào)配(HDFS、MapReduce、yarn)。
大數(shù)據(jù)平臺就像流水線設(shè)備,數(shù)據(jù)就是被加工的內(nèi)容,最后產(chǎn)出指標,呈現(xiàn)在各BI或其他的數(shù)據(jù)產(chǎn)品中,隨著經(jīng)濟、業(yè)務(wù)快速增長,業(yè)務(wù)人員也對數(shù)據(jù)采集響應(yīng)要求變快,數(shù)據(jù)指標共享也逐漸變多,逐漸又出現(xiàn)了數(shù)據(jù)中臺概念。
前面講的都是數(shù)據(jù)發(fā)展歷史,是為了讓大家明白每一次演變的本質(zhì)都是滿足業(yè)務(wù)需求或者痛點。
數(shù)據(jù)中臺也是一樣的道理,先說下大部分企業(yè)數(shù)據(jù)的痛點:煙囪式的業(yè)務(wù)發(fā)展模式,導(dǎo)致數(shù)據(jù)也是煙囪式的發(fā)展,數(shù)據(jù)是割裂的,導(dǎo)致大量的重復(fù)開發(fā)、計算、從而導(dǎo)致研發(fā)效率的浪費、計算存儲資源的浪費,大數(shù)據(jù)的應(yīng)用成本也越來越高,比如本人所在公司每年投入的硬件資源都是過億,同時這種帶來的還有不同數(shù)據(jù)應(yīng)用平臺展示相同指標的結(jié)果會不一致。為了解決這些問題,數(shù)據(jù)中臺的價值也就出來了。
數(shù)據(jù)中臺最核心的價值:
- 避免數(shù)據(jù)的重復(fù)計算
- 提升數(shù)據(jù)服務(wù)力
- 提高數(shù)據(jù)共享力
- 將數(shù)據(jù)資產(chǎn)化管理。
最后可以看出,數(shù)據(jù)中臺是構(gòu)建數(shù)據(jù)湖之上,具備數(shù)據(jù)湖能夠處理多樣化結(jié)構(gòu)的數(shù)據(jù)計算、存儲能力;數(shù)據(jù)中臺依賴于hadoop大數(shù)據(jù)平臺,數(shù)據(jù)中臺比大數(shù)據(jù)平臺增加了數(shù)據(jù)治理和數(shù)據(jù)服務(wù)的內(nèi)容;數(shù)據(jù)中臺借鑒了傳統(tǒng)數(shù)據(jù)數(shù)據(jù)倉庫面向主題的數(shù)據(jù)建模理論,構(gòu)建統(tǒng)一的數(shù)據(jù)共享層。
二、數(shù)據(jù)中臺與業(yè)務(wù)數(shù)據(jù)相結(jié)合
數(shù)據(jù)中臺價值的產(chǎn)生一定要是與業(yè)務(wù)數(shù)據(jù)應(yīng)用場景相結(jié)合,舉個案例:
保險行業(yè)的隊伍管理的增員場景看,主管要促進自己的團隊架構(gòu)裂變就需要進行增員,在這個過程中主管需要分析哪些人適合增員,增員的成功通常需要滿足哪些條件,每日還要對代理人的增員進行效果追蹤。要做這些分析就要用到代理人的行為和業(yè)績數(shù)據(jù),同時還要有標桿案例數(shù)據(jù),通常這些數(shù)據(jù)都存放在不同的數(shù)據(jù)庫里面,并且要以日的頻率提供數(shù)據(jù)到頁面上進行展示。
傳統(tǒng)數(shù)據(jù)處理邏輯:各業(yè)務(wù)系統(tǒng)對數(shù)據(jù)進行加工處理,然后將結(jié)果提供給報表平臺進行展示,但這個會出現(xiàn),A報表和B報表對于相同的指標可能指標結(jié)果不一致,并且各系統(tǒng)之間指標重復(fù)計算。
數(shù)據(jù)中臺是把各業(yè)務(wù)系統(tǒng)的增員數(shù)據(jù)進行匯報,然后統(tǒng)一做數(shù)據(jù)清洗,加工建模,最后以API接口形式提供結(jié)果給應(yīng)用系統(tǒng)在不同的頁面進行展示。既避免了重復(fù)計算,也提升了開發(fā)效率,還提供數(shù)據(jù)共享,同時也保證了數(shù)據(jù)的一致性。
最后講下數(shù)據(jù)資產(chǎn)化管理,可以分兩塊看:
從面向開發(fā)角度看:數(shù)據(jù)中臺可以提供開發(fā)血緣關(guān)系分析和指標、標簽字典,開發(fā)通過血緣關(guān)系、指標、標簽字典查詢可以快速掌握數(shù)據(jù)結(jié)構(gòu),了解業(yè)務(wù)數(shù)據(jù)的邏輯。
從面向業(yè)務(wù)角度看:通過數(shù)據(jù)中臺可以產(chǎn)出數(shù)據(jù)資產(chǎn)目錄及報告,讓數(shù)據(jù)資產(chǎn)以可視化形式展示,管理層了解公司數(shù)據(jù)情況,例如:公司數(shù)據(jù)資產(chǎn)目錄,每個部門對數(shù)據(jù)的使用情況,最核心資產(chǎn)是哪塊。通常都會有一個數(shù)據(jù)資產(chǎn)管理平臺去承載。
不是所有公司都適合做數(shù)據(jù)中臺,要滿足特定條件才適合建立數(shù)據(jù)中臺,以下條件可供參考:
首先公司是否有大量的數(shù)據(jù)應(yīng)用場景,數(shù)據(jù)中臺自身是不能直接產(chǎn)生業(yè)務(wù)價值,本質(zhì)是快速支持數(shù)據(jù)應(yīng)用,當企劃有較多的數(shù)據(jù)應(yīng)用場景時就考慮;
其次,公司業(yè)務(wù)經(jīng)歷過一輪野蠻式快速擴展,產(chǎn)生大量的數(shù)據(jù),存在較多的業(yè)務(wù)數(shù)據(jù)孤島,需要整合各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進行關(guān)聯(lián)分析;
業(yè)務(wù)對數(shù)據(jù)的需求有明顯提升,數(shù)據(jù)采集要求高,指標準確性,開發(fā)團隊面臨大量的數(shù)據(jù)開發(fā)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)效率、數(shù)據(jù)成本等問題;
企業(yè)面臨經(jīng)營困難,需要通過數(shù)據(jù)實現(xiàn)新的業(yè)務(wù)突破點,提升業(yè)務(wù)運營效率的時候。
數(shù)據(jù)中臺投入大,時間周期長,說的通俗點數(shù)據(jù)中臺適合有錢穩(wěn)定的大公司,不適合初創(chuàng)型的小公司。
本文由 @木子姐 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
講的很好,請問有相關(guān)的公眾號嗎,想持續(xù)關(guān)注