云原生數(shù)據(jù)中臺技術(shù)與趨勢解讀
編輯導(dǎo)語:數(shù)據(jù)中臺可以有效解決業(yè)務(wù)處理效率、數(shù)據(jù)管理、企業(yè)組織架構(gòu)等問題。那未來數(shù)據(jù)中臺該往什么方向發(fā)展?本文就介紹了云原生數(shù)據(jù)中臺,并對其發(fā)展趨勢進(jìn)行解讀。讓我們一起來看一下。
數(shù)據(jù)中臺發(fā)展至今,大體經(jīng)歷了4個重要階段:數(shù)據(jù)庫——數(shù)據(jù)倉庫——大數(shù)據(jù)平臺——數(shù)據(jù)中臺。每次新的變革,都是為了解決上一階段存在的問題。
當(dāng)前,走向云原生成為數(shù)據(jù)中臺的必然和必須。
一、云原生從何而來?
云原生是用于指導(dǎo)如何在云上構(gòu)建和運行應(yīng)用的方法論。
我們認(rèn)為,“云原生”并不是一個新的概念?;仡櫾朴嬎闶?,從個人端應(yīng)用到企業(yè)級應(yīng)用,都早已開始“上云”。
起初,這些上云的“非原住民”應(yīng)用,延續(xù)了私有化部署的技術(shù)架構(gòu),把本地軟件不加修改地通過ECS遷至云端。而ECS的弊端在于只能承載計算,無法實現(xiàn)存儲。雖然上云后的應(yīng)用實現(xiàn)了業(yè)務(wù)打通,但隨著業(yè)務(wù)擴(kuò)大,原有的架構(gòu)“可用性”明顯下降。
國內(nèi)云廠商為了解決數(shù)據(jù)存儲問題,制作了云磁盤,將其掛靠在云主機(jī)上,實現(xiàn)數(shù)據(jù)備份,且無需更改程序。傳統(tǒng)軟件上云的“高可用”問題得以解決。
然而,這種方式引發(fā)了另一弊端——成本高??蛻舭袶adoop不加修改直接部署到ECS節(jié)點上,數(shù)據(jù)通過HDFS存儲在云磁盤上,需花費大量成本。因此必須修改HDFS底層,把數(shù)據(jù)存到對象存儲上。
隨著需求不斷豐富,系統(tǒng)必須按照IaaS、PaaS的技術(shù)特點進(jìn)行重構(gòu),以便跟上業(yè)務(wù)和數(shù)據(jù)的爆炸性增長。?在私有化部署以及上一代傳統(tǒng)技術(shù)的軟件架構(gòu)運維方法論的基礎(chǔ)上,帶著“高可用”、“低成本”等屬性,“云原生”升級而出。
二、云原生數(shù)據(jù)中臺具有哪些技術(shù)要素?
“云原生”概念發(fā)展至今,我們已并不陌生。而為什么要強(qiáng)調(diào)“云原生數(shù)據(jù)中臺才是未來”?分級多域數(shù)據(jù)治理的剛需、云原生技術(shù)降本增效的天然特征、國內(nèi)基礎(chǔ)設(shè)施自主可控的要求……都將數(shù)據(jù)中臺推向云原生。
因此,我們將云原生數(shù)據(jù)中臺的技術(shù)要素歸納為6點:CI/CD(持續(xù)集成持續(xù)交付)、容器化、對象體系、存儲計算分離、跨云多域數(shù)據(jù)治理和元數(shù)據(jù)管理。
1. CI/CD(持續(xù)集成持續(xù)交付)
CI/CD的本質(zhì)是提高開發(fā)和部署效率。
在業(yè)務(wù)量巨大的情況下,大數(shù)據(jù)和云的運維人力成本極高。因此需要使用大量的自動化工具和大數(shù)據(jù)預(yù)測算法進(jìn)行自動化運維。通過版本管理系統(tǒng)和DevOps基礎(chǔ)設(shè)施,實現(xiàn)自動化測試和持續(xù)集成。
一個典型流程是,程序員提交代碼到特定的tag,觸發(fā)測試接口自動化測試腳本執(zhí)行并發(fā)送報告。由此實現(xiàn)測試、發(fā)布和部署自動化。在此基礎(chǔ)上構(gòu)建特定的數(shù)據(jù)環(huán)境,對重要接口和鏈路進(jìn)行自動化檢測。
2. 容器化
容器化本質(zhì)上是一種虛擬化技術(shù),一臺主機(jī)可虛擬出上千個容器。
單個容器的啟動時間更快,占用空間更小,而且可以根據(jù)實際應(yīng)用的大小來彈性分配資源,無需額外采購服務(wù)器,加快研發(fā)速度。使用容器編排基礎(chǔ)設(shè)施,對服務(wù)和作業(yè)進(jìn)行治理,根除版本地獄,大幅度提高運維和集成效率。
容器化編排與CI/CD是相互結(jié)合的。在數(shù)據(jù)中臺領(lǐng)域,往往幾十臺機(jī)器、上百個進(jìn)程同時運行,且在這些進(jìn)程中不僅要運行本身的程序,也要運行客戶的程序。
因此,底層微服務(wù)的進(jìn)程繁多。基于安全合規(guī)要求,客戶之間的程序需要保持分隔。因此,數(shù)據(jù)中臺對于容器化的要求高于其他基于云原生的應(yīng)用。
3. 對象體系
根據(jù)現(xiàn)有業(yè)務(wù)抽象出核心對象,以標(biāo)準(zhǔn)Restful風(fēng)格提供API服務(wù),解耦核心對象與業(yè)務(wù)層服務(wù),以應(yīng)對不同環(huán)境、不同業(yè)務(wù)場景的需求。這一系列正交的核心對象就構(gòu)成了平臺對象體系,上層業(yè)務(wù)可在此基礎(chǔ)上構(gòu)建應(yīng)用,高效演進(jìn)。
對象體系的API應(yīng)該是優(yōu)雅且向前兼容的,一旦發(fā)布,很難改變。例如,在WIN32研發(fā)時,出現(xiàn)某個單詞錯誤,幾十年后都無法修改。因此,需要把對象體系設(shè)計得極為詳盡和準(zhǔn)確。
4. 存儲計算分離
由于云具有分布式特點,在云上無法天然將數(shù)據(jù)存儲在ECS中。因此必須將關(guān)鍵數(shù)據(jù)、狀態(tài)型數(shù)據(jù)存儲在對象存儲中。大量私有化組件都需要被改寫。如果把Hadoop、Spark等常規(guī)開源大數(shù)據(jù)引擎直接應(yīng)用于云主機(jī),海量數(shù)據(jù)帶來的存儲成本和吞吐壓力,很快會壓垮客戶。
因此,必須引入中間緩存實現(xiàn)計算存儲分離,將數(shù)據(jù)存儲到對象存儲上,同時兼容HDFS協(xié)議,能夠根據(jù)業(yè)務(wù)需求進(jìn)行彈性擴(kuò)容,就能大幅度降低成本,提高集群性能。
5. 跨云多域數(shù)據(jù)治理
云原生數(shù)據(jù)中臺的一大優(yōu)勢在于可以實現(xiàn)跨云多域。
例如,客戶在AWS上使用數(shù)據(jù)中臺,一旦需要轉(zhuǎn)移到其他平臺,云原生數(shù)據(jù)中臺可實現(xiàn)在不修改代碼的基礎(chǔ)上直接遷移。對于具有多重業(yè)務(wù)、龐大數(shù)據(jù)體量的大型企業(yè)來說,為避免數(shù)據(jù)資產(chǎn)被一個平臺所綁定,供應(yīng)商必須呈現(xiàn)多樣化。
因此,在客戶與一家供應(yīng)商合作的同時,也需要使用獨立的第三方數(shù)據(jù)中臺提供跨云多域的數(shù)據(jù)治理能力,從而提高基礎(chǔ)設(shè)施的可控性和安全性。
6. 元數(shù)據(jù)管理
由于數(shù)據(jù)量急劇增長,對數(shù)據(jù)的管理成為一大問題。
云原生數(shù)據(jù)中臺的元數(shù)據(jù)管理功能,對數(shù)據(jù)的結(jié)構(gòu)、指標(biāo)、標(biāo)簽、權(quán)限、上下游血緣、生產(chǎn)作業(yè)等元信息進(jìn)行規(guī)范化管理,建立智能數(shù)據(jù)治理體系。同時支持?jǐn)?shù)據(jù)盤點、安全審計、血緣分析、關(guān)鍵分級等應(yīng)用,最終實現(xiàn)數(shù)據(jù)資產(chǎn)化。
例如,某頂級品牌商具有73個業(yè)務(wù)系統(tǒng),各自存儲在不同的數(shù)據(jù)庫和存儲介質(zhì)中,需要將73個系統(tǒng)全部集中在一個數(shù)據(jù)中臺上進(jìn)行標(biāo)簽打通。在此需求下,數(shù)據(jù)治理十分重要,核心就是元數(shù)據(jù)的管理。因此,云原生數(shù)據(jù)中臺必須具備元數(shù)據(jù)管理功能。
三、云原生數(shù)據(jù)中臺能為用戶解決什么問題?
具備以上6大技術(shù)能力的數(shù)據(jù)中臺是走向云原生后的重要升級。基于這些能力,云原生數(shù)據(jù)中臺究竟能為用戶解決哪些問題,帶來降本增效?
1. 提高研發(fā)效率
通過微服務(wù)、CI/CD、對象體系、DevOps等一系列技術(shù),提升迭代速度,增強(qiáng)在云的復(fù)雜環(huán)境下的控制、自動化運維控制等。提高代碼開發(fā)、測試、發(fā)布效率,降低迭代成本。
2. 降低運維成本
通過上述的技術(shù)也可以實現(xiàn)開發(fā)及運維高效協(xié)同,有效提升對故障的響應(yīng)速度,實現(xiàn)持續(xù)集成和交付。使得快速部署應(yīng)用成為業(yè)務(wù)流程和企業(yè)競爭力的重要組成部分,降低運維成本。
3. 降低存算成本
大數(shù)據(jù)基礎(chǔ)設(shè)施的存儲計算成本驚人。存算分離和容器化能夠更高效地使用IaaS資源,降低存儲成本。存儲和計算節(jié)點分離后,可以在不對存儲進(jìn)行擴(kuò)容的情況下快速增加計算資源。
另一方面,單個容器的啟動時間更快,占用空間更小,而且可以根據(jù)實際應(yīng)用的大小來彈性分配資源,無需額外采購服務(wù)器。
4. 提高治理效率
治理效率不局限于數(shù)據(jù)治理,也包括微服務(wù)治理、系統(tǒng)治理和API治理,需要自動化設(shè)計和框架。使用跨云治理、元數(shù)據(jù)管理等技術(shù),會大幅度提高企業(yè)積累數(shù)據(jù)資產(chǎn)的效率,降低安全風(fēng)險,提高供應(yīng)商的多樣化。
本文由 @奇點云 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
- 目前還沒評論,等你發(fā)揮!