一文讀懂?dāng)?shù)據(jù)倉庫、數(shù)據(jù)平臺、數(shù)據(jù)中臺、數(shù)據(jù)湖的概念和區(qū)別
在數(shù)據(jù)倉庫、數(shù)據(jù)平臺、數(shù)據(jù)中臺、數(shù)據(jù)湖的相關(guān)概念中,都與數(shù)據(jù)有關(guān)系,但它們之間又有什么區(qū)別呢?本文圍繞它們的概念、架構(gòu)、使用場景進(jìn)行了介紹,一起來看一下吧。
我們經(jīng)常聽到別人談?wù)摂?shù)據(jù)倉庫、數(shù)據(jù)平臺、數(shù)據(jù)中臺、數(shù)據(jù)湖的相關(guān)概念,它們都與數(shù)據(jù)有關(guān)系,但它們之間又有什么區(qū)別,下面我們將圍繞數(shù)據(jù)倉庫、數(shù)據(jù)平臺、數(shù)據(jù)湖和數(shù)據(jù)中臺的概念、架構(gòu)、使用場景進(jìn)行介紹。
一、數(shù)據(jù)倉庫
1. 數(shù)據(jù)倉庫概念
數(shù)據(jù)倉庫由比爾·恩門(Bill Inmon,數(shù)據(jù)倉庫之父)于1990年提出,主要功能是將企業(yè)系統(tǒng)聯(lián)機(jī)事務(wù)處理(OLTP)長期壁壘的大量數(shù)據(jù),通過數(shù)據(jù)倉庫理論支持所持有的數(shù)據(jù)存儲結(jié)構(gòu),做有系統(tǒng)的分析整理。
隨著企業(yè)的發(fā)展,業(yè)務(wù)系統(tǒng)的數(shù)據(jù)不斷激增,這些存儲在企業(yè)業(yè)務(wù)數(shù)據(jù)庫中(也就是關(guān)系型數(shù)據(jù)庫Oracle,Microsoft SQL Sever,MySQL等)數(shù)據(jù)會隨著時間的積累越來越多,會使業(yè)務(wù)數(shù)據(jù)庫會有一定的負(fù)載,導(dǎo)致業(yè)務(wù)系統(tǒng)的運(yùn)行效率低,且這些數(shù)據(jù)中有很大一部分是冷數(shù)據(jù),而我們業(yè)務(wù)系統(tǒng)一般對我們近期的數(shù)據(jù),也就是熱數(shù)據(jù)調(diào)用的比較頻繁,對冷數(shù)據(jù)使用頻率較低。
同時隨著企業(yè)數(shù)據(jù)驅(qū)動業(yè)務(wù)概念的興起,企業(yè)需要將各業(yè)務(wù)部門的業(yè)務(wù)數(shù)據(jù)提取出來進(jìn)行數(shù)據(jù)分析與挖掘,輔助高層進(jìn)行分析與決策,但各部門需求的數(shù)據(jù)種類千差萬別,接口錯綜復(fù)雜,過多的數(shù)據(jù)查詢腳本以及接口的接入導(dǎo)致業(yè)務(wù)數(shù)據(jù)庫的穩(wěn)定性降低。
為了避免冷數(shù)據(jù)與歷史數(shù)據(jù)的積壓對我們業(yè)務(wù)數(shù)據(jù)庫效能產(chǎn)生影響,企業(yè)需要定期將冷數(shù)據(jù)從業(yè)務(wù)數(shù)據(jù)庫中轉(zhuǎn)移出來存儲到一個專門存放歷史數(shù)據(jù)的倉庫里面,各部門可以根據(jù)自身業(yè)務(wù)特性對外提供統(tǒng)一的數(shù)據(jù)服務(wù),這個倉庫就是數(shù)據(jù)倉庫。
2. 數(shù)據(jù)倉庫特點(diǎn)
數(shù)據(jù)倉庫(Data Warehoese)的特點(diǎn):面向主題的、集成的、穩(wěn)定的、反映歷史數(shù)據(jù)變化的。
- 面向主題的:數(shù)據(jù)倉庫是用來分析特點(diǎn)主題域的,所以說數(shù)據(jù)倉庫是面向主題的。例如,電商行業(yè)的主題域通常分為交易域、會員域、商品域等。
- 集成的:數(shù)據(jù)倉庫集成了多個數(shù)據(jù)源,同一主題或產(chǎn)品相關(guān)數(shù)據(jù)可能來自不同的系統(tǒng)不同類型的數(shù)據(jù)庫,日志文件等。
- 穩(wěn)定的:數(shù)據(jù)一旦進(jìn)入數(shù)據(jù)倉庫,則不可改變。數(shù)據(jù)倉庫的歷史數(shù)據(jù)是不應(yīng)該被更新的,同時存儲穩(wěn)定性較強(qiáng)
- 反映歷史數(shù)據(jù)變化的:數(shù)據(jù)倉庫保存了長期的歷史數(shù)據(jù),這點(diǎn)相對OLTP的數(shù)據(jù)庫而言。因?yàn)樾阅芸紤]后者統(tǒng)籌保存近期的熱數(shù)據(jù)。
3. OLTP與OLAP
1)OLTP與OLAP概念
數(shù)據(jù)處理大致可以分成兩大類:聯(lián)機(jī)事務(wù)處理OLTP(on-line transaction processing)、聯(lián)機(jī)分析處理OLAP(On-Line Analytical Processing)。
OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用,主要是基本的、日常的事務(wù)處理,例如銀行交易。OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。
2)OLTP與OLAP區(qū)別
OLTP 系統(tǒng)強(qiáng)調(diào)數(shù)據(jù)庫內(nèi)存效率,強(qiáng)調(diào)內(nèi)存各種指標(biāo)的命令率,綁定變量,并發(fā)操作等。OLAP 系統(tǒng)則強(qiáng)調(diào)數(shù)據(jù)分析,強(qiáng)調(diào)SQL執(zhí)行市場,磁盤I/O,分區(qū)等。
3)OLAP與數(shù)據(jù)倉庫的聯(lián)系
OLAP和數(shù)倉的關(guān)系是依賴互補(bǔ)的,一般以數(shù)據(jù)倉庫作為基礎(chǔ),既從數(shù)據(jù)倉庫中抽取出詳細(xì)數(shù)據(jù)的一個子集并經(jīng)過必要的聚集存儲到OLAP存儲中供數(shù)據(jù)分析工具讀取。
4. 數(shù)據(jù)倉庫的作用
數(shù)據(jù)倉庫將來自不同來源的結(jié)構(gòu)化數(shù)據(jù)聚合起來,用于業(yè)務(wù)智能領(lǐng)域的比較和分析,數(shù)據(jù)倉庫是包含多種數(shù)據(jù)的存儲庫,并且是高度建模的。
如下圖所示:各個系統(tǒng)的元數(shù)據(jù)通過ETL同步到操作性數(shù)據(jù)倉庫ODS中,對ODS數(shù)據(jù)進(jìn)行面向主題域建模形成DW(數(shù)據(jù)倉庫),DM是針對某一個業(yè)務(wù)領(lǐng)域建立模型,具體用戶(決策層)查看DM生成的報表。
什么是ETL?(extraction-transformation-load 抽取-轉(zhuǎn)換-加載)
傳統(tǒng)的數(shù)據(jù)倉庫集成處理架構(gòu)是ETL,利用ETL平臺的能力,E=從源數(shù)據(jù)庫抽取數(shù)據(jù),L=將數(shù)據(jù)清洗(不符合規(guī)則的數(shù)據(jù))、轉(zhuǎn)化(對表按照業(yè)務(wù)需求進(jìn)行不同維度、不同顆粒度、不同業(yè)務(wù)規(guī)則計算進(jìn)行統(tǒng)計),T=將加工好的表以增量、全量、不同時間加載到數(shù)據(jù)倉庫。
什么是ELT?(extraction-load-transformation抽取-加載-轉(zhuǎn)換)
大數(shù)據(jù)背景下的架構(gòu)體系是ELT結(jié)構(gòu),其根據(jù)上層的應(yīng)用需求,隨時從數(shù)據(jù)中臺中抽取想要的原始數(shù)據(jù)進(jìn)行建模分析。
ELT是利用數(shù)據(jù)庫的處理能力,E=從源數(shù)據(jù)庫抽取數(shù)據(jù),L=把數(shù)據(jù)加載到目標(biāo)庫的臨時表中,T=對臨時表中的數(shù)據(jù)進(jìn)行轉(zhuǎn)換,然后加載到目標(biāo)庫目標(biāo)表中。
ELT對比ETL的優(yōu)勢:
- 資源利用率的提升:ELT主要通過數(shù)據(jù)庫引擎來實(shí)現(xiàn)系統(tǒng)的可擴(kuò)展性(尤其是當(dāng)數(shù)據(jù)加工過程在晚上時,可以充分利用數(shù)據(jù)庫引擎的資源)。
- 任務(wù)運(yùn)行效率的提升:ELT可以保持所有的數(shù)據(jù)始終在數(shù)據(jù)庫當(dāng)中,避免數(shù)據(jù)的加載和導(dǎo)出,從而保證效率,提高系統(tǒng)的可監(jiān)控性。
- 并行處理優(yōu)化:ELT可以根據(jù)數(shù)據(jù)的分布情況進(jìn)行并行處理優(yōu)化,并可以利用數(shù)據(jù)庫的固有功能優(yōu)化磁盤I/O。
- 可擴(kuò)展性增強(qiáng):ELT的可擴(kuò)展性取決于數(shù)據(jù)庫引擎和其硬件服務(wù)器的可擴(kuò)展性。
- 性能優(yōu)化:通過對相關(guān)數(shù)據(jù)庫進(jìn)行性能調(diào)優(yōu),ETL過程獲得3到4倍的效率提升一般不是特別困難。
數(shù)據(jù)倉庫系統(tǒng)的作用能實(shí)現(xiàn)跨業(yè)務(wù)條線、跨系統(tǒng)的數(shù)據(jù)整合,為管理分析和業(yè)務(wù)決策提供統(tǒng)一的數(shù)據(jù)支持。數(shù)據(jù)倉庫能夠從根本上幫助你把公司的運(yùn)營數(shù)據(jù)轉(zhuǎn)化成為高價值的可以獲取的信息(或知識),并且在恰當(dāng)?shù)臅r候通過恰當(dāng)?shù)姆绞桨亚‘?dāng)?shù)男畔鬟f給恰當(dāng)?shù)娜?。以下圖為例:
數(shù)據(jù)倉庫的作用主要體現(xiàn)在企業(yè)決策、分析、計劃和響應(yīng)以下幾個方面:
數(shù)據(jù)倉庫針對實(shí)時數(shù)據(jù)處理和非結(jié)構(gòu)化數(shù)據(jù)處理能力較弱,以及在業(yè)務(wù)在預(yù)警預(yù)測等方面應(yīng)用有一定的限制。
二、數(shù)據(jù)平臺
1. 數(shù)據(jù)平臺概念
大數(shù)據(jù)時代,數(shù)據(jù)平臺一般被稱之為大數(shù)據(jù)平臺。
狹義上的數(shù)據(jù)平臺:是為了解決數(shù)據(jù)倉庫不能處理非結(jié)構(gòu)化數(shù)據(jù)和報表開發(fā)周期長的問題,所以先撇開業(yè)務(wù)需求、把企業(yè)所有的數(shù)據(jù)都抽取出來放到一起,成為一個大的數(shù)據(jù)集,其中有結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)等。當(dāng)業(yè)務(wù)方有需求的時候,再把他們需要的若干個小數(shù)據(jù)集單獨(dú)提取出來,以數(shù)據(jù)集的形式提供給數(shù)據(jù)應(yīng)用。
廣義的大數(shù)據(jù)平臺:廣義的大數(shù)據(jù)平臺通常被賦予更多的使命,以處理海量數(shù)據(jù)存儲、計算及不間斷流數(shù)據(jù)實(shí)時計算、離線計算、智能推薦、交互式查詢、數(shù)據(jù)湖構(gòu)建等場景為主的一套基礎(chǔ)設(shè)施。典型的包括基于Hadoop 生態(tài)構(gòu)建的大數(shù)據(jù)平臺。提供易于部署及管理的 Hive、Spark、HBase、Flink、StarRocks、Iceberg、Alluxio 等開源大數(shù)據(jù)計算和存儲引擎。
狹義的數(shù)據(jù)平臺和傳統(tǒng)的數(shù)據(jù)平臺(數(shù)據(jù)倉庫)功能一致,區(qū)別只是技術(shù)架構(gòu)和數(shù)據(jù)容量方面的不同。
廣義上的大數(shù)據(jù)平臺是數(shù)據(jù)湖的基座,提供易于部署和管理的泛Hadoop生態(tài)及其他存儲計算引擎的PaaS平臺,助力企業(yè)構(gòu)建企業(yè)級數(shù)據(jù)湖技術(shù)架構(gòu)。
Tip:本文以狹義的數(shù)據(jù)平臺進(jìn)行對比,這里不對狹義的數(shù)據(jù)平臺做過多概述。
三、數(shù)據(jù)中臺
1. 數(shù)據(jù)中臺概念
數(shù)據(jù)中臺的起源:2015 年年中,馬云帶領(lǐng)阿里巴巴集團(tuán)高管拜訪了一家芬蘭的小型游戲公司 Supercell。這家僅有不到 200 名員工的小型游戲公司竟創(chuàng)造了高達(dá) 15 億美元的年稅前利潤!而 Supercell 之所以能夠支持多個團(tuán)隊快速、敏捷地推出高質(zhì)量的游戲作品,其強(qiáng)大的中臺能力功不可沒。
因此,在拜訪 Supercell 的旅程結(jié)束之后,馬云決定對阿里巴巴的組織和系統(tǒng)架構(gòu)進(jìn)行整體調(diào)整,建立阿里產(chǎn)品技術(shù)和數(shù)據(jù)能力的強(qiáng)大中臺,構(gòu)建“大中臺,小前臺”的組織和業(yè)務(wù)體制。
數(shù)據(jù)中臺的主要目的:解決企業(yè)在發(fā)展過程中,由于數(shù)據(jù)激增與業(yè)務(wù)的擴(kuò)大而出現(xiàn)的統(tǒng)計口徑不一致、重復(fù)開發(fā)、指標(biāo)開發(fā)需求響應(yīng)慢、數(shù)據(jù)質(zhì)量低、數(shù)據(jù)成本高等問題。通過一系列數(shù)據(jù)工具(元數(shù)據(jù)中心、數(shù)據(jù)指標(biāo)中心、數(shù)倉模型中心、數(shù)據(jù)資產(chǎn)中心-資產(chǎn)質(zhì)量/治理/安全、數(shù)據(jù)服務(wù)中心等),規(guī)范數(shù)據(jù)供應(yīng)鏈的各個環(huán)節(jié)。
2. 數(shù)據(jù)中臺特點(diǎn)
數(shù)據(jù)中臺特點(diǎn):以一種標(biāo)準(zhǔn)的、安全的、可靠的、統(tǒng)一的、共享的、解耦的、服務(wù)化的方式支持前端數(shù)據(jù)的應(yīng)用。
3. 數(shù)據(jù)中臺作用
(阿里數(shù)據(jù)中臺邏輯架構(gòu)圖)
(數(shù)據(jù)中臺產(chǎn)品能力圖)
數(shù)據(jù)中臺通過對企業(yè)內(nèi)外部多源異構(gòu)的數(shù)據(jù)采集、建設(shè)、管理、分析和應(yīng)用,使數(shù)據(jù)對內(nèi)優(yōu)化管理提高業(yè)務(wù)價值,對外進(jìn)行數(shù)據(jù)合作讓業(yè)務(wù)價值得到釋放,使之成為企業(yè)數(shù)據(jù)資產(chǎn)管理中樞。數(shù)據(jù)中臺建立后,會形成數(shù)據(jù)API服務(wù),為企業(yè)和客戶提供高效各種數(shù)據(jù)服務(wù)。
數(shù)據(jù)中臺對一個企業(yè)的數(shù)字化轉(zhuǎn)型和可持續(xù)發(fā)展起著至關(guān)重要的作用。數(shù)據(jù)中臺為解耦而生,企業(yè)建設(shè)數(shù)據(jù)中臺的最大意義就是應(yīng)用與數(shù)據(jù)之間的解耦,這樣企業(yè)就可以不受限制地按需構(gòu)建滿足業(yè)務(wù)需求的數(shù)據(jù)應(yīng)用。
構(gòu)建了開放、靈活、可擴(kuò)展的企業(yè)級統(tǒng)一數(shù)據(jù)管理和分析平臺, 將企業(yè)內(nèi)、外部數(shù)據(jù)隨需關(guān)聯(lián),打破了數(shù)據(jù)的系統(tǒng)界限。
利用大數(shù)據(jù)智能分析、數(shù)據(jù)可視化等技術(shù),實(shí)現(xiàn)了數(shù)據(jù)共享、日常報表自動生成、快速和智能分析,滿足企業(yè)各級部門之間的數(shù)據(jù)分析應(yīng)用需求。
深度挖掘數(shù)據(jù)價值,助力企業(yè)數(shù)字化轉(zhuǎn)型落地。實(shí)現(xiàn)了數(shù)據(jù)的目錄、模型、標(biāo)準(zhǔn)、認(rèn)責(zé)、安全、可視化、共享等管理,實(shí)現(xiàn)數(shù)據(jù)集中存儲、處理、分類與管理,建立大數(shù)據(jù)分析工具庫、算法服務(wù)庫,實(shí)現(xiàn)報表生成自動化、數(shù)據(jù)分析敏捷化、數(shù)據(jù)挖掘可視化,實(shí)現(xiàn)數(shù)據(jù)質(zhì)量評估、落地管理流程。
四、數(shù)據(jù)湖
1. 數(shù)據(jù)湖概念
數(shù)據(jù)湖起源:數(shù)據(jù)湖的起源,應(yīng)該追溯到2010年10月,由 Pentaho 的創(chuàng)始人兼 CTO, James Dixon 所提出,他提出的目的就當(dāng)時歷史背景來看,其實(shí)是為了推廣自家產(chǎn)品 Pentaho。當(dāng)時核心要解決的問題是傳統(tǒng)數(shù)據(jù)倉庫報表分析面臨的兩個問題:
- 只使用部分屬性,這些數(shù)據(jù)只能回答預(yù)先定義好(pre-determined)的問題。
- 數(shù)據(jù)被聚合了,最低層級的細(xì)節(jié)丟失了,能回答的問題被限制了。
而我們當(dāng)前所討論的數(shù)據(jù)湖,已經(jīng)遠(yuǎn)遠(yuǎn)超過了當(dāng)初 James Dixon 所定義的數(shù)據(jù)湖,各廠商之間也對數(shù)據(jù)湖有了更多的不同定義。
1)AWS
A data lake is a centralized repository that allows you to store all your structured and unstructured data at any scale. You can store your data as-is, without having to first structure the data, and run different types of analytics—from dashboards and visualizations to big data processing, real-time analytics, and machine learning to guide better decisions.
“數(shù)據(jù)湖是一個集中式存儲庫,允許您以任意規(guī)模存儲所有結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。您可以按原樣存儲數(shù)據(jù)(無需先對數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理),并運(yùn)行不同類型的分析– 從控制面板和可視化到大數(shù)據(jù)處理、實(shí)時分析和機(jī)器學(xué)習(xí),以指導(dǎo)做出更好的決策?!?/p>
2)微軟
Azure Data Lake includes all the capabilities required to make it easy for developers, data scientists, and analysts to store data of any size, shape, and speed, and do all types of processing and analytics across platforms and languages. It removes the complexities of ingesting and storing all of your data while making it faster to get up and running with batch, streaming, and interactive analytics.
“Azure 的數(shù)據(jù)湖包括一切使得開發(fā)者、數(shù)據(jù)科學(xué)家、分析師能更簡單的存儲、處理數(shù)據(jù)的能力,這些能力使得用戶可以存儲任意規(guī)模、任意類型、任意產(chǎn)生速度的數(shù)據(jù),并且可以跨平臺、跨語言的做所有類型的分析和處理。數(shù)據(jù)湖在能幫助用戶加速應(yīng)用數(shù)據(jù)的同時,消除了數(shù)據(jù)采集和存儲的復(fù)雜性,同時也能支持批處理、流式計算、交互式分析等?!?/p>
3)阿里云
“數(shù)據(jù)湖是統(tǒng)一存儲池,可對接多種數(shù)據(jù)輸入方式,您可以存儲任意規(guī)模的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)湖可無縫對接多種計算分析平臺,根據(jù)業(yè)務(wù)場景不同,可以選擇相應(yīng)的計算引擎對數(shù)據(jù)湖中存儲的數(shù)據(jù)進(jìn)行數(shù)據(jù)處理與分析,從而打破孤島,挖掘業(yè)務(wù)價值?!?/p>
2. 數(shù)據(jù)湖內(nèi)容
數(shù)據(jù)湖中包括來自于關(guān)系型數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)(行和列)、半結(jié)構(gòu)化數(shù)據(jù)(如CSV、日志、XML、JSON)、非結(jié)構(gòu)化數(shù)據(jù)(如 email、文檔、PDF 等)和 二進(jìn)制數(shù)據(jù)(如圖像、音頻、視頻)。
3. 數(shù)據(jù)湖的特點(diǎn)
- 統(tǒng)一的數(shù)據(jù)存儲,存放原始的數(shù)據(jù)。
- 支持任意結(jié)構(gòu)的數(shù)據(jù)存儲,包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化。
- 支持多種計算分析,適用多種應(yīng)用場景。
- 支持任意規(guī)模的數(shù)據(jù)存儲與計算能力。
- 目標(biāo)都是為了更好,更快的發(fā)現(xiàn)數(shù)據(jù)價值。
4. 數(shù)據(jù)湖能夠解決的問題
1)數(shù)據(jù)湖整體架構(gòu)
最底下是分布式文件系統(tǒng);
第二層是數(shù)據(jù)加速層。數(shù)據(jù)湖架構(gòu)是一個存儲計算徹底分離的架構(gòu),如果所有的數(shù)據(jù)訪問都遠(yuǎn)程讀取文件系統(tǒng)上的數(shù)據(jù),那么性能和成本開銷都很大。如果能把經(jīng)常訪問到的一些熱點(diǎn)數(shù)據(jù)緩存在計算節(jié)點(diǎn)本地,這就非常自然的實(shí)現(xiàn)了冷熱分離,一方面能收獲到不錯的本地讀取性能,另一方面還節(jié)省了遠(yuǎn)程訪問的帶寬。
第三層就是 Table format 層,主要是把一批數(shù)據(jù)文件封裝成一個有業(yè)務(wù)意義的 table,提供 ACID、snapshot、schema、partition 等表級別的語義。
最上層就是不同計算場景的計算引擎了。開源的一般有 Spark、Flink、Hive、Presto、Hive MR 等,這一批計算引擎是可以同時訪問同一張數(shù)據(jù)湖的表的。
2)數(shù)據(jù)湖能解決哪類問題
數(shù)據(jù)分散,存儲散亂,形成數(shù)據(jù)孤島,無法聯(lián)合數(shù)據(jù)發(fā)現(xiàn)更多價值。
這方面來講,其實(shí)數(shù)據(jù)湖要解決的與數(shù)據(jù)倉庫是類似的問題,但又有所不同,因?yàn)樗亩x里支持對半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的管理。而傳統(tǒng)數(shù)據(jù)倉庫僅能解決結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理。
在這個萬物互聯(lián)的時代,數(shù)據(jù)的來源多種多樣,隨著不同應(yīng)用場景,產(chǎn)出的數(shù)據(jù)格式也是越來越豐富,不能再僅僅局限于結(jié)構(gòu)化數(shù)據(jù)。如何統(tǒng)一存儲這些數(shù)據(jù),就是迫切需要解決的問題。
3)存儲成本
數(shù)據(jù)庫或數(shù)據(jù)倉庫的存儲受限于實(shí)現(xiàn)原理及硬件條件,導(dǎo)致存儲海量數(shù)據(jù)時成本過高,而為了解決這類問題就有了HDFS/對象存儲這類技術(shù)方案。數(shù)據(jù)湖場景下如果使用這類存儲成本較低的技術(shù)架構(gòu),將會為企業(yè)大大節(jié)省成本。結(jié)合生命周期管理的能力,可以更好的為湖內(nèi)數(shù)據(jù)分層(冷溫?zé)岽娣旁诓煌拇鎯橘|(zhì):HDD、SSD、MEM),不用糾結(jié)在是保留數(shù)據(jù)還是刪除數(shù)據(jù)節(jié)省成本的問題。
4)SQL已經(jīng)無法滿足的分析需求
越來越多種類的數(shù)據(jù),意味著越來越多的分析方式,傳統(tǒng)的 SQL 方式已經(jīng)無法滿足分析的需求,如何通過各種語言自定義貼近自己業(yè)務(wù)的代碼,如何通過機(jī)器學(xué)習(xí)挖掘更多的數(shù)據(jù)價值。
5)存儲/計算擴(kuò)展性不足
傳統(tǒng)數(shù)據(jù)庫等在海量數(shù)據(jù)下,如規(guī)模到 PB 級別,因?yàn)榧夹g(shù)架構(gòu)的原因,已經(jīng)無法滿足擴(kuò)展的要求或者擴(kuò)展成本極高,而這種情況下通過數(shù)據(jù)湖架構(gòu)下的擴(kuò)展技術(shù)能力,實(shí)現(xiàn)成本為0,硬件成本也可控。業(yè)務(wù)模型不定,無法預(yù)先建模。
傳統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)倉庫,都是 Schema-on-Write 的模式,需要提前定義 Schema 信息。而在數(shù)據(jù)湖場景下,可以先保存數(shù)據(jù),后續(xù)待分析時,再發(fā)現(xiàn) Schema,也就是 Schema-on-Read。
五、對比
1. 數(shù)據(jù)倉庫 VS 數(shù)據(jù)中臺 VS 數(shù)據(jù)湖
2. 數(shù)據(jù)倉庫 VS 數(shù)據(jù)平臺
因狹義的數(shù)據(jù)平臺是由于數(shù)據(jù)倉庫具有歷史性的特性,其中存儲的數(shù)據(jù)大多是結(jié)構(gòu)化數(shù)據(jù),而數(shù)據(jù)平臺的出現(xiàn)解決了數(shù)據(jù)倉庫不能處理非結(jié)構(gòu)化數(shù)據(jù)和報表開發(fā)周期長的問題,故將數(shù)據(jù)倉庫與數(shù)據(jù)平臺(狹義)單獨(dú)做對比。
本質(zhì)區(qū)別:技術(shù)架構(gòu)和數(shù)據(jù)容量方面的不同。
通過以上的論述,我們發(fā)現(xiàn)數(shù)據(jù)平臺和數(shù)據(jù)湖好像存在諸多相似性,這二者之間的區(qū)別,從個人角度理解上分析應(yīng)該是數(shù)據(jù)加工的角度不同,數(shù)據(jù)湖更著重于對原始數(shù)據(jù)的存儲,而數(shù)據(jù)平臺則同數(shù)據(jù)倉庫一樣,需對原始數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換等數(shù)據(jù)處理后按照統(tǒng)一的標(biāo)準(zhǔn)規(guī)范進(jìn)行存儲。
六、總結(jié)
根據(jù)以上數(shù)據(jù)平臺、數(shù)據(jù)倉庫、數(shù)據(jù)湖和數(shù)據(jù)中臺的概念論述和對比,我們進(jìn)行如下總結(jié):
- 數(shù)據(jù)中臺、數(shù)據(jù)倉庫和數(shù)據(jù)湖沒有直接的關(guān)系;
- 數(shù)據(jù)中臺、數(shù)據(jù)平臺、數(shù)據(jù)倉庫和數(shù)據(jù)湖在某個維度上為業(yè)務(wù)產(chǎn)生價值的形式有不同的側(cè)重;
- 數(shù)據(jù)倉庫是數(shù)據(jù)驅(qū)動業(yè)務(wù)的邏輯概念,用于支持管理決策分析,為業(yè)務(wù)提供服務(wù)的主要方式是報表;
- 數(shù)據(jù)中臺是企業(yè)級的邏輯概念,體現(xiàn)企業(yè)數(shù)據(jù)向業(yè)務(wù)價值轉(zhuǎn)化的能力,為業(yè)務(wù)提供服務(wù)的主要方式是數(shù)據(jù) API;
- 數(shù)據(jù)湖是企業(yè)級的技術(shù)邏輯概念,體現(xiàn)企業(yè)級數(shù)據(jù)湖架構(gòu)加速數(shù)據(jù)向業(yè)務(wù)價值轉(zhuǎn)化的能力,為業(yè)務(wù)提供服務(wù)的主要方式是原始數(shù)據(jù);
- 數(shù)據(jù)中臺、數(shù)據(jù)湖距離業(yè)務(wù)更近,能夠更快速的響應(yīng)業(yè)務(wù)和應(yīng)用開發(fā)需求,從而為業(yè)務(wù)提供速度更快的服務(wù);
- 數(shù)據(jù)中臺可以建立在數(shù)據(jù)倉庫和數(shù)據(jù)平臺之上,是加速企業(yè)從數(shù)據(jù)到業(yè)務(wù)價值的過程的中間層;
本文由 @Z先生聊產(chǎn)品 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
講的真好!學(xué)習(xí)了
這才是干貨,希望大佬以后多分享體系類的文章,公眾號已關(guān)注