10分鐘帶你了解數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺的區(qū)別與聯(lián)系(二)

2 評論 8933 瀏覽 47 收藏 15 分鐘

編輯導(dǎo)語:什么是數(shù)據(jù)湖?企業(yè)可以利用數(shù)據(jù)湖盡可能保持業(yè)務(wù)數(shù)據(jù)的可還原性,解決存儲全域原始數(shù)據(jù)的問題;而數(shù)據(jù)中臺的存在則可以幫助幫助企業(yè)提升業(yè)務(wù)處理效率。不過并非所有的企業(yè)都需要設(shè)立數(shù)據(jù)中臺。本篇文章里,作者對數(shù)據(jù)湖與數(shù)據(jù)中臺進行了詳細(xì)的解釋,一起來看一下。

引言:文接上回,沒有閱讀第一部分的小伙伴請點擊《10分鐘帶你了解數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺的區(qū)別與聯(lián)系(一)》查看,那我們就開始第二部分的內(nèi)容吧,如有不準(zhǔn)確的地方,還請希望大家進行指正。

一、數(shù)據(jù)湖

上文通過有序性與開放性分別對數(shù)據(jù)倉庫與數(shù)據(jù)湖進行描述并對比,現(xiàn)在我們來詳細(xì)地了解一下數(shù)據(jù)湖。

1. 數(shù)據(jù)湖的起源

數(shù)據(jù)湖主要是為了解決存儲全域原始數(shù)據(jù),其名稱中的“湖”字將數(shù)據(jù)湖的含義表現(xiàn)得淋漓盡致。像企業(yè)的生產(chǎn)數(shù)據(jù)(非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù))、業(yè)務(wù)歷史數(shù)據(jù)、臨時數(shù)據(jù),諸如IOT設(shè)備,移動應(yīng)用程序以及傳統(tǒng)的設(shè)備中返回的第三方數(shù)據(jù)都可以通過ETL工具形成的“水管”存儲進數(shù)據(jù)湖中。

例如筆者之前在工作過程中接觸的手機信令數(shù)據(jù)、GPS返回的定位數(shù)據(jù)等,這些數(shù)據(jù)實際上并沒有預(yù)先定義好相應(yīng)的數(shù)據(jù)結(jié)構(gòu),這就意味著可以先將數(shù)據(jù)存儲起來而無需對數(shù)據(jù)進行結(jié)構(gòu)化處理,也無需明確要進行什么分析,由數(shù)據(jù)從業(yè)人員在后續(xù)工作中進行探索和嘗試。

上文中提到的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),那什么是結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)呢?下面我們就解釋下兩者的區(qū)別與聯(lián)系。

2. 何為結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)

舉個例子。

我們收集到了這樣一堆文字信息:

  • 有個學(xué)生叫小趙,男的,97年的,土木工程系的,北京的;
  • 有個學(xué)生叫小李,98年的,女的,外語系的,江蘇蘇州的;
  • ·····

諸如此類的文字信息有幾萬行,我們存在word中,亦或是紙質(zhì)版文件經(jīng)由我們掃描成圖片格式的,這類就可以稱為非結(jié)構(gòu)化數(shù)據(jù)。假設(shè)有需求將這些文字信息中按照性別、籍貫、專業(yè)等等統(tǒng)計出來,我們在第一篇文章中提到了關(guān)系型數(shù)據(jù)庫,用相關(guān)的技術(shù)和工具將這些文字信息進行處理,處理后的數(shù)據(jù)就是結(jié)構(gòu)化數(shù)據(jù)。

所以結(jié)構(gòu)化數(shù)據(jù)的定義:是由二維表結(jié)構(gòu)來邏輯表達(dá)和實現(xiàn)的數(shù)據(jù),嚴(yán)格地遵循數(shù)據(jù)格式與長度規(guī)范,主要通過關(guān)系型數(shù)據(jù)庫進行存儲和管理。

非結(jié)構(gòu)化數(shù)據(jù):不適于由數(shù)據(jù)庫二維表來表現(xiàn)的非結(jié)構(gòu)化數(shù)據(jù),包括所有格式的辦公文檔、 XML 、 HTML 、各類報表、圖片和音頻、視頻信息等。

3. 數(shù)據(jù)湖的作用

回歸正題,企業(yè)為什么要建立數(shù)據(jù)湖呢,首先數(shù)據(jù)湖中存在一個重要的組成部分ODS(Operating Data Store,操作數(shù)據(jù)存儲),大家是否記得上一篇文章講過OLTP(On-Line Transaction Processing),OLTP側(cè)重于基本的、日常的事務(wù)處理,而我們現(xiàn)在提到的ODS就是OLTP數(shù)據(jù)的快照與歷史。

我們在上文的數(shù)據(jù)庫一節(jié)描述時提到業(yè)務(wù)數(shù)據(jù)庫與數(shù)據(jù)倉庫的結(jié)構(gòu)不同,業(yè)務(wù)數(shù)據(jù)庫是為OLTP設(shè)計的,是系統(tǒng)的實時狀態(tài)的數(shù)據(jù),而數(shù)據(jù)倉庫的數(shù)據(jù)是為OLAP的需求建設(shè)的,是為了深度的多維度分析。所以這樣就會造成基于數(shù)據(jù)倉庫的數(shù)據(jù)分析會產(chǎn)生以下的限制:

  • 由于數(shù)據(jù)倉庫的架構(gòu)設(shè)計事先訂好的,很難能做到全面覆蓋,因此基于數(shù)據(jù)倉庫的分析是收到事先定義的分析目標(biāo)及數(shù)據(jù)庫的框架限制。
  • 從OLTP的實時狀態(tài)到OLAP的分析數(shù)據(jù)的轉(zhuǎn)換會有不少信息損失,舉個例子來說,某個用戶在某個應(yīng)用程序中錢包的余額,在OLTP系統(tǒng)中僅僅只會按照業(yè)務(wù)發(fā)生情況對錢包中的余額進行實時更新,然而在OLAP系統(tǒng)中也是僅僅會記錄對該錢包操作的交易,如果想要去查詢并分析該用戶的歷史余額就會比較麻煩。

而從根本上來講,數(shù)據(jù)湖的最主要作用是盡可能保持業(yè)務(wù)數(shù)據(jù)的可還原性。數(shù)據(jù)湖的定位和搜索引擎類似,我們可以像在搜索引擎中檢索數(shù)據(jù)一樣,實現(xiàn)按需檢索,即取即用,它存取這原始的未經(jīng)改變的全量數(shù)據(jù),可以存取、處理、分析。

4. 數(shù)據(jù)湖的發(fā)展

數(shù)據(jù)湖最早是2011年由Pentaho的首席技術(shù)官James Dixon提出的一個概念,他認(rèn)為諸如數(shù)據(jù)集市,數(shù)據(jù)倉庫由于其有序性的特點,勢必會帶來數(shù)據(jù)孤島效應(yīng),而數(shù)據(jù)湖可以由于其開放性的特點可以解決數(shù)據(jù)孤島問題。

但隨著數(shù)據(jù)湖在各類企業(yè)的應(yīng)用,大家都覺得:嗯,這個數(shù)據(jù)有用,我要放進去;那個數(shù)據(jù)也有用,我也要放進去;于是把所有的數(shù)據(jù)不假思索地扔進基于數(shù)據(jù)湖的相關(guān)技術(shù)或工具中,沒有規(guī)則不成方圓,當(dāng)我們認(rèn)為所有數(shù)據(jù)都有用時,那么所有的數(shù)據(jù)都是垃圾,數(shù)據(jù)湖也變成了造成企業(yè)成本高企的數(shù)據(jù)沼澤。

所以這也是為什么“數(shù)據(jù)湖”叫“湖”,而不叫數(shù)據(jù)河,數(shù)據(jù)池亦或是數(shù)據(jù)海。

首先數(shù)據(jù)要能“存”,數(shù)據(jù)要夠“存”,數(shù)據(jù)要有邊界地“存”。企業(yè)級的數(shù)據(jù)是需要長期積淀的,所以是“數(shù)據(jù)湖”。

同時湖水天然會進行分層,滿足不同的生態(tài)系統(tǒng)要求,這與企業(yè)建設(shè)統(tǒng)一數(shù)據(jù)中心,存放管理數(shù)據(jù)的需求是一致的。熱數(shù)據(jù)在上層方便流通應(yīng)用,溫數(shù)據(jù)、冷數(shù)據(jù)位于數(shù)據(jù)中心的不同存儲介質(zhì)之中,達(dá)到數(shù)據(jù)存儲容量與成本的平衡。

二、數(shù)據(jù)中臺

我們終于迎來了最近幾年很火的數(shù)據(jù)中臺。網(wǎng)上有很多文章關(guān)于數(shù)據(jù)中臺的介紹,什么Hive、Spark、Hadoop、Kalfa等等很多技術(shù)名詞,聽上去非常的高大上而且云里霧里的,會使初涉產(chǎn)品的我們望而卻步。

所以接下來我們從何為中臺、何為數(shù)據(jù)中臺、數(shù)據(jù)中臺可以做什么三個方面來講講數(shù)據(jù)中臺。

1. 何為中臺

首先拋開數(shù)據(jù),中臺這一概念這兩年在國內(nèi)大火。說起來源,網(wǎng)上文章都會提到這種組織是2015年馬云參觀Supercell的游戲公司借鑒過來的,并且后來“阿里巴巴”CEO逍遙子提出的組建的“大中臺,小前臺”的組織和業(yè)務(wù)體制。那么我們能用一個比較淺顯的例子來理解“中臺”一詞么?

當(dāng)然可以,有一家連鎖且超級便宜的意大利西餐連鎖店“薩莉亞”,相信大部分同學(xué)都光顧過,9元的意面,24的披薩,上菜速度超快,雖然比不上傳統(tǒng)西餐,但相比于這個價位,屬實很良心了,而且目前薩莉亞在中國已經(jīng)開設(shè)了將近400家(截止2019年)分店。

那么薩莉亞保持價格低廉同時上菜效率高效的原因是什么?答案很簡單,就是中央廚房進行粗加工,然后門店的廚師僅需要簡單地烹飪即可端上餐桌。相比于傳統(tǒng)餐廳采購(買菜)→配菜→做菜的環(huán)節(jié),既減少門店廚師的數(shù)量,降低人工成本的同時又加快上菜速度。

回到我們研發(fā)流程來看,采購(買菜)→配菜環(huán)節(jié)就是我們研發(fā)的后臺,他們幫助我們解決“有什么”;而配菜→做菜環(huán)節(jié)就是我們的業(yè)務(wù)前臺團隊,他們要做的就是根據(jù)客戶的“口味”來“做什么”。

而配菜,蔬菜整理這個環(huán)節(jié),也就是薩莉亞的“中央廚房”就相當(dāng)于我們的中臺,僅僅需要門店的需求,中央廚房就可以快速提供對應(yīng)的材料,提高業(yè)務(wù)開發(fā)效率,減少重復(fù)開發(fā)成本。

2. 何為數(shù)據(jù)中臺

介紹完了“中臺”這一概念,數(shù)據(jù)中臺相信大家也能舉一反三。沒錯,對于采購來的“菜”就相當(dāng)于數(shù)據(jù),做出來的“菜”就相當(dāng)于業(yè)務(wù)部門所以需要的數(shù)據(jù)應(yīng)用。

那么配菜環(huán)節(jié)就相當(dāng)于IT部門的各種數(shù)據(jù)算法,每道菜單獨配菜效率慢且冗余度較高,于是“中央廚房”就對數(shù)據(jù)算法進行規(guī)范化,系統(tǒng)化。針對于業(yè)務(wù)部門所需要的各道菜提供粗加工的半成品,這就是“數(shù)據(jù)產(chǎn)品”。

這種“中央廚房”配菜的過程就相當(dāng)于我們所說的“數(shù)據(jù)中臺”。那么是不是每個企業(yè)都必須搭建數(shù)據(jù)中臺么?數(shù)據(jù)中臺在業(yè)務(wù)上能解決什么問題呢?

3. 數(shù)據(jù)中臺能做什么

所有企業(yè)是否都需要搭建數(shù)據(jù)中臺?首先我們知道企業(yè)引進一項技術(shù)或產(chǎn)品,不在于是否“時髦”,不在于是否“高科技”,而在于是否適合該公司目前的發(fā)展,是否能提高公司的利潤,降低公司的成本。

首先數(shù)據(jù)中臺的作用通過對中臺及數(shù)據(jù)中臺的描述,總結(jié)以下2點:

  1. 提供數(shù)據(jù)產(chǎn)品及數(shù)據(jù)服務(wù),包括但不限于決策支持類工具(例如業(yè)務(wù)報表、大屏數(shù)據(jù)可視化展示);數(shù)據(jù)分析類(BI商業(yè)智能、機器學(xué)習(xí)模型、數(shù)據(jù)挖掘);數(shù)據(jù)檢索(日志分析)等;
  2. 提升企業(yè)各部門的數(shù)據(jù)連通性,避免數(shù)據(jù)孤島的產(chǎn)生。

根據(jù)以上提到數(shù)據(jù)中臺的兩個優(yōu)勢,針對一個企業(yè)是否搭建數(shù)據(jù)中臺,亦或是說一個企業(yè)在一開始從零到一就要構(gòu)建數(shù)據(jù)中臺?筆者在此有幾點自己的總結(jié):

首先針對于不同的行業(yè),盡管傳統(tǒng)企業(yè)數(shù)字化改革正在路上且已經(jīng)有很多行業(yè)已經(jīng)改革成功,但是針對于大部分傳統(tǒng)企業(yè),別說數(shù)據(jù)中臺,公司連數(shù)據(jù)倉庫的時代都沒有到來,“羅馬不是一天建成的”拋去建設(shè)數(shù)據(jù)中臺的財力,時間成本高昂不提,就是對于傳統(tǒng)企業(yè)的業(yè)務(wù)流轉(zhuǎn)模式,企業(yè)員工接受程度來說都是一條難以逾越的鴻溝,數(shù)據(jù)中臺不可操之過急。

對于一些處于數(shù)據(jù)倉庫時代的傳統(tǒng)企業(yè)或互聯(lián)網(wǎng)企業(yè),由于各個部門不停無限地進行滿足其業(yè)務(wù)支撐點取數(shù)要求、業(yè)務(wù)統(tǒng)計、看數(shù)需求,就可以嘗試轉(zhuǎn)型數(shù)據(jù)中臺。

對初創(chuàng)企業(yè),業(yè)務(wù)線單一且業(yè)務(wù)模式還經(jīng)常不斷變化,不斷試錯時,沒有能力去進行數(shù)據(jù)中臺的搭建,換言之就是“先活下去最重要”。

三、小結(jié)

本篇文章分兩部分介紹了數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺的區(qū)別與聯(lián)系。

關(guān)于數(shù)據(jù)有人說數(shù)據(jù)是新的石油資源,國家也將數(shù)據(jù)作為一種新型生產(chǎn)要素,與傳統(tǒng)生產(chǎn)要素并列。

筆者曾經(jīng)在泛互聯(lián)網(wǎng)以及傳統(tǒng)企業(yè)的業(yè)務(wù)部門都工作一段時間,由于各類原因,相比于泛互聯(lián)網(wǎng)行業(yè)的數(shù)據(jù)化相比,傳統(tǒng)企業(yè)的數(shù)據(jù)化之路并不一帆風(fēng)順。2020年8月,國務(wù)院國資委引發(fā)《關(guān)于加快推進國有企業(yè)數(shù)字化轉(zhuǎn)型工作的通知》表現(xiàn)出各國有企業(yè)未來數(shù)字化轉(zhuǎn)型將成為必然,如何協(xié)助傳統(tǒng)企業(yè)進行數(shù)字化轉(zhuǎn)型,利用數(shù)據(jù)驅(qū)動傳統(tǒng)行業(yè)迸發(fā)新的活力對于數(shù)據(jù)產(chǎn)品經(jīng)理,尤其是對ToB的數(shù)據(jù)產(chǎn)品經(jīng)理將會是挑戰(zhàn)與機遇。

筆者會繼續(xù)努力與大家分享交流其他數(shù)據(jù)產(chǎn)品相關(guān)的文章與內(nèi)容。

 

本文由 @快樂的給予 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Pexels,基于 CC0 協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 蹲蹲更新

    來自廣東 回復(fù)
  2. 寫的很棒~ 方便提供下微信號碼? 想交流交流~
    我的: 921947885

    來自廣東 回復(fù)