大變局:國(guó)產(chǎn)數(shù)據(jù)庫的機(jī)遇與挑戰(zhàn)|深度研報(bào)
編輯導(dǎo)語:在當(dāng)下的國(guó)際環(huán)境下,國(guó)產(chǎn)數(shù)據(jù)庫的機(jī)遇和挑戰(zhàn)正在上演中,本篇文章作者系統(tǒng)且詳細(xì)地講述了國(guó)產(chǎn)數(shù)據(jù)庫的機(jī)遇和挑戰(zhàn),從多個(gè)層次分析了數(shù)據(jù)庫的方方面面,一起來學(xué)習(xí)一下,希望對(duì)你有幫助。
就在本月,烏克蘭副總理兼數(shù)字化轉(zhuǎn)型部長(zhǎng)Mykhailo Fedorov在推特上曬出了發(fā)給Oracle和SAP的兩封信,希望其終止與俄羅斯的商業(yè)關(guān)系。
Oracle隨后發(fā)推文稱:“為了Oracle在全球各地的150000名員工的利益,為了支持烏克蘭民選政府和烏克蘭人民,Oracle公司已經(jīng)暫停了在俄羅斯聯(lián)邦的所有業(yè)務(wù)”。
俄羅斯的遭遇給了中國(guó)很大警示,在當(dāng)前國(guó)際貿(mào)易摩擦加劇、國(guó)際局勢(shì)多變的情況下,數(shù)據(jù)庫軟件作為最重要的IT基礎(chǔ)設(shè)施之一。
中國(guó)必須實(shí)現(xiàn)國(guó)產(chǎn)化和自主可控,由此也引發(fā)了近年來國(guó)產(chǎn)數(shù)據(jù)庫的創(chuàng)業(yè)投資浪潮。
一、核心結(jié)論匯總
1)數(shù)據(jù)庫行業(yè)云化趨勢(shì)顯著,所有數(shù)據(jù)庫都可直接上云,云原生架構(gòu)最具優(yōu)勢(shì)。
Gartner預(yù)計(jì),到2021年,云數(shù)據(jù)庫在整個(gè)數(shù)據(jù)庫市場(chǎng)中的占比將首次達(dá)到50%。
而到2023年,75%的數(shù)據(jù)庫要跑在云平臺(tái)之上。
2)國(guó)產(chǎn)數(shù)據(jù)庫存在廣泛替代空間。
目前,國(guó)產(chǎn)數(shù)據(jù)庫主要應(yīng)用還是在黨政軍領(lǐng)域。
國(guó)產(chǎn)數(shù)據(jù)庫長(zhǎng)期被Oracle、IBM、MySQL這類產(chǎn)品擠壓,隨著中美貿(mào)易戰(zhàn)的升級(jí),國(guó)家鼓勵(lì)軟件國(guó)產(chǎn)化,國(guó)產(chǎn)軟件將會(huì)越來越被重視,這將是一大轉(zhuǎn)變契機(jī)。
3)我國(guó)公有云、私有云、混合云將長(zhǎng)期共存,云數(shù)據(jù)庫作為基礎(chǔ)性產(chǎn)品,需要支持跨云、多云、混合云。
初創(chuàng)廠商具備云中立優(yōu)勢(shì),可以避免客戶被過度綁定,提供多云支持,拉動(dòng)客戶增長(zhǎng)。
很多公司并未采用單一的云廠商,他們的大多數(shù)業(yè)務(wù)都運(yùn)行在混合環(huán)境和多云環(huán)境中。
4)湖倉一體成為發(fā)展熱點(diǎn)。
「湖倉一體」是一種新型開放式架構(gòu),將數(shù)據(jù)湖極低成本存儲(chǔ)大量數(shù)據(jù)和數(shù)據(jù)倉庫高性能進(jìn)行大量數(shù)據(jù)處理的優(yōu)勢(shì)充分結(jié)合,通過一套架構(gòu)、一個(gè)集群、一份數(shù)據(jù),真正消除數(shù)據(jù)孤島。
5)大數(shù)據(jù)與數(shù)據(jù)庫一體化趨勢(shì)明顯。
用戶可直接用SQL處理海量數(shù)據(jù)對(duì)廠商有以下需求:
- 內(nèi)核引擎強(qiáng)勁,一定性價(jià)比對(duì)外輸出海量數(shù)據(jù)分析處理能力;
- 生態(tài)工具要完善。
6)場(chǎng)景端時(shí)效性要求倒逼數(shù)據(jù)庫廠商提升產(chǎn)品性能,產(chǎn)品性能持續(xù)領(lǐng)先是決勝要素之一。
產(chǎn)品硬核實(shí)力及成熟度是決定營(yíng)收規(guī)模及增長(zhǎng)的主要因素。
7)分布式數(shù)據(jù)庫快速發(fā)展。
分布式數(shù)據(jù)庫物理上更貼近業(yè)務(wù)部門,可以降低通信成本;同時(shí)增加數(shù)據(jù)的適當(dāng)冗余,因?yàn)橐粋€(gè)地方出了故障不會(huì)引起整個(gè)系統(tǒng)崩潰。
8)智能化運(yùn)維助力數(shù)據(jù)庫智能調(diào)優(yōu)。
啟發(fā)式機(jī)器學(xué)習(xí)技術(shù)給予海量運(yùn)行數(shù)據(jù)形成智能運(yùn)維模型,自動(dòng)化處理各項(xiàng)任務(wù),例如自動(dòng)管理計(jì)算與存儲(chǔ)資源、自動(dòng)防范惡意訪問與攻擊、主動(dòng)實(shí)現(xiàn)數(shù)據(jù)庫智能調(diào)優(yōu)。
9)開源策略成為部分廠商吸引用戶、盤活生態(tài)和促進(jìn)技術(shù)發(fā)展的重要手段。
通過將底層技術(shù)開源,可以吸引更多人開發(fā)、測(cè)試、維護(hù),不僅可以降低廠商售后和服務(wù)的成本,還可以進(jìn)一步提高軟件質(zhì)量,同時(shí)有利于構(gòu)建生態(tài)。
10)One size cannot fit all。
雖然混合事務(wù)分析HTAP在中等規(guī)模客戶的應(yīng)用已成為熱點(diǎn)研究方向。
但HTAP價(jià)值在于更加簡(jiǎn)單通用,對(duì)于中等數(shù)據(jù)量規(guī)模用戶可滿足需求,對(duì)于超大型企業(yè)數(shù)據(jù)分析性能可能不如OLAP。
11)更多利用硬件發(fā)展紅利是必然趨勢(shì)。
計(jì)算需要GPU加速,存儲(chǔ)方面持久存儲(chǔ)(NVM)代替硬盤存儲(chǔ),需要重新設(shè)計(jì)架構(gòu)利用特性。
存算分離執(zhí)行路徑變長(zhǎng),數(shù)據(jù)庫需采用高性能網(wǎng)絡(luò)等。
12)其他:OLAP和NoSQL將是主要的創(chuàng)業(yè)和投資方向。
在國(guó)產(chǎn)數(shù)據(jù)庫的OLTP領(lǐng)域,華為、阿里、騰訊等廠商有技術(shù)優(yōu)勢(shì)和資金優(yōu)勢(shì),同時(shí)也有生態(tài)和渠道的優(yōu)勢(shì)。
創(chuàng)業(yè)公司進(jìn)入OLTP領(lǐng)域門檻非常高,而在 OLAP領(lǐng)域,建立新一代數(shù)據(jù)倉庫以及NoSQL數(shù)據(jù)庫方面,未來會(huì)涌現(xiàn)更多的創(chuàng)業(yè)公司,這塊可能是很多投資機(jī)構(gòu)接下來要重點(diǎn)關(guān)注的方向。
二、市場(chǎng)環(huán)境
1. 數(shù)據(jù)庫的定義及邊界
數(shù)據(jù)庫管理系統(tǒng)是各類信息系統(tǒng)不可或缺的基礎(chǔ)性平臺(tái),主要任務(wù)是對(duì)數(shù)據(jù)的歸集、分類、組織、處理、存儲(chǔ)、分析、應(yīng)用的全生命周期提供共性技術(shù)支撐。
數(shù)據(jù)庫大致可以由內(nèi)核組件集與外部組件集共同組成,其中外部組件集以數(shù)據(jù)庫配套的獨(dú)立支撐軟件為主,例如數(shù)據(jù)庫驅(qū)動(dòng)。
內(nèi)核組件集則一般可以分為管理、網(wǎng)絡(luò)、計(jì)算和存儲(chǔ)四大模塊。
- 存儲(chǔ)組件:負(fù)責(zé)數(shù)據(jù)持久化存儲(chǔ)的組件,對(duì)數(shù)據(jù)庫的日志、索引、堆數(shù)據(jù)等內(nèi)容進(jìn)行管理。
- 計(jì)算組件:又可以稱為協(xié)調(diào)組件、服務(wù)組件,負(fù)責(zé)響應(yīng)數(shù)據(jù)庫訪問請(qǐng)求,并將SQL語言解析成為數(shù)據(jù)庫對(duì)應(yīng)的內(nèi)部任務(wù)。計(jì)算組件在分布式、集群等架構(gòu)下也承接大部分的計(jì)算任務(wù),例如排序、聯(lián)接等。
- 管理組件:公共組件部分,用于對(duì)數(shù)據(jù)庫全生命狀態(tài)的管理,例如心跳管理、集群管理等,以及各類中心化任務(wù)承接,如死鎖仲裁、存儲(chǔ)映射管理、元數(shù)據(jù)管理、事務(wù)號(hào)管理等。
- 網(wǎng)絡(luò)組件:管理整個(gè)數(shù)據(jù)庫管理系統(tǒng)的網(wǎng)絡(luò)通訊的組件。數(shù)據(jù)庫的網(wǎng)絡(luò)通訊有內(nèi)部和外部之分。內(nèi)部一般指在集群環(huán)境或者分布式環(huán)境下的各節(jié)點(diǎn)之間的高速數(shù)據(jù)交換。外部一般指的是各個(gè)數(shù)據(jù)庫通過對(duì)外訪問協(xié)議與存在于客戶端的驅(qū)動(dòng)進(jìn)行互聯(lián)的網(wǎng)絡(luò)交換。
- 驅(qū)動(dòng)組件:支撐數(shù)據(jù)庫能正常提供服務(wù)的配套獨(dú)立組件,數(shù)據(jù)庫管理系統(tǒng)基于其通用特性,往往可以對(duì)不同語言開發(fā)的軟件提供數(shù)據(jù)服務(wù)。但是由于數(shù)據(jù)庫本身只對(duì)外提供網(wǎng)絡(luò)通訊協(xié)議,對(duì)協(xié)議的封裝則由客戶端側(cè)的不同驅(qū)動(dòng)組件完成。通常有支持JAVA 語言的JDBC 接口、支持C 語言的ODBC 接口和C-API 接口等。
2. 行業(yè)常見名詞釋義
- 關(guān)系型數(shù)據(jù)庫:采用了關(guān)系模型來組織數(shù)據(jù)的數(shù)據(jù)庫,其以行和列的形式存儲(chǔ)數(shù)據(jù),以便于用戶理解,關(guān)系型數(shù)據(jù)庫這一系列的行和列被稱為表,一組表組成了數(shù)據(jù)庫。用戶通過查詢來檢索數(shù)據(jù)庫中的數(shù)據(jù),而查詢是一個(gè)用于限定數(shù)據(jù)庫中某些區(qū)域的執(zhí)行代碼。關(guān)系模型可以簡(jiǎn)單理解為二維表格模型,而一個(gè)關(guān)系型數(shù)據(jù)庫就是由二維表及其之間的關(guān)系組成的一個(gè)數(shù)據(jù)組織。
- 非關(guān)系型數(shù)據(jù)庫:對(duì)于NoSQL并沒有一個(gè)明確的范圍和定義,一個(gè)共同的特點(diǎn)都是去掉關(guān)系數(shù)據(jù)庫的關(guān)系型特性。
- 數(shù)據(jù)湖:是一個(gè)集中式的存儲(chǔ),允許以任意規(guī)模存儲(chǔ)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。可以存儲(chǔ)原始數(shù)據(jù),而不需要先轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),基于數(shù)據(jù)湖之上可以運(yùn)行多種類型的分析。
- 數(shù)據(jù)倉庫:是處理過后的結(jié)構(gòu)化或者半結(jié)構(gòu)化數(shù)據(jù),更加靠近數(shù)據(jù)的消費(fèi)端。
- 湖倉一體:使用一套技術(shù)去實(shí)現(xiàn)數(shù)據(jù)湖和數(shù)據(jù)倉庫的能力,類似多模的概念。
3. 行業(yè)歷史及階段
數(shù)據(jù)庫發(fā)展經(jīng)歷萌芽——商業(yè)化起步——發(fā)展成熟階段。
1)萌芽階段:1960年,GE發(fā)布IDS數(shù)據(jù)庫系統(tǒng)(Integrated DataBase System),制定網(wǎng)狀模型語言標(biāo)準(zhǔn),1969年,IBM發(fā)布IMS數(shù)據(jù)庫系統(tǒng)(Information Mangement System),使用層次模型。解決了數(shù)據(jù)集中和共享問題,用戶在對(duì)兩種數(shù)據(jù)庫進(jìn)行存取時(shí),需要指出存儲(chǔ)方法和路徑,易用性較差,沒有應(yīng)用起來。
2)商業(yè)化起步:1970年-1980年,關(guān)系模型提出,IBM開發(fā)出關(guān)系型數(shù)據(jù)庫System R,與之相適配的結(jié)構(gòu)化查詢語言SQL。70年代末,關(guān)系型數(shù)據(jù)庫在Oracle和DB2中得到發(fā)展和商業(yè)化,SQL不關(guān)注獲取數(shù)據(jù)的具體過程,把用戶從數(shù)據(jù)操作細(xì)節(jié)中解脫出來,只描述想要的數(shù)據(jù)即可,成為關(guān)系型數(shù)據(jù)庫得以成功的關(guān)鍵。
3)發(fā)展成熟(1980-1990):主要表現(xiàn)為
- 數(shù)據(jù)庫生態(tài)逐步完善,與程序設(shè)計(jì)語言、軟件工程、信息系統(tǒng)設(shè)計(jì)等技術(shù)互相影響;
- 開源數(shù)據(jù)庫發(fā)展,當(dāng)前2大開源數(shù)據(jù)庫系統(tǒng)——MySQL和PostgreSQL誕生;
- OLAP開始發(fā)展。早期數(shù)據(jù)庫處理在線交易業(yè)務(wù),被稱為OLTP(On-Line Transaction Processing);業(yè)務(wù)數(shù)據(jù)積累,OLAP出現(xiàn)(On-Line Analytical Processing);
- 數(shù)倉概念(Data Warehouse)提出。單機(jī)難以應(yīng)對(duì)爆發(fā)數(shù)據(jù)增長(zhǎng),分布式技術(shù)走上舞臺(tái)。
4)云數(shù)據(jù)庫時(shí)代(1990-):云計(jì)算的發(fā)展帶動(dòng)各類基礎(chǔ)軟件開始云化轉(zhuǎn)型,云原生數(shù)據(jù)庫天然具備云上的彈性、靈活性、高可用等特點(diǎn),實(shí)現(xiàn)了存儲(chǔ)和計(jì)算完全解耦,作為服務(wù)整體交付,節(jié)約了用戶管理基礎(chǔ)架構(gòu)所需的成本、時(shí)間和資源,能夠提供豐富的產(chǎn)品體系,經(jīng)濟(jì)高效的部署方式、按需付費(fèi)的支付模式。
數(shù)據(jù)庫的云化經(jīng)歷了2個(gè)階段:
- 一是云托管,將原有數(shù)據(jù)庫系統(tǒng)部署在云平臺(tái),將數(shù)據(jù)庫服務(wù)化,按需購買,用戶自行負(fù)責(zé)整個(gè)數(shù)據(jù)庫系統(tǒng)的可用性、安全性和性能,有自己的IT運(yùn)維團(tuán)隊(duì),有自己的數(shù)據(jù)庫管理團(tuán)隊(duì),能力要求高,人力成本投入大;
- 二是云原生,利用云化的資源池特點(diǎn)完全重構(gòu)數(shù)據(jù)庫的層次結(jié)構(gòu),使計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等資源徹底解耦,更充分靈活利用資源池的彈性。后一階段對(duì)數(shù)據(jù)庫的改造更為徹底。
云原生數(shù)據(jù)庫的特點(diǎn):
- 存算分離,計(jì)算層解析SQL,并轉(zhuǎn)為物理執(zhí)行計(jì)劃,存儲(chǔ)層負(fù)責(zé)數(shù)據(jù)緩存與事務(wù)處理;資源解耦與池化,目前進(jìn)展是CPU和內(nèi)存綁在一起,和SSD持久化存儲(chǔ)分開。下一步隨著非易失性存儲(chǔ)和RDMA技術(shù)的成熟,會(huì)將CPU和內(nèi)存隔離,內(nèi)存再進(jìn)行池化,三層池化有利于客戶按需取用;
- 執(zhí)行引擎的完全彈性,云原生架構(gòu),下層是分布式共享存儲(chǔ),上層是分布式共享計(jì)算,中間用于計(jì)算存儲(chǔ)解耦,提供彈性能力;
- ?高可用與數(shù)據(jù)一致性,可用性是指集群的部分節(jié)點(diǎn)發(fā)生故障時(shí),系統(tǒng)可以在正常響應(yīng)時(shí)間內(nèi)對(duì)外提供服務(wù);一致性是指更新操作完成后,各個(gè)節(jié)點(diǎn)可以同時(shí)看到數(shù)據(jù)的最新版本,分布式系統(tǒng)存在網(wǎng)絡(luò)分區(qū),需要在一致性和可用性之間做出權(quán)衡;
- 多租戶與資源隔離,傳統(tǒng)做法是一租戶一數(shù)據(jù)庫系統(tǒng),或者多租戶共享同一個(gè)數(shù)據(jù)庫系統(tǒng),運(yùn)維管理復(fù)雜,避免某個(gè)租戶“吃掉”系統(tǒng)資源,云原生場(chǎng)景下,數(shù)據(jù)庫可以為不同的租戶綁定相應(yīng)的計(jì)算和存儲(chǔ)節(jié)點(diǎn)實(shí)現(xiàn)資源隔離;
- 智能化運(yùn)維,比如自定義備份策略、自動(dòng)在線升級(jí)修復(fù)BUG,監(jiān)控自定義報(bào)警燈。
以AP為例,OLAP從最早的數(shù)據(jù)庫一體機(jī),逐漸演變到MPP數(shù)據(jù)庫和Hadoop數(shù)據(jù)庫,再到云原生架構(gòu)的數(shù)據(jù)庫,數(shù)據(jù)庫一體機(jī)價(jià)格非常昂貴,國(guó)產(chǎn)替代有南大通用、人大金倉、天璣、云和恩墨等。
而MPP數(shù)據(jù)庫的實(shí)時(shí)性非常強(qiáng),現(xiàn)在主要是Greenplum、Teradata。
最后是Hadoop,有星環(huán)、中興、華為等傳統(tǒng)的硬件廠商在搭建Hadoop數(shù)據(jù)倉庫。
最新一代為云原生,檢具擴(kuò)展、存算分離、彈性擴(kuò)容等特點(diǎn)。
共享存儲(chǔ)架構(gòu):服務(wù)器,有計(jì)算有內(nèi)存,存儲(chǔ)完全共享,集群規(guī)模很小,存儲(chǔ)受限,架構(gòu)也受限。
MPP架構(gòu):存算一體,數(shù)據(jù)存儲(chǔ)容量存在瓶頸,無法滿足隨業(yè)務(wù)而快速增長(zhǎng)的數(shù)據(jù)量存儲(chǔ)需求。
擴(kuò)容涉及數(shù)據(jù)的重分布,產(chǎn)生大量網(wǎng)絡(luò)、內(nèi)存開銷,影響業(yè)務(wù)連續(xù)性。
多ETL任務(wù)時(shí),會(huì)大量搶占資源,從而影響數(shù)據(jù)分析的效率,導(dǎo)致查詢超時(shí)甚至因?yàn)榧贺?fù)載過大后整個(gè)集群崩潰不可用。
例如,Teradata,軟硬一體,網(wǎng)絡(luò)硬件是專有硬件,比較貴,幾百節(jié)點(diǎn),擴(kuò)容比較復(fù)雜。
加一個(gè)節(jié)點(diǎn),要挪過來一部分?jǐn)?shù)據(jù),所有數(shù)據(jù)要重新打散排一遍;GP解決軟硬一體,X86服務(wù)器上就可以,用軟件實(shí)現(xiàn)TD用硬件實(shí)現(xiàn)的過程;
Hadoop:隨著數(shù)據(jù)倉庫在 Hadoop/Hive 體系上搭建和完善,ETL 任務(wù)全部轉(zhuǎn)移至 Hadoop 集群,這個(gè)階段使用 Presto 完成 OLAP 分析。
Presto 天然和 Hive 共享元數(shù)據(jù)信息,且共同使用物理數(shù)據(jù)存儲(chǔ),即插即用。
大量的對(duì)數(shù)倉表的靈活查詢使用 Presto 完成;組件非常復(fù)雜,軟件定義存儲(chǔ),分布式文件系統(tǒng)。
存儲(chǔ)和計(jì)算還是綁定的,交付非常復(fù)雜,做了一些邊緣場(chǎng)景;
云原生架構(gòu):存算分離、彈性(動(dòng)態(tài)啟停)、無狀態(tài)的網(wǎng)線和計(jì)算節(jié)點(diǎn),錯(cuò)峰使用,例如Snowflake、偶數(shù)科技。
4. 市場(chǎng)需求及價(jià)值
1)數(shù)據(jù)庫分類——按應(yīng)用方向
按應(yīng)用方向不同,關(guān)系型數(shù)據(jù)庫又可分為交易型數(shù)據(jù)庫(OLTP)和分析型數(shù)據(jù)庫(OLAP):
交易型數(shù)據(jù)庫主要面對(duì)與企業(yè)業(yè)務(wù)數(shù)據(jù)相關(guān)性強(qiáng)的事務(wù)場(chǎng)景,例如銀行轉(zhuǎn)賬,電子商務(wù)等,涉及高并發(fā)數(shù)據(jù)的“增、刪、改、查”。
分析型數(shù)據(jù)庫對(duì)來自交易型數(shù)據(jù)庫和其他數(shù)據(jù)源的歷史數(shù)據(jù)進(jìn)行大批查詢,應(yīng)用在海量、復(fù)雜數(shù)據(jù)環(huán)境下為企業(yè)決策提供數(shù)據(jù)分析。
2)數(shù)據(jù)庫分類——按數(shù)據(jù)組織形式
按照數(shù)據(jù)組織形式,數(shù)據(jù)庫可以分為關(guān)系型和非關(guān)系型(NoSQL)數(shù)據(jù)庫。
關(guān)系型數(shù)據(jù)庫的核心是數(shù)據(jù)表(行、列數(shù)據(jù))、表內(nèi)結(jié)構(gòu)和表間關(guān)系。
非關(guān)系型是一種新型的數(shù)據(jù)結(jié)構(gòu)化存儲(chǔ)方法的集合,適用于各種非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),能夠很好地滿足海量數(shù)據(jù)的高并發(fā)讀寫需求。
典型的NoSQL數(shù)據(jù)庫包括鍵值數(shù)據(jù)庫,列存儲(chǔ)數(shù)據(jù)庫、文檔型數(shù)據(jù)庫、圖數(shù)據(jù)庫,其中,根據(jù)DB-engines排名,以圖數(shù)據(jù)庫受歡迎度最高。
部分非關(guān)系型模型示意圖:
圖數(shù)據(jù)庫
圖數(shù)據(jù)庫(GDB-Graph Database),是一個(gè)使用圖結(jié)構(gòu)進(jìn)行語義查詢的數(shù)據(jù)庫,它使用節(jié)點(diǎn)、邊和屬性來表示和存儲(chǔ)數(shù)據(jù)。
目前主流的圖數(shù)據(jù)庫選擇的圖模型是屬性圖。屬性圖由點(diǎn)、邊、標(biāo)簽和屬性組成。
關(guān)于圖數(shù)據(jù)庫的實(shí)例:
圖數(shù)據(jù)庫直觀表示關(guān)系,對(duì)于高度互聯(lián)數(shù)據(jù)非常有用(數(shù)據(jù)量越大,越復(fù)雜的關(guān)聯(lián),優(yōu)勢(shì)明顯)。
應(yīng)用場(chǎng)景來看,圖數(shù)據(jù)庫還是針對(duì)用大量數(shù)據(jù)并且需要多維處理或者多層滲透的環(huán)節(jié),因此金融、電商、社交等領(lǐng)域中使用比較多,且場(chǎng)景的針對(duì)性較強(qiáng)。
- 社交領(lǐng)域:Facebook, Twitter,Linkedin用它來管理社交關(guān)系,實(shí)現(xiàn)好友推薦;
- 零售領(lǐng)域:eBay,沃爾瑪使用它實(shí)現(xiàn)商品實(shí)時(shí)推薦,給買家更好的購物體驗(yàn);
- 金融領(lǐng)域:摩根大通,花旗和瑞銀等銀行在用圖數(shù)據(jù)庫做風(fēng)控處理;
- 汽車制造領(lǐng)域:沃爾沃,戴姆勒和豐田等頂級(jí)汽車制造商依靠圖數(shù)據(jù)庫推動(dòng)創(chuàng)新制造解決方案;
- 電信領(lǐng)域:Verizon, Orange和AT&T 等電信公司依靠圖數(shù)據(jù)庫來管理網(wǎng)絡(luò),控制訪問并支持客戶360;
- 酒店領(lǐng)域:萬豪和雅高酒店等頂級(jí)酒店公司依使用圖數(shù)據(jù)庫來管理復(fù)雜且快速變化的庫存。
圖數(shù)據(jù)庫——大想象空間來源于與AI的結(jié)合。
圖數(shù)據(jù)庫的數(shù)據(jù)存儲(chǔ)模型其實(shí)特別適合機(jī)器學(xué)習(xí)計(jì)算,因此,不少人會(huì)直接選擇直接在圖數(shù)據(jù)庫上跑機(jī)器學(xué)習(xí)算法。
近年來,隨著深度學(xué)習(xí)的興起,有了在圖數(shù)據(jù)庫上做圖神經(jīng)網(wǎng)絡(luò)(GNN)的案例。
5. 市場(chǎng)規(guī)模及增速
1)全球市場(chǎng)規(guī)模及增速
Gartner報(bào)告顯示,2020年全球數(shù)據(jù)庫市場(chǎng)規(guī)模為648億美元,占基礎(chǔ)軟件支出最大構(gòu)成。
未來,數(shù)據(jù)庫市場(chǎng)的規(guī)模還將繼續(xù)增長(zhǎng),預(yù)計(jì)到2024年,全球數(shù)據(jù)庫市場(chǎng)規(guī)模將達(dá)到1000億美元。
云數(shù)據(jù)庫是未來趨勢(shì):云原生數(shù)據(jù)庫正在成為一種重要的數(shù)據(jù)庫新形態(tài),根據(jù)Gartner數(shù)據(jù),2020年云數(shù)據(jù)庫已占據(jù)整體數(shù)據(jù)庫市場(chǎng)份額的40%,且貢獻(xiàn)了增長(zhǎng)市場(chǎng)的9成以上份額.
據(jù)Gartner預(yù)測(cè),到2023年75%的數(shù)據(jù)庫會(huì)被直接部署或者向云上遷移,營(yíng)收數(shù)據(jù)將占據(jù)數(shù)據(jù)庫整體市場(chǎng)的半數(shù)以上。
Gartner對(duì)數(shù)據(jù)庫細(xì)分市場(chǎng)的規(guī)模統(tǒng)計(jì),2020年關(guān)系型數(shù)據(jù)庫全球市場(chǎng)規(guī)模為531億美元,占比83.3%。
根據(jù)Gartner,2020年非關(guān)系型數(shù)據(jù)庫市場(chǎng)增速34.5%,關(guān)系型數(shù)據(jù)庫市場(chǎng)增速15.2%。
全球非關(guān)系型數(shù)據(jù)庫(NoSQL)在 2020~2022年市場(chǎng)增速30%左右,遠(yuǎn)高于數(shù)據(jù)庫市場(chǎng)整體增速。
2)中國(guó)市場(chǎng)規(guī)模及增速
數(shù)據(jù)規(guī)模爆炸性增長(zhǎng),數(shù)據(jù)應(yīng)用快速深化,疊加網(wǎng)信產(chǎn)業(yè)的快速發(fā)展和新基建的深度布局,我國(guó)數(shù)據(jù)庫產(chǎn)業(yè)進(jìn)入重大發(fā)展機(jī)遇期。
據(jù)中國(guó)信通院測(cè)算,2020年中國(guó)數(shù)據(jù)庫市場(chǎng)規(guī)模約241億元。
預(yù)計(jì)到2025年,中國(guó)數(shù)據(jù)庫市場(chǎng)規(guī)模將達(dá)688億元,年復(fù)合增長(zhǎng)率為23.4%。
我國(guó)數(shù)據(jù)庫市場(chǎng)規(guī)模在全球占比約5.2%,而同期我國(guó)IT支出在全球占比約12%。
2020年我國(guó)數(shù)據(jù)庫市場(chǎng)規(guī)模在國(guó)內(nèi)IT支出占比約0.9%,而全球這一比例則達(dá)1.9%。
兩組數(shù)據(jù)都表明,我國(guó)數(shù)據(jù)庫市場(chǎng)增長(zhǎng)潛力巨大。
伴隨云計(jì)算底層設(shè)施成熟,云端數(shù)據(jù)庫市場(chǎng)份額迅速擴(kuò)大。
中國(guó)信通院報(bào)告顯示,2020年我國(guó)公有云數(shù)據(jù)庫市場(chǎng)規(guī)模為107.68億元,占我國(guó)數(shù)據(jù)庫規(guī)模45%,未來5年復(fù)合增長(zhǎng)率36.1%,預(yù)計(jì)到2025年公有云數(shù)據(jù)庫市場(chǎng)規(guī)模將超過500億元。
中國(guó)關(guān)系型數(shù)據(jù)庫規(guī)模為31億美元,占比76%。
由此可見,關(guān)系型數(shù)據(jù)庫在國(guó)內(nèi)外無疑都是數(shù)據(jù)庫中的絕對(duì)主流。
6. 市場(chǎng)增長(zhǎng)的驅(qū)動(dòng)因素
互聯(lián)網(wǎng)大規(guī)模商用,加速數(shù)據(jù)的產(chǎn)生、流通和融合,海量數(shù)據(jù)規(guī)模和復(fù)雜數(shù)據(jù)結(jié)構(gòu)驅(qū)動(dòng)數(shù)據(jù)庫市場(chǎng)穩(wěn)定增長(zhǎng)。
IDC和Ovum 預(yù)計(jì)2024 年全球數(shù)據(jù)總量和流量將分別保持4 年CAGR 28.1%和27.6%的強(qiáng)勁速度,更大的數(shù)據(jù)量級(jí)對(duì)數(shù)據(jù)庫的擴(kuò)容、性能、功能提出了新的需求。
此外,人工智能、機(jī)器學(xué)習(xí)、語義分析、圖像識(shí)別等技術(shù)則需要大量的非結(jié)構(gòu)化數(shù)據(jù)來開展工作,NoSql存在發(fā)展機(jī)遇。
根據(jù)IDC 數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)占整體數(shù)據(jù)量比重高達(dá)80%以上,這意味著絕大部分非結(jié)構(gòu)化數(shù)據(jù)的價(jià)值還未被充分發(fā)掘。
企業(yè)上云趨勢(shì)明顯,數(shù)據(jù)庫成為連接IaaS到應(yīng)用的關(guān)鍵環(huán)節(jié)。
數(shù)據(jù)顯示,在過去十年,企業(yè)上云的意愿從3%上升到了84%。
2020年我國(guó)已經(jīng)應(yīng)用云計(jì)算的企業(yè)占比達(dá)到72.1%,較2019年上升了6%。
伴隨著企業(yè)上云進(jìn)程的不斷深入,企業(yè)上云從資源上云逐步進(jìn)入到應(yīng)用上云,數(shù)據(jù)庫作為PaaS層產(chǎn)品,成為關(guān)鍵環(huán)節(jié)。
政策利好本土廠商,「信創(chuàng)」風(fēng)口,國(guó)產(chǎn)數(shù)據(jù)庫的新機(jī)遇。2020-2022 三年時(shí)間,信創(chuàng)產(chǎn)業(yè)進(jìn)入好用階段,將在黨政軍和八大核心行業(yè)(金融、電信、能源、電力、醫(yī)療、教育、交通、公共事業(yè))鋪開。
云數(shù)據(jù)庫廠商、本土數(shù)據(jù)庫廠商份額持續(xù)增長(zhǎng),國(guó)際數(shù)據(jù)庫品牌份額下降。
信創(chuàng)指硬件和軟件的一系列信息化創(chuàng)新技術(shù),可理解為數(shù)字基建,是新基建最底層的一環(huán),主要包括核心芯片、基礎(chǔ)硬件、操作系統(tǒng)、中間件和數(shù)據(jù)服務(wù)器等領(lǐng)域。
信創(chuàng)產(chǎn)業(yè)是數(shù)據(jù)安全、網(wǎng)絡(luò)安全的基礎(chǔ),也是「新基建」的重要內(nèi)容,將成為拉動(dòng)經(jīng)濟(jì)發(fā)展的重要抓手之一。
從信息基礎(chǔ)設(shè)施國(guó)產(chǎn)化程度來看,目前國(guó)內(nèi)重要信息系統(tǒng)、關(guān)鍵基礎(chǔ)設(shè)施中使用的核心信息技術(shù)產(chǎn)品和關(guān)鍵服務(wù)大多依賴國(guó)外。
例如中美貿(mào)易戰(zhàn),Oracle停止美國(guó)敵對(duì)國(guó)家的數(shù)據(jù)庫服務(wù)后,導(dǎo)致數(shù)據(jù)庫功能缺失,促使數(shù)據(jù)庫加快國(guó)產(chǎn)替代。
三、產(chǎn)業(yè)鏈與行業(yè)格局
1. 產(chǎn)業(yè)鏈及行業(yè)圖譜
數(shù)據(jù)庫與芯片、操作系統(tǒng)并列為全球技術(shù)三大件,也是企業(yè)IT系統(tǒng)必不可少的核心技術(shù)。
在數(shù)據(jù)庫軟件產(chǎn)業(yè)鏈中,上游多是以服務(wù)器廠商、芯片廠商組成的網(wǎng)絡(luò)和硬件廠商。
中游由數(shù)據(jù)庫、操作系統(tǒng)和中間件等基礎(chǔ)軟件廠商組成,下游主要是各行業(yè)的應(yīng)用開發(fā)商。
數(shù)據(jù)庫管理系統(tǒng)在企業(yè)數(shù)據(jù)流管理體系中處于核心位置。
業(yè)務(wù)行為相關(guān)的數(shù)據(jù)首先在不同的操作型數(shù)據(jù)庫中進(jìn)行事務(wù)處理OLTP,然后通過ETL工具(提取、轉(zhuǎn)換、加載)匯聚整合成面向主題的、全局的一致數(shù)據(jù)集合,存儲(chǔ)在業(yè)務(wù)數(shù)據(jù)臨時(shí)存儲(chǔ)系統(tǒng)ODS中。
ODS的數(shù)據(jù)再次通過ETL工具轉(zhuǎn)換集成為結(jié)構(gòu)化數(shù)據(jù)進(jìn)入企業(yè)統(tǒng)一的數(shù)據(jù)倉庫。
數(shù)倉數(shù)據(jù)針對(duì)某個(gè)特定主題分類,進(jìn)入到從屬型數(shù)據(jù)集市。
根據(jù)企業(yè)需要,基于操作型數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)集市也能夠構(gòu)建企業(yè)數(shù)據(jù)湖,存儲(chǔ)著包括原始數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)在內(nèi)的各種結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的集中式管理。
經(jīng)過匯總后的數(shù)據(jù)通過OLAP 操作分析處理,并通過BI 工具以體系化、可視化的方式直接呈現(xiàn)在決策者面前,為業(yè)務(wù)提供數(shù)據(jù)支撐。
2. 行業(yè)集中度
從全球范圍來看,微軟、Oracle、亞馬遜為前三大廠商,占據(jù)全球市場(chǎng)接近70%市場(chǎng)份額。
2020年微軟同比增長(zhǎng)超17%,規(guī)模首次超過Oracle,主要來自于云數(shù)據(jù)庫的增長(zhǎng)。
國(guó)內(nèi):海外巨頭占據(jù)市場(chǎng)主要份額,云化和國(guó)產(chǎn)替代趨勢(shì)下海外廠商份額不斷下降。
2020年國(guó)外廠商仍占據(jù)我國(guó)數(shù)據(jù)庫市場(chǎng)80%以上份額,并已形成較為完善的數(shù)據(jù)庫生態(tài),國(guó)產(chǎn)替代安全自主可控下的國(guó)產(chǎn)數(shù)據(jù)庫在未來將有很大的市場(chǎng)空間。
中國(guó)市場(chǎng)分應(yīng)用來看,OLTP仍是國(guó)外廠商占據(jù)最大市場(chǎng)份額,OLAP和非關(guān)系型數(shù)據(jù)庫中國(guó)廠商具備一定商業(yè)基礎(chǔ)。
OLTP一直由Oracle、IBM DB2、MySQL、SQL Server等占據(jù)主導(dǎo)地位,市場(chǎng)份額超90%,而國(guó)內(nèi)阿里的OceanBase、騰訊的TBase、達(dá)夢(mèng)數(shù)據(jù)庫、PingCAP才剛剛起步。
TiDB目前是在互聯(lián)網(wǎng)行業(yè)應(yīng)用較多,OLAP國(guó)外MPP架構(gòu)的Teradata、Greenplum,國(guó)產(chǎn)替代廠商有南大通用、人大金倉、天璣等,以及國(guó)內(nèi)星環(huán)、中興、華為等Hadoop數(shù)據(jù)倉庫,以及偶數(shù)科技等新一代云原生數(shù)據(jù)倉庫。
圖分析領(lǐng)域,國(guó)外Tigergraph和neo4j為明星廠商,現(xiàn)在中國(guó)銀聯(lián)、VISA、Mastercard很多金融機(jī)構(gòu)都在用圖分析做風(fēng)控、做反欺詐,這個(gè)領(lǐng)域在未來有很大機(jī)會(huì)能夠?qū)崿F(xiàn)國(guó)產(chǎn)替代。
分行業(yè)來看,金融、電信、政府、制造、交通五大行業(yè)占據(jù)數(shù)據(jù)庫服務(wù)市場(chǎng)份額超80%。
各行業(yè)的數(shù)據(jù)庫服務(wù)市場(chǎng)份額比例分別為金融22.3%、電信18.9%、政府16.4%、制造13.3%、交通9.6%(中國(guó)信通院統(tǒng)計(jì))。
公有云數(shù)據(jù)庫部分,云廠商份額超70%。
2020年,阿里云、騰訊云、華為云等公有云數(shù)據(jù)庫約占國(guó)內(nèi)市場(chǎng)份額75.5%。
以電商、游戲、短視頻等為主營(yíng)業(yè)務(wù)的互聯(lián)網(wǎng)公司是線上數(shù)據(jù)庫的服務(wù)對(duì)象。
3. 競(jìng)爭(zhēng)分析
1)整體競(jìng)爭(zhēng)格局
目前我國(guó)本土數(shù)據(jù)庫企業(yè)類型主要分為四大類,分別是傳統(tǒng)廠商、跨界廠商、云廠商以及初創(chuàng)廠商。
國(guó)內(nèi)市場(chǎng)主要參與者為海外巨頭(Oracle、Microsoft、IBM、AWS 等),國(guó)內(nèi)公有云廠商(阿里云、騰訊云)。
跨界廠商主要是設(shè)備商(華為、中興通訊);以及新興數(shù)據(jù)庫廠商(巨杉大數(shù)據(jù)、PingCAP、偶數(shù)科技等)。
其中,初創(chuàng)廠商主要是最新一代的面向云原生架構(gòu)的數(shù)據(jù)庫,架構(gòu)優(yōu)勢(shì)更為明顯。
傳統(tǒng)數(shù)據(jù)庫廠商:達(dá)夢(mèng)數(shù)據(jù)庫、人大金倉、神舟通用等,主要信創(chuàng)數(shù)據(jù)庫公司,占據(jù)黨政軍背景及政策優(yōu)勢(shì),以人大金倉為例,其金倉數(shù)據(jù)庫產(chǎn)品主要應(yīng)用在黨政的辦公系統(tǒng)等市場(chǎng), 2020年實(shí)現(xiàn)收入2.41億元。
跨界廠商:中興、浪潮、東方國(guó)信;利用原有客戶及業(yè)務(wù)基礎(chǔ),疊加銷售。
云廠商:占據(jù)云生態(tài)優(yōu)勢(shì),目前國(guó)內(nèi)全棧的云廠商,使其在軟硬件協(xié)同方面有機(jī)會(huì)做一步優(yōu)化,實(shí)現(xiàn)數(shù)據(jù)庫整體性能的提升。
阿里云:2020 年,阿里云宣布進(jìn)入2.0 時(shí)代,架構(gòu)升級(jí)成為云平臺(tái)+數(shù)字原生操作系統(tǒng)。目前,已有超過40萬個(gè)數(shù)據(jù)庫實(shí)例遷移到阿里云上,包含政務(wù)、零售、金融、電信、制造、物流等多個(gè)領(lǐng)域的龍頭企業(yè)。2021年阿里云在產(chǎn)品技術(shù)領(lǐng)域進(jìn)展迅猛。
騰訊云:完備的產(chǎn)品體系+生態(tài)合作伙伴。目前,騰訊云已經(jīng)服務(wù)了國(guó)內(nèi)超過70%的游戲公司,市占率行業(yè)第一。經(jīng)過多年積累,騰訊云數(shù)據(jù)庫已經(jīng)擁有了一套完整解決方案,成功服務(wù)的客戶數(shù)已經(jīng)超過50 萬,其中,90%以上的業(yè)務(wù)是在亞洲完成的,并且主要在中國(guó)(騰訊云數(shù)據(jù)庫類型主要為云托管數(shù)據(jù)庫)。
華為云:數(shù)據(jù)顯示,華為云數(shù)據(jù)庫2019年外部收入相比2018年外部收入實(shí)現(xiàn)高達(dá)400%的增長(zhǎng);此外,華為云數(shù)據(jù)庫2020年H1外部收入相比2019年H1外部收入實(shí)現(xiàn)高達(dá)405%的增長(zhǎng)。
初創(chuàng)廠商:主打云中立機(jī)會(huì)以及產(chǎn)品能力。
2)分應(yīng)用場(chǎng)景競(jìng)爭(zhēng)情況
- OLTP:Pingcap
- OLAP:南大通用、星環(huán)、偶數(shù)科技、Kyligence、StarRocks(原DorisDB)。
- 圖數(shù)據(jù)庫:我國(guó)圖數(shù)據(jù)庫產(chǎn)品數(shù)量為13 款,自研程度較高,自研產(chǎn)品占總數(shù)比例為69.23%。從供應(yīng)商類型看,初創(chuàng)公司、云廠商、高校紛紛入局,其比例分別為7:5:1。
- 大廠:螞蟻金服GeaBase,百度安全HugeGraph,騰訊云 TGDB(Tencent GraphDatabase),字節(jié)跳動(dòng) ByteGraph,華為云GraphBase。
- 初創(chuàng)廠商:創(chuàng)鄰科技 Galaxybase、費(fèi)馬科技、歐若數(shù)網(wǎng)Nebula Graph、蜀天夢(mèng)圖、Ultipa圖數(shù)據(jù)庫、星環(huán) StellarDB等。
4. 行業(yè)的決勝要素
數(shù)據(jù)庫公司的發(fā)展遵循內(nèi)核——外殼——生態(tài)的主要路徑:內(nèi)核組件和底層能力為基礎(chǔ),外部組件為支撐,生態(tài)為商業(yè)化及產(chǎn)品迭代重要路徑。
內(nèi)核層面:底層能力+性能表現(xiàn)為基礎(chǔ)。
底層代碼積累與產(chǎn)品迭代需要與具體業(yè)務(wù)場(chǎng)景深度融合。國(guó)內(nèi)廠商誕生之初就面對(duì)Oracle、IBM 的激烈競(jìng)爭(zhēng),難以擁有接觸客戶核心業(yè)務(wù)場(chǎng)景的機(jī)會(huì)。
目前國(guó)家要求金融行業(yè)全替換,也是針對(duì)辦公系統(tǒng)的數(shù)據(jù)庫全替換,在業(yè)務(wù)系統(tǒng)層面更多的是在小業(yè)務(wù)系統(tǒng)上做實(shí)驗(yàn),現(xiàn)在去談核心業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫國(guó)產(chǎn)化還為時(shí)尚早。
阿里、騰訊的數(shù)據(jù)庫產(chǎn)品之所以能夠成為國(guó)內(nèi)代表,依靠的是與自身電商、支付、社交等核心業(yè)務(wù)場(chǎng)景的不斷打磨,而其他數(shù)據(jù)庫公司之前難以擁有這樣的機(jī)會(huì)。
因此,廠商要先爭(zhēng)取拿到小業(yè)務(wù)系統(tǒng)的備份系統(tǒng)機(jī)會(huì)。
大廠拼綜合實(shí)力,創(chuàng)業(yè)公司拼技術(shù),創(chuàng)業(yè)公司勝出的要素是產(chǎn)品過硬。
數(shù)據(jù)庫云化是關(guān)于部署形態(tài)、架構(gòu)形態(tài)的問題,但是對(duì)底層技術(shù)能力的掌握和提升仍然重要。
數(shù)據(jù)庫包括數(shù)據(jù)庫內(nèi)核、分布式組件和接口驅(qū)動(dòng),SQL引擎、事務(wù)引擎和存儲(chǔ)引擎,是否支持多副本、分布式事務(wù)、高性能、擴(kuò)展能力、故障恢復(fù)、優(yōu)化器、多活容災(zāi)、語法兼容等核心技術(shù)。
數(shù)據(jù)庫性能優(yōu)勢(shì)也是要素之一。
AP場(chǎng)景天然有很多復(fù)雜的用戶查詢,具體到SQL語句上就是大量的多表連接、復(fù)雜的表達(dá)式計(jì)算、多層嵌套的子查詢、聚合函數(shù)等等。
這些對(duì)引擎的查詢優(yōu)化能力要求門檻極高。數(shù)據(jù)分析型基準(zhǔn)測(cè)試(TPC-H)是公認(rèn)的衡量數(shù)據(jù)庫數(shù)據(jù)分析能力的權(quán)威標(biāo)準(zhǔn)之一,因此TPC-H測(cè)試結(jié)果也被作為數(shù)據(jù)庫性能的衡量標(biāo)準(zhǔn)之一。
外殼層面,大數(shù)據(jù)與數(shù)據(jù)庫一體化趨勢(shì)明顯,需要完善外部組件部分:自研或兼容主流生態(tài)組件,完善產(chǎn)品力為進(jìn)一步發(fā)展支撐。
大數(shù)據(jù)生態(tài)中的組件羅列:
生態(tài)重要性凸顯。國(guó)產(chǎn)數(shù)據(jù)庫公司發(fā)展的戰(zhàn)略重點(diǎn)在生態(tài)擴(kuò)展。
做數(shù)據(jù)庫一定要有一個(gè)生態(tài),自從X86替換小型機(jī),DB2的市場(chǎng)份額逐漸下降。
軟硬件分離的趨勢(shì),導(dǎo)致Intel、微軟的操作系統(tǒng)得以普遍應(yīng)用,在此生態(tài)下才有Oracle、MySQL發(fā)展壯大的機(jī)會(huì)。
不同客戶核心架構(gòu)系統(tǒng)不同,存在不同程度的定制化開發(fā)訴求。
數(shù)據(jù)庫作為基礎(chǔ)軟件,需要完成芯片、服務(wù)器、操作系統(tǒng)、中間件的適配工作,集成商、二次開發(fā)商、IT 咨詢公司都是數(shù)據(jù)庫廠商生態(tài)伙伴體系中的重要參與者,自建生態(tài)難度較大,兼容生態(tài)為主要選擇。
生態(tài)伙伴賦能企業(yè)在快速實(shí)現(xiàn)業(yè)務(wù)擴(kuò)張的同時(shí)最大程度減少成本增長(zhǎng),使得企業(yè)能將有限的人員和資金投入到核心技術(shù)和核心產(chǎn)品。
合作伙伴生態(tài)是Oracle早期占領(lǐng)中國(guó)市場(chǎng)的核心要素之一,早期Oracle中國(guó)區(qū)90%以上收入來自2000多個(gè)合作伙伴。
而2020年中國(guó)擁有合作伙伴最多的武漢達(dá)夢(mèng)也僅僅只有101 家合作伙伴。其他的數(shù)據(jù)庫廠商合作伙伴均低于50 家。
出海有助于國(guó)內(nèi)數(shù)據(jù)庫廠商的商業(yè)化發(fā)展。以 OceanBase 數(shù)據(jù)庫為例,第一大用戶是支付寶,但是第三大用戶其實(shí)是國(guó)外的廠商。
四、國(guó)外相關(guān)公司
1. 交易型數(shù)據(jù)庫OLTP
2021年年底,Cockroach DB從估值50億美金的F輪中募集了2.78億美金;
2021年10月,Yugabyte也從C輪融資中募集了1.88億美金,將估值推向13億美金。
2. 分析型數(shù)據(jù)庫OLAP
國(guó)外廠商:Snowflake、ClickHouse、Databricks、Firebolt、Ahana、Starburst、Dremio、Imply、StarTree。
2021年海外廠商融資情況(單位:美元):
其中:
1)Snowflake:云原生架構(gòu),研發(fā)周期長(zhǎng),產(chǎn)品功能完備。
- 幫助企業(yè)實(shí)現(xiàn)了數(shù)倉按需上云,其數(shù)倉的底層可對(duì)接AWS、谷歌云等主流云計(jì)算平臺(tái)供客戶選擇,其提供的多云間遷移、多云上容災(zāi)備份等服務(wù)較為吸引用戶;
- Snowflake CDW可以兼容多家公有云廠商,這一技術(shù)創(chuàng)新從根本上解決了傳統(tǒng)數(shù)據(jù)倉庫的架構(gòu)問題,最大化體現(xiàn)了云原生的架構(gòu)特點(diǎn);
- 實(shí)現(xiàn)了存儲(chǔ)與計(jì)算分離,在資源管理上更為精細(xì)化。Snowflake 開發(fā)的CDW支持計(jì)算、存儲(chǔ)節(jié)點(diǎn)單獨(dú)擴(kuò)展,實(shí)現(xiàn)在查詢計(jì)算時(shí),不影響同步擴(kuò)容或縮容,不發(fā)生延遲或中斷;
- Snowflake自身聯(lián)合了數(shù)家專注于機(jī)器學(xué)習(xí)的廠商來去打造自己的data cloud。
商業(yè)化初步驗(yàn)證:2021年,Snowflake季度營(yíng)收環(huán)比增長(zhǎng)連續(xù)超100%,與此同時(shí)更重要的一點(diǎn)是,Snowflake的凈收入留存率(NRR)達(dá)到173%。
易用性也是Snowflake能夠戰(zhàn)勝其他競(jìng)品的秘訣。產(chǎn)品簡(jiǎn)單好用,文檔通俗易懂,用戶友好也是其快速增長(zhǎng)的原因之一。
2)Databricks:Databricks于2021年8月宣布了自己高達(dá)380億美金估值的H輪融資;
數(shù)倉研發(fā)周期明顯短于Snowflake,產(chǎn)品功能的完備性可能不如Snowflake;
Databricks兩大亮點(diǎn):
- open format,也就是開放文件格式,降低用戶的數(shù)據(jù)遷移成本,縮短就決策鏈條;
- 多功能多語言平臺(tái)的集成。Databricks的lakehouse底層可以無縫連接到Spark上去。如果有數(shù)據(jù)科學(xué)家想要使用lakehouse上的數(shù)據(jù),他們無需經(jīng)過復(fù)雜的系統(tǒng)導(dǎo)入導(dǎo)出,直接用他們最喜歡的語言,比如Python,進(jìn)行數(shù)據(jù)的操作。
3. 圖數(shù)據(jù)庫
主要公司:Neo4j,TigerGraph,KetanaGraph,Memgraph等
1)Neo4j:
- 當(dāng)前市值/估值:2021年 F輪融資估值20+億美金,募集資金3.25億美金,領(lǐng)投方為有著140多年歷史的投資集團(tuán)Eurazeo ,原谷歌風(fēng)投Google Ventures(GV)也參與其中。單從數(shù)字上來看,這個(gè)估值相比于同等階段的OLAP領(lǐng)域數(shù)據(jù)庫公司來說要小了不少,這也從側(cè)面反映出該領(lǐng)域在這個(gè)階段的體量。
- 業(yè)務(wù)簡(jiǎn)介:商業(yè)化方面,他們的服務(wù)已經(jīng)被75%的Fortune 100公司所使用。
2)TigerGraph:
- 當(dāng)前市值/估值:2021年,C輪1.05億美金融資,投資方為Tiger Global,估值34億人民幣,約5.38億美金。
- 業(yè)務(wù)簡(jiǎn)介:基于 C++ 從底層核心做起,利用分布式技術(shù),支持萬億級(jí)節(jié)點(diǎn),具備高性能和高可擴(kuò)展性,并且操作界面十分簡(jiǎn)單。性能測(cè)試結(jié)果領(lǐng)先。
4. 文檔數(shù)據(jù)庫
MongD:上市公司,估值92億美金,收入2.6億,可以看到在這個(gè)領(lǐng)域存在能夠?qū)崿F(xiàn)國(guó)產(chǎn)替代的機(jī)會(huì)。
1)OLTP推薦項(xiàng)目:PingCAP
2021年7月,完成估值30億美金的E輪融資。
內(nèi)核研發(fā)深入+云的大量投入:內(nèi)核層面,分布式數(shù)據(jù)庫查詢優(yōu)化器相關(guān)的設(shè)計(jì),開發(fā),文檔撰寫和新人指導(dǎo);分布式數(shù)據(jù)庫 SQL 層的設(shè)計(jì),開發(fā)和性能優(yōu)化。
分布式數(shù)據(jù)庫底層系統(tǒng)存儲(chǔ)系統(tǒng)的設(shè)計(jì)等。既支持在線橫向擴(kuò)展,又能非常高效的支持?jǐn)?shù)據(jù)實(shí)時(shí)分析。
同時(shí),數(shù)據(jù)庫技術(shù)與云技術(shù)加速融合,云原生技術(shù)在數(shù)據(jù)庫獲得了深入的應(yīng)用。
根據(jù)PingCAP聯(lián)合創(chuàng)始人黃旭東:“PingCAP這幾年在云技術(shù)上的投入可能都趕上了數(shù)據(jù)庫內(nèi)核研發(fā)的投入”。
與大數(shù)據(jù)的廣泛融合:TiDB實(shí)現(xiàn)了與Spark、Flink、Presto等大數(shù)據(jù)技術(shù)棧的廣泛融合。
建成中國(guó)最大的開源社區(qū),構(gòu)建人才護(hù)城河,迭代產(chǎn)品技術(shù)。
通過舉辦TiDB社區(qū)用戶的開源活動(dòng),包括線下 Meetup、源代碼系列的內(nèi)容講解、精心設(shè)計(jì)針對(duì)不同社區(qū)技術(shù)愛好者的參與路徑等,得到了全世界技術(shù)愛好者與參與公司參與到TiDB的社區(qū)開發(fā)中來,包括Databricks、Mobike、Speedcloud、騰訊云、G7、三星韓國(guó)研究院等都為TiDB提交了大量的代碼。
積極出海,從2019 年服務(wù)Shopee開始,目前海外營(yíng)收已超越國(guó)內(nèi)。
PingCAP 在不同國(guó)家均有頭部客戶和標(biāo)桿案例,比如日本最大的在線支付公司Paypay、越南獨(dú)角獸公司VNG、東南亞最大電商Shopee、法國(guó)最大在線視頻公司Dailymotion 等。
目前公司已經(jīng)擁有超100 家客戶,且平均客單價(jià)超百萬,營(yíng)業(yè)收入增速超300%。
2)OLAP推薦項(xiàng)目:
(1)偶數(shù)科技
業(yè)務(wù)簡(jiǎn)介:偶數(shù)科技是一家云數(shù)倉和AI產(chǎn)品提供商,致力于賦能全球各行業(yè)客戶,被評(píng)為專精特新企業(yè)。
其核心產(chǎn)品偶數(shù)數(shù)據(jù)云 Oushu Data Cloud,由新一代極速云數(shù)倉 OushuDB、自動(dòng)化機(jī)器學(xué)習(xí)平臺(tái) LittleBoy,以及數(shù)據(jù)管理平臺(tái)Lava 組成,已在金融、電信、政府、能源和互聯(lián)網(wǎng)等行業(yè)頭部企業(yè)得到廣泛應(yīng)用。
融資歷史:
- 2017-04-01 天使輪 數(shù)百萬人民幣 紅點(diǎn)中國(guó);
- 2017-10-31 A輪 數(shù)千萬人民幣 紅杉資本中國(guó)(領(lǐng)投) 紅點(diǎn)中國(guó);
- 2020-11-04 B輪 數(shù)千萬人民幣 金山云 勢(shì)乘資本Scale Partners(財(cái)務(wù)顧問);
- 2021-08-25 B+輪 2億人民幣 騰訊投資(領(lǐng)投) 紅杉資本中國(guó) 紅點(diǎn)中國(guó) 勢(shì)乘資本Scale Partners(財(cái)務(wù)顧問)。
推薦理由:
產(chǎn)品架構(gòu)全球領(lǐng)先:采用計(jì)算存儲(chǔ)分離的云原生架構(gòu),彈性擴(kuò)展,可擴(kuò)展至上萬節(jié)點(diǎn),利用云服務(wù)器、分布式存儲(chǔ),對(duì)數(shù)據(jù)基礎(chǔ)設(shè)施的可擴(kuò)展性進(jìn)行深度優(yōu)化,充分滿足云端應(yīng)用高度彈性、無限擴(kuò)容的要求。
完善的大數(shù)據(jù)配套工具矩陣:數(shù)據(jù)管理平臺(tái)Lava(支持敏捷數(shù)據(jù)應(yīng)用開發(fā))、自動(dòng)化機(jī)器學(xué)習(xí)平臺(tái)LittleBoy(圖形化建模)。
多云支持:支持主流公有云部署,包括騰訊云、阿里云、華為云、金山云、微軟Azure、AWS等主流云平臺(tái),同時(shí)支持私有云及混合云,幫助客戶解除云綁定限制。
性能優(yōu)勢(shì):領(lǐng)先的 SIMD 性能優(yōu)化技術(shù),相比MPP和SQL-on-Hadoop快一個(gè)數(shù)量級(jí)。全新設(shè)計(jì)的執(zhí)行器讓性能提升5~10倍,顯著降低批處理和即席查詢所需的時(shí)間。
兼容性強(qiáng):具備完善的SQL標(biāo)準(zhǔn)和ACID特性,支持HDFS和多種對(duì)象存儲(chǔ)的增刪改查、以及偶數(shù)自研的Magma存儲(chǔ)。兼容基于Oracle,PostgreSQL,Greenplum開發(fā)的數(shù)字應(yīng)用,用戶可以輕松實(shí)現(xiàn)不同數(shù)據(jù)基礎(chǔ)設(shè)施的平穩(wěn)遷移。
新一代湖倉一體:創(chuàng)新性提出 ANCHOR“錨點(diǎn)”概念,其6個(gè)字母分別代表All Data Types(支持多類型數(shù)據(jù))、Native on Cloud(云原生)、Consistency(數(shù)據(jù)一致性)、High Concurrency(超高并發(fā))、One Copy of Data(一份數(shù)據(jù))、Real-Time(實(shí)時(shí)T+0)。
真正的從物理和實(shí)施層面形成一體化架構(gòu),徹底解決實(shí)時(shí)性和并發(fā)度,以及集群規(guī)模受限、非結(jié)構(gòu)化數(shù)據(jù)無法整合、建模路徑冗長(zhǎng)、數(shù)據(jù)一致性弱、性能瓶頸等問題,有效降低IT運(yùn)維成本和數(shù)據(jù)管理的技術(shù)門檻。
Omega實(shí)時(shí)方案:率先提出Omega架構(gòu),由流數(shù)據(jù)處理系統(tǒng)和實(shí)時(shí)數(shù)倉構(gòu)成。
相比Lambda和Kappa,Omega架構(gòu)在批處理層同時(shí)滿足實(shí)時(shí)按需和離線按需的數(shù)據(jù)處理,同時(shí)在服務(wù)層創(chuàng)新引入了快照視圖 (Snapshot View),解決了Lambda 長(zhǎng)期的數(shù)據(jù)一致性問題。
資深核心研發(fā)團(tuán)隊(duì):OushuDB由國(guó)內(nèi)頂尖數(shù)據(jù)庫內(nèi)核研發(fā)團(tuán)隊(duì)自主開發(fā),符合國(guó)家信創(chuàng)標(biāo)準(zhǔn)。
偶數(shù)研發(fā)團(tuán)隊(duì)曾主導(dǎo)國(guó)際頂級(jí)的數(shù)據(jù)庫開源項(xiàng)目Apache HAWQ,擔(dān)任項(xiàng)目Chair和PMC。
頭部客戶積累:產(chǎn)品已在建設(shè)銀行、中國(guó)聯(lián)通、國(guó)家電網(wǎng)、VMWare等頭部客戶落地,并獲得廣泛認(rèn)可。
全面生態(tài)協(xié)同:除了騰訊云、金山云等云廠商股東背書,還兼容UOS、麒麟等國(guó)產(chǎn)操作系統(tǒng),及飛騰、鯤鵬、申威、兆芯、海光、龍芯等國(guó)產(chǎn)硬件平臺(tái)。
(2)Kyligence融資:2021年4月,Kyligence 宣布完成7000萬美元的D輪融資。
推薦理由:產(chǎn)品成熟度高&性能領(lǐng)先
Kyligence 提供企業(yè)級(jí)的智能多維數(shù)據(jù)庫產(chǎn)品,幫助企業(yè)在數(shù)據(jù)湖或數(shù)據(jù)倉庫上搭建一個(gè)受治理的數(shù)據(jù)集市。
通過統(tǒng)一定義業(yè)務(wù)分析使用的指標(biāo)與維度,搭建統(tǒng)一業(yè)務(wù)語義層,沉淀分析型數(shù)據(jù)資產(chǎn)。
此外,Kyligence 內(nèi)置 AI 增強(qiáng)引擎,通過識(shí)別高頻業(yè)務(wù)查詢和數(shù)據(jù)特征,簡(jiǎn)化和自動(dòng)化數(shù)據(jù)集市構(gòu)建。
Kyligence 提供統(tǒng)一的 SQL 服務(wù)接口,以支撐商務(wù)智能(BI)分析、靈活查詢和高并發(fā)數(shù)據(jù)服務(wù)等多類應(yīng)用場(chǎng)景。
領(lǐng)先的全場(chǎng)景 OLAP 引擎 ,為 PB 級(jí)數(shù)據(jù)提供高并發(fā)、亞秒級(jí)查詢性能,并可無縫集成 Hadoop/Spark 架構(gòu)或基于云原生架構(gòu),提供去 Hadoop 架構(gòu),支持在公有云、私有云、本地環(huán)境部署,并實(shí)現(xiàn)存儲(chǔ)與計(jì)算分離,支持計(jì)算資源按需彈性伸縮。
Kyligence 智能數(shù)據(jù)云的產(chǎn)品設(shè)計(jì)基于開源理念,技術(shù)上自主可控、包容開放,具有簡(jiǎn)單易用、高性能、高并發(fā)特性,最大化利用資源提高效率,節(jié)省 TCO。
智能分層存儲(chǔ):Kyligence 新一代產(chǎn)品中提供的高級(jí)功能,引入性能強(qiáng)勁的 ClickHouse,可以幫助用戶在未進(jìn)行預(yù)計(jì)算的情況下快速冷啟動(dòng)進(jìn)行查詢,顯著地提升超多維度靈活分析和明細(xì)查詢的性能。
生態(tài):Kyligence 一直堅(jiān)持生態(tài)共建,合作共贏。
一方面,公司會(huì)和更多的云廠商、BI 以及應(yīng)用廠商合作。
另一方面, Kyligence 設(shè)立 Partner Network 合作伙伴計(jì)劃,該計(jì)劃將從培訓(xùn)認(rèn)證、資源支持、推廣合作等方面賦能合作伙伴,共同攜手為全球客戶帶來更優(yōu)質(zhì)的服務(wù)。
客戶積累:目前全球有超過 1500 多家公司使用 Apache Kylin 作為核心大數(shù)據(jù)分析平臺(tái)。
Kyligence 已服務(wù)中國(guó)、美國(guó)及亞太的多個(gè)銀行、證券、保險(xiǎn)、制造、零售等行業(yè)客戶,包括建設(shè)銀行、浦發(fā)銀行、招商銀行、平安銀行、寧波銀行、太平洋保險(xiǎn)、中國(guó)銀聯(lián)、上汽、一汽、安踏、YUMC、Costa、UBS、AppZen 等全球知名企業(yè)和行業(yè)領(lǐng)導(dǎo)者。
5. 圖數(shù)據(jù)庫推薦項(xiàng)目
1)歐若數(shù)網(wǎng)
業(yè)務(wù)簡(jiǎn)介:歐若數(shù)網(wǎng)是一家分布式圖數(shù)據(jù)庫研發(fā)商,旗下分布式圖數(shù)據(jù)開源產(chǎn)品“NebulaGraph”擁有容錯(cuò)性、擴(kuò)容縮容、線上查詢等功能,主要應(yīng)用于互聯(lián)網(wǎng)銀行及社交領(lǐng)域。
融資歷史:
- 2020-06-05 Pre-A輪 800萬美元 紅點(diǎn)中國(guó),經(jīng)緯創(chuàng)投;
- 2020-11-16 Pre-A輪 近千萬美元 源碼資本(領(lǐng)投) 經(jīng)緯創(chuàng)投 紅點(diǎn)中國(guó)。
推薦理由:
- 團(tuán)隊(duì)背景優(yōu)秀:創(chuàng)始團(tuán)隊(duì)來自于Facebook、阿里巴巴、華為等國(guó)內(nèi)外各大知名公司,在圖數(shù)據(jù)庫、大數(shù)據(jù)等領(lǐng)域有豐富的開發(fā)和業(yè)務(wù)經(jīng)驗(yàn);
- 性能領(lǐng)先:相較其他圖數(shù)據(jù)庫,能處理的數(shù)據(jù)量為它們的兩倍甚至是更多;世界上唯一能夠容納千億個(gè)頂點(diǎn)和萬億條邊,并提供毫秒級(jí)查詢延時(shí)的圖數(shù)據(jù)庫解決方案;
- 合作客戶優(yōu)勢(shì):京東數(shù)科、有贊、小紅書、vivo、美團(tuán)、騰訊、微眾銀行、快手、企查查。
2)Ultipa
業(yè)務(wù)簡(jiǎn)介:Ultipa是一個(gè)圖數(shù)據(jù)庫平臺(tái),通過將圖計(jì)算引擎和知識(shí)圖譜結(jié)合,可為用戶提供實(shí)時(shí)數(shù)據(jù)處理.
融資歷史:2021-05-25 A輪 2100萬美元 某知名主權(quán)基金領(lǐng)投,招銀國(guó)際跟投.
推薦理由:
- 產(chǎn)品層面:Ultipa Graph 產(chǎn)品線分為 Ultipa Server,Ultipa 工具,Ultipa SDK,Ultipa Manager 等。
- 性能層面:Ultipa的性能被客戶稱為“核動(dòng)力”引擎,在計(jì)算速度上以三角形計(jì)算為例,其速度可達(dá) 3 億個(gè)三角形/秒——這樣的速度在某種程度上已經(jīng)挑戰(zhàn)了現(xiàn)有計(jì)算機(jī)系統(tǒng)的物理極限;在計(jì)算深度上,可做30層的深度穿透及關(guān)聯(lián)發(fā)現(xiàn),并能夠方便的構(gòu)建復(fù)雜的模型并與數(shù)據(jù)相關(guān)聯(lián)。
- 場(chǎng)景層面:已經(jīng)經(jīng)實(shí)現(xiàn)了針對(duì)資債、資管、企業(yè) GRC、供應(yīng)鏈金融等金融場(chǎng)景的應(yīng)用。以招行為例,銀行部門繁多、有許多對(duì) C 端用戶監(jiān)管以及內(nèi)部增效的需求,需要對(duì) C 端用戶畫像進(jìn)行深挖、并對(duì)各維度數(shù)據(jù)進(jìn)行關(guān)聯(lián)及穿透,因此對(duì)算力有很強(qiáng)的訴求。
- 商業(yè)化層面:目前有 20 余個(gè)頭部行業(yè)客戶,平安銀行和招商銀行是其金融行業(yè)的典型客戶。同時(shí)支持SaaS化部署和私有化部署,收費(fèi)模式靈活。
3)創(chuàng)鄰科技 Galaxybase
業(yè)務(wù)簡(jiǎn)介:創(chuàng)鄰科技是一家商業(yè)圖數(shù)據(jù)庫供應(yīng)商,提供多源異構(gòu)數(shù)據(jù)的關(guān)聯(lián)挖掘、深鏈查詢、可視化分析及行業(yè)圖智能計(jì)算應(yīng)用服務(wù)。
融資歷史:
- 2018-08-14 天使輪 數(shù)百萬人民幣 百度風(fēng)投;
- 2020-10-14 A輪 數(shù)千萬人民幣 高瓴創(chuàng)投(領(lǐng)投)百度風(fēng)投 西湖科創(chuàng);
- 2021-02-01 A+輪 數(shù)千萬人民幣 騰訊投資(領(lǐng)投) 高瓴創(chuàng)投;
- 2021-12-06 A+輪 1億人民幣 騰訊投資(領(lǐng)投) 同創(chuàng)偉業(yè)(領(lǐng)投)達(dá)晨財(cái)智。
推薦理由:
- 產(chǎn)品自研程度高:國(guó)內(nèi)首個(gè)、通用的商業(yè)化分布式圖數(shù)據(jù)庫;全自主知識(shí)產(chǎn)權(quán)的自研產(chǎn)品,團(tuán)隊(duì)和代碼都在國(guó)內(nèi),不基于任何第三方存儲(chǔ)產(chǎn)品,支持各種國(guó)產(chǎn)CPU和操作系統(tǒng);國(guó)家自主可控。
- 性能優(yōu)勢(shì)疊加真實(shí)場(chǎng)景:小數(shù)據(jù)量級(jí),深鏈查詢性能,比國(guó)際競(jìng)品快數(shù)十倍;大數(shù)據(jù)量級(jí)上,世界上唯一一個(gè)在真實(shí)業(yè)務(wù)場(chǎng)景中,加載和處理了萬億點(diǎn)邊大圖,PB級(jí)數(shù)據(jù)量級(jí)。
本文由 @光錐智能 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
想當(dāng)年數(shù)據(jù)庫可是我最愛的一門專業(yè)課,當(dāng)時(shí)覺得:臥,好簡(jiǎn)單,現(xiàn)在覺得:臥????!
國(guó)產(chǎn)數(shù)據(jù)庫目前比較適用于黨政機(jī)關(guān),企業(yè)和個(gè)人手機(jī)里的還稱不上為數(shù)據(jù)庫。而且就我個(gè)人而言,我自己也沒有上傳云盤的習(xí)慣。
借用那兔的臺(tái)詞:老祖宗說靠山山倒靠人人跑,只能靠自己。不想以后腹背受敵,就得趁還和平快速發(fā)展
當(dāng)時(shí)的時(shí)代環(huán)境真的讓我覺得我們什么都得有什么都得強(qiáng),別人是靠不住的。
作者分享的很詳細(xì),咱就說絕了一個(gè)大動(dòng)作!點(diǎn)贊!