押注向量數據庫,為時過早?
伴隨著大模型的快速發展,向量數據庫這一概念也為業內許多人士關注,不少企業也早早就選擇押注向量數據庫。那么,向量數據庫的熱度可以持續到什么時候?現在入局向量數據庫,是否為時過早?
在大模型的高調火熱之下,向量數據庫也獲得了前所未有的關注。
近兩個月內,向量數據庫迎來融資潮,Qdrant、Chroma、Weaviate先后獲得融資,Pinecone宣布1億美元B輪融資,估值達到7.5億美元。
東北證券預測,到2030年,全球向量數據庫市場規模有望達到500億美元,國內向量數據庫市場規模有望超600億人民幣。
但是在這蒸蒸日上的發展態勢下,向量數據庫依然面臨著不可忽視的挑戰。
有聲音認為,不必專門開發一款純粹的向量數據庫,而是可以在現有數據庫的基礎上添加一些層,賦予其向量檢索的能力。更有業內人士認為,現在入局向量數據庫可能并非合適的時機。
那么,向量數據庫是否算得上AI時代的標配?其熱度能維持到幾時,此時押注后續又要擠出多少泡沫?
一、向量數據庫,大模型的“海馬體”
與傳統數據庫不同,向量數據庫不依賴于結構化格式,而是將數據作為數學向量存儲在高維空間中并對其進行索引。
這種方法被稱為“向量化”,可以更有效地搜索相似性并更好地處理復雜的數據類型(圖像、音視頻、自然語言)。
某種程度上,向量數據庫代表了數據存儲和檢索的范式轉變。隨著大模型的興起,向量數據庫的優勢得以充分發揮,甚至有人將其視為AIGC成功的基石。
一種通俗的比方是,行業內將大模型稱為“大腦”,向量數據庫則是其“海馬體”。
目前的大模型都是預訓練模型,對于訓練截止日之后發生的事情一無所知,第一是沒有實時的數據,第二是缺乏私域數據或者企業數據。
向量數據庫可以通過存儲最新信息或者企業數據有效彌補了這些不足,讓大模型突破在時間和空間上的限制,加速大模型落地行業場景。
同時,通過向量數據的本地存儲,還能夠協助解決目前企業界最擔憂的大模型泄露隱私的問題。
不過值得一提的是,向量技術并不新鮮,早在ChatGPT橫空出世之前,向量數據庫非常小眾。前文提到的兩家初創公司Pinecone和Weaviate都成立于2019年,但此前無論是融資還是營收都是乏善可陳的狀態。
Pinecone聯合創始人兼首席執行官Edo Liberty曾坦率地提到,如果沒有ChatGPT的出現,我們根本不可能獲得巨額融資。
軟件服務初創公司Heltar的創始人Avyukt Aggarwal也談到,AIGC的爆火成就了向量數據庫。
“每次淘金熱都會有人賣鏟子。對于生成式AI,鏟子是什么?向量數據庫。幾乎每一個LLM支持的應用程序都在使用它們或即將使用它們?!?/p>
二、向量數據庫,有必要走向專業化嗎?
向量數據庫系統的誕生,來源于具體業務需求——想要高效處理海量的向量數據,就需要更細分、更專業的數據基礎設施,為向量構建專門的數據庫處理系統。
但這種路徑是必須的嗎?
從產品層面講,如果傳統數據庫廠商不單獨研發向量數據庫,那么基本上會主張支持原生的向量詞嵌入和向量搜索引擎。
向量數據庫市場的陣營,在ChatGPT影響之前就已經在形成分化,既包括提供開源組件的Milvus、Vald、Weaviate、Qdrant、Vaspa、Vearch、AquilaDB、Marqo,到商業化服務產品Pinecone,再到大廠谷歌推出的Vertex AI匹配引擎,數據庫廠商Elastic和Redis基于自身提供的向量檢索功能等等。
這其實也表明了當前向量數據庫市場存在的兩種路線:
一個是基于分析數據庫的向量化執行引擎,英文是Vectorization,這是學術界2013年提出的名詞,如Clickhouse、Spark引擎,是一種新型的執行方式,用于處理傳統的結構化數據如表單等,更多的是結構化數據分析數據里面做并行執行的一種方式,在新型的處理芯片上進行處理。
另一個則是推出向量數據庫(Vector Database),本質上處理的是AI領域的一類新型數據類型,例如對多模數據的處理,相比其他的向量檢索技術在檢索速度和精準性上都有了一個很高的提升。
后者的做法也基本在幾家主流云廠商如亞馬遜云、阿里云上能夠看到,而這些云平臺應用市場也會提供給這些第三方向量數據庫企業進行托管。
例如,阿里云開發的內存數據庫Tair,在兼容Redis生態的同時,也具備向量檢索能力,實現緩存+向量二合一,已經投入在電商等場景。
有業內人士認為,對于簡單的用戶和場景來說,在傳統數據庫上添加一個向量分層來滿足技術發展需求,這種方法是可行的。
然而,考慮到 AI 場景和產業需求,情況可能有所不同。AI領域的迭代非???,隨著數據量和應用場景的增加,傳統數據庫可能不再適用于高要求的計算密集型場景,向量數據庫可能才是最終的解決方案。
三、押注向量數據庫,挑戰頗多
作為今年以來的熱門技術賽道,向量數據庫已吸引了大量廠商和創業團隊入場,先發者與后來者,老牌廠商與新生力量之間的競爭正在持續升溫。
但值得注意的是,向量數據庫真的值得廠商全力投入嗎?
在《為什么你不應該投資向量數據庫?》一文中,吳英駿表示,現在入局向量數據庫可能并非合適的時機。其理由主要集中于以下幾點:
其一,先發優勢明顯。目前向量化技術目前已十分成熟,并存在大量開源解決方案,在不同的領域也存在不同的向量化方案,潛在用戶可以很容易地在現有市場中找到合適的選擇。
其二,需求層次不同。如果一家公司已經采用了Elastic,Redis,SingleStore或Rockset等商業數據庫,并且不需要高度先進的向量搜索功能,則可以充分利用這些數據庫的現有功能。
盡管在向量數據處理方面的表現不如專業的向量數據庫,但依然可以滿足多數用戶的一般要求。
其三,技術在不斷前進。隨著數據庫領域技術的進步,越來越多的數據庫會考慮納入向量搜索功能,以滿足當前用戶群的需求。對于目前缺乏向量搜索功能的數據庫,實現這些功能或許只是時間問題。
也有聲音認為,相較于大模型的高調火熱,向量數據庫仍然靠近底層,并沒有達到真正意義上的全民皆知,向量數據庫更多時候是需要集成到其他平臺或云上被銷售。
而從需求端看,過去向量檢索還主要聚焦于機器學習和數據挖掘領域,通過高效的數據存儲和查詢工具,使得相似性搜索和聚類分析成為可能。
在推薦系統中,向量數據庫助力個性化推薦,根據用戶興趣和商品相似性,呈現給用戶最貼切的推薦結果。
簡言之,“與其投資新的向量數據庫項目,不如集中精力于現有數據庫,并探索利用向量引擎增強這些數據庫的機會,使其更加健壯和強大”。
四、結語
無論如何,在技術的快速迭代下,數據庫市場的持續擴張是不可避免的。當前存在著大量的需求,將吸引越來越多的數據庫甚至向量數據庫加入競爭。
不過從長遠來看,向量數據庫的市場需求尚處于初期,中遠期規模尚難以預估。在若干輪優勝劣汰之后,我們或許才能看清誰是真正的執棋者。
本文由@科技云報到 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!