它,想給AI搜索醒醒腦

1 評論 4109 瀏覽 4 收藏 20 分鐘

在人工智能不斷演進的今天,一個來自加利福尼亞州舊金山的實驗室Exa,以其前沿的搜索引擎技術,吸引了全球科技界的目光。本文將深入探討Exa的創新之路,分析其技術特點和市場潛力,并展望這一技術如何為AI搜索領域帶來革命性的變革。

前兩天,有個融資新聞傳到了國內。

地址在加利福尼亞州舊金山,日期是7月16日。一個專門研究如何在人工智能時代改進搜索的實驗室,Exa,宣布:融到2200美元。

這筆錢Lightspeed Venture Partners帶頭。還有英偉達(NVIDIA)的風險投資部門和Y Combinator也參與投資;目的是幫助Exa快速發展,打造一個全新的搜索引擎,專門服務于人工智能。

什么?幫助人工智能,打造全新搜索?是的,你沒聽錯。他們要給人工智能加個“外腦”,或者說,在搜索功能上加點新東西,讓AI搜索更強進。

這讓我很好奇,Exa到底是個什么樣的公司?有什么特別的技術?創始團隊背景是怎樣的?為什么這么多資本投他們?

帶著問題,我進行一番探索,發現一些不同的線索。

01

首先,你可能不信,Exa創始人很年輕,思想很前衛。

首席執行官Will Bryk現在27歲,聯合創始人Jeff Wang才26歲。不過,你可能會驚訝,這兩位好朋友在ChatGPT推出之前就已經創辦了這家公司。

那么,這家公司是做什么的呢?

Exa公司位于舊金山,是Cerebral Valley AI社區的一部分。這是一個國外專注于人工智能、機器學習、自然語言處理和數據科學的社區。

最開始,Exa構建一個工具,這個工具能讓人工智能模型做類似網絡搜索的事情。這主要包括了從互聯網上查找信息,以及幫助客戶回答問題的人工智能聊天機器人,還有一些公司希望用來策劃培訓數據。

創始人早些年花100萬美元買了GPU,他們使用矢量數據庫和嵌入技術(這不是基于經典Transformer的大型語言模型),開始建立一個機器學習模型,模型被訓練來本能地理解鏈接,而不是單個的詞或句子。

Exa公司的創始人Will Bryk,解釋了他們的搜索引擎和普通搜索引擎有什么不一樣。他說:

通常AI搜索,像變形金剛,會猜你接下來可能會說什么單詞;但他們的搜索引擎不是猜單詞,而是猜鏈接,也就是你瀏覽網頁時可能會點開的下一個網址。

我們是看大家在網上分享什么鏈接,來訓練搜索引擎,所以,是一種全新的方式,不同于一般的搜索引擎只根據關鍵詞來找東西。

就像大型語言模型通過提供最有可能的下一個單詞來完成句子一樣,Exa的系統會提供最有可能的鏈接(可能是十個)。但是,你不會在里面看到像在普通搜索引擎中那樣的搜索引擎優化的垃圾信息,或者那些諷刺的、由人工智能生成的無用內容。

Jeff Wang說:

公司最初目標不是為了服務人工智能,而是,想探索怎樣利用人工智能來打造更好的搜索。

Exa之前有一個免費版本,允許任何人有限地嘗試使用我們的搜索引擎,除此之外,還有幾個不同等級的付費服務。這樣,Exa能賺一些錢,除了運行自己的 GPU 集群外,Exa 的產品托管在 AWS 上。

結果,當ChatGPT爆火之后,很多人工智能公司開始向Exa請求他們的搜索引擎API版本,以便能將用到自己的模型中去。

之后事情就一發不可收拾了,現在已經有數千名開發者在使用我們的產品,客戶也越來越多,從那以后,Exa獲得了極大的關注。

例如:

Databricks就是Exa的一個大客戶,它主要用Exa來為自己的模型培訓計劃尋找大型的訓練數據集。

不難看出,這家公司并不像谷歌、Perplexity這樣基因的公司,它們專注開發針對人工智能需求的技術,一開始用戶群體是B端、針對AI搜索創業有需求的團隊。

那么,Exa公司的創立的原因是什么呢?

創始人們對現在的互聯網環境很不滿意。他們覺得,互聯網本來是個找信息很方便的好地方,現在因為大家爭搶注意力變得越來越商業化,也變得扭曲了。

尤其是谷歌搜索,在谷歌,有一整個行業叫做搜索引擎優化(SEO)。這個行業目的,是用各種技巧讓網頁在搜索結果里排名靠前,這樣就能吸引更多人的注意。

結果就是,哪怕你只是簡單地想知道“感冒了怎么辦?”你也會看到一大堆網站在爭搶排名,而不是真的提供最有用的信息。

02

嗯,的確是不錯的想法。我帶著好奇也進行了測試。

打開官網,映入眼簾的幾個英文:The web, organized(AI的搜索引擎),顯然,搜索引擎不只是為個人使用,更多是為AI搜索服務的;實際上個人也可以用。

我搜的第一個問題是:Exa和Perplexity有什么不同?

它并沒有像其他AI搜索軟件那樣,直接給我答案,而是展示一堆列表;在Exa的搜索結果里,左側有固定類別的分類,我可以按照PDF、GitHub、公司、新聞、紙媒、推文、播客帖子等來篩選信息源。

當我點擊“公司”類別后,就能看到來自各種公司網站的相關信息。

比如:

它給我顯示一條9個月前Perplexity官網的幫助文檔。點進去后,里面有關于Perplexity的介紹,說Perplexity是獲取信息的最快方式,是一個工具,能讓全世界的人用自己的語言或在自己的水平上學習任何東西。

我也可以不點進去,直接把鼠標懸停在標題上,右側就會出現一個摘要,自動形成一個總結文檔。我還可以直接與這個文檔進行交流。和其他AI搜索一樣,下面還推薦了幾個相關問題。

進行多輪測試,可以肯定,只要點擊“新聞”,顯示出來的都是引用自各大媒體的報道,比如華爾街新聞、TechCrunch等。

如果想看博客帖子,點擊這一欄后,顯示的是社區論壇博主們的思考,有來自于知名平臺的,也有來自個人網站的。我隨機點擊幾個,發現博主們內容質量很高,幾乎都是各垂直領域的專家。

此外,Exa還可以按一天、一周、一個月、過去一年或任何時間篩選信息源的發布時間。

它還增加了域過濾器和短語過濾器:

域過濾器可以限定搜索范圍,只在特定的文檔字段或域中進行搜索,這可以提高搜索的精確度和效率。

短語過濾器,則用于處理和匹配特定的詞組或短語,它會考慮詞序和詞之間的距離,確保搜索結果,更精確地匹配用戶的查詢意圖。

不過,一個缺點是并沒有給我直接的答案??赡苁且驗殛P于Exa的報道本身就較少,所以它沒法自己創造內容。

這真的很技術思維,并不像谷歌、Perplexity用戶體驗感那么強。

我也遇到一個問題,當我搜“IPD是什么”時,它沒有給我想要的答案。我意識到問題太過簡單,于是我重新提問,加上IPD(Integrated Product Development集成產品完整表達,它才給我過濾掉那些和我意圖不一樣的內容。

它的索引能力真的很強。

9年前、16年前的內容都可以給我找出來,這些內容也并非完全可以使用,點進去看,明顯有些遜色,而且居然有一些是賣書、賣專欄的產品廣告,它們在廣告中加了IPD方面的內容,外加上網站權重比較高,就被索引出來了。

據此,從個人使用感受來看:

Exa的優點在于:

  1. 找資料利器,索引能力強、篩選條件多,非常適合技術人員使用,不適合小白用戶。
  2. 還原過程指標,把結論放在單篇文章上,而不是一個問題上。

缺點則是:

  1. 無法給出直接答案,我一個個篩選信息源,點擊查看;
  2. 有些信息源不準確,這可能和我選擇的篩選條件有關。

03

緊接著,我又拿Perplexity進行測試。Perplexity更友好。

從Perplexity的介紹里,我可以明白:

Exa主要為AI系統和開發者設計,它的工作給AI提供需要的知識和數據。而Perplexity則是給普通人用的搜索引擎,提供問答式的搜索體驗,所以,這兩個是完全不同的產品。

除此外,Exa定位為AI搜索的中間層,提供API服務,整合世界知識為AI系統提供數據,Perplexity是一個端到端的搜索引擎,直接給用戶提供摘要。

我詳細查閱了一下,Exa使用Embedding技術來理解語義,能搜索Twitter、GitHub、Reddit等多種數據源;而Perplexity則采用GPT-4o API和Claude-3、Sonar Large (LLaMa 3)等語言模型。

那么,它們二者有什么區別呢?

你可以想象一下,你有一堆玩具,每個玩具都有它的名字,比如“小汽車、洋娃娃、積木”?,F在,要把這些玩具的名字告訴一臺機器,讓機器理解并記住它們。但問題是,機器不懂我們的語言,它只懂數字。

怎么辦?

Embedding技術像一個魔法轉換器,它可以把“小汽車”這樣的名字變成一串數字,比如[1, 2],把“洋娃娃”變成另一串數字,比如[2, 3]。

這樣,每個玩具的名字就都對應一串數字,機器就能通過數字來“理解”和區分不同的玩具了。

更神奇的是,這個技術還可以讓相似的玩具有相近的數字。比如,“小汽車和卡車”可能都是車,所以它們的數字會比較接近,而和“洋娃娃”的數字就會遠一些。

所以,Embedding技術,是幫助機器通過數字來理解和記住各種信息的一種方法。

而GPT-4o API和Claude-3不一樣,它們本意上是已經被開發好的一個語言模型,Perplexity只是把不同的模型整合起來,去做寫文章、回答問題、聊天的動作。

所以,很明顯,Embedding技術和GPT-4o API、Claude-3的最主要區別是:

前者能把詞匯、圖片等變成一串數字,這樣更容易讓計算機學習和使用;后者更貼近用戶,幫助我在網上找到你需要的信息,比如新聞、圖片或視頻等。

因此,我們可以得到一個結論:Exa是一個為AI和開發者服務的高級搜索工具,它更注重于數據的深度整合和技術處理;Perplexity是面向普通用戶的搜索引擎,注重直接好用的便捷性,兩者不是一個賽道。

04

關于Embedding技術,中國也有不少研究者在討論。

我查了一下:

百度智能云的一篇文檔里,深入討論了Embedding技術在推薦系統中的應用。

這包括怎樣更好地推薦用戶和商品,還有序列推薦和知識圖譜的應用。這些技術把零散的數據變成連續的向量(就像一串串數字),提高了推薦系統的表現和準確度。

還有一個技術博客的作者,在他的文章中也詳細說明Embedding技術,在58同城房產相關業務和推薦場景中的實際應用[1]

李乾坤,在GitHub博客上也詳細描述Embedding技術的原理和它在自然語言處理中的應用。像Word2Vec和GloVe這樣的模型,就是通過把單詞變成高維的向量,來捕捉單詞之間的語義關系[2]。

我不是太懂,把它羅列出來,供你參考,相信這門技術在國內也能很快用到其他場景上。

那么,我們是否可以說:這項技術在迭代傳統以整合信源為中心的AI搜索引擎呢?我不知道,至少覺得它具備一定的市場需求。

比如:

前一段時間有篇文章特別火,叫《中文互聯網是否會消失》,拋開爭議就整體而言,大家認為中文互聯網內容并沒有迅速消失,相反,中文內容在全球范圍內的比例在增長。

根據W3Techs數據,截止到2024年7月,中文內容在全球網站上的使用比例為1.5%,中文和印地語內容的比重都增加了超過10倍(注:W3Techs一家專門提供數據分析的機構)。

這說明什么?互聯網數據并沒有消失,我們要特定工具把它給找出來。

國外風險機構Lightspeed,投資完Exa后,分享了一些關于未來智能體網絡的想法。他們提到:

最近,一直在思考一個全新的,支持AI智能體的網絡基礎設施,這種網絡會和我們人類用的網絡不一樣,因為AI智能體和人類需要的東西不同。

為什么需要智能體網絡呢?

  1. AI智能體要獲取最新且準確的信息來完成任務。雖然現在的大型語言模型能記住很多數據,但,這些數據很快就會過時,而且不容易找到需要的信息。
  2. 雖然現在有了檢索增強生成(Retrieval-augmented generation)技術,它幫助大型語言模型能夠處理訓練數據之外的信息,但這些通常都是私人或內部的信息。

理想情況下,AI智能體應該能通過API檢索整個公共互聯網的信息,這就要新的基礎設施——也就是智能體網絡。

但是,建設這樣的網絡,面臨很多技術和經濟上的挑戰?,F有網絡基礎設施,主要是為了服務廣告商,而不是用戶,傳統搜索引擎更關注廣告點擊和展示,這就導致了“SEO”產業興起。

內容質量并不總是最重要的。

比如:當你搜“精通Go語言的軟件工程師”,理想搜索引擎,應該給你工程師的個人網站或社交媒體資料,而不是一些討論Go語言的網頁。

好的搜索引擎應該能理解“實體”的概念,而不只是泛泛地討論一些話題。所以,AI想要的搜索結果,可能和人類需要的不一樣。

AI用的搜索引擎不應該顯示廣告,應該直接顯示結果,不幸的是,現在人類和AI使用的是同樣的搜索結果,這種“一刀切”的方式很糟糕。

Exa 的用武之地就在這,它是一個為AI智能體,專門設計的基于嵌入技術的搜索引擎。

它獲取并索引網絡上的最新內容,并通過一種獨特的“鏈接預測”模型,通過搜索API,把數據提供給基于大型語言模型的應用程序;這個模型被專門調整,以便更好地理解搜索查詢并從索引中返回相關鏈接。

這好比:當你向圖書管理員詢問關于某個主題的書時,他不僅迅速找到了與這個主題相關的書,還確保書正是你現在最需要的那一本。

有了 Exa,互聯網變得又新又有趣,AI需要一種新的方式來訪問信息,它正在執行和設計適用于AI和互聯網信源革命的任務。

是不是很有趣?簡單講:它想給AI搜索引擎“洗個腦”,做中間部分,左手深度檢索信源后,右手投喂給大語言模型,讓它更聰明、更高效。

總結

中國,什么時候有這樣的公司?

很快了,值得期待。最起碼,這兩位年輕人的創新想法,讓人們看到了新的機會點。

參考:

[1]. DataFunTalk. (2020, June 16). Embedding 技術在房產推薦中的應用. from:https://www.infoq.cn/article/hcii9dfu4aaat8se2id9

[2]. Li, Q. (2022, March 2). Embedding的原理及實踐. from:https://qiankunli.github.io/2022/03/02/embedding.html

本文由人人都是產品經理作者【王智遠】,微信公眾號:【王智遠】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Pixabay,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 沒想到搜索借助ai的東風,又成了主角

    來自浙江 回復