AI+搜索|關于搜索的想象,和目前估值最高的生成式搜索引擎 Perplexity

0 評論 6520 瀏覽 26 收藏 33 分鐘

AI大模型與搜索場景有著天然的契合度,而 Perplexity 幾乎是最早推出的生成式搜索引擎,或者叫做回答引擎,Perplexity AI?成立一年,估值可達 5 億美金。那么,Perplexity究竟有哪些過人之處?一起來看看本文的拆解。

技術的變革會影響信息的收集與分發機制。印刷術發明后人們使用索引和目錄來查找圖書,互聯網出現后人們使用關鍵詞來查找鏈接,Google 創始人拉里·佩奇發明的 PageRank 算法、以及意圖識別等算法策略優化,旨在通過以算法為中心的任務式分發機制幫助用戶找到更好的網頁鏈接。

AI 讓信息搜索不再是關鍵詞和鏈接的單向匹配,而是一種直觀而精確的雙向對話。Perplexity AI 最早將這一愿景變為現實,成立一年估值達 5 億美金。它是一個由前 Open AI 員工創建的會話型搜索引擎,讓人窺見到一個搜索不僅僅是關于發現,也是關于理解的未來。本文從技術變革下搜索的發展歷史出發,深入解讀目前 AI+搜索頭部產品 Perplexity AI,看搜索與搜索引擎的邊界。

思考:

我們嘗試基于文章內容,提出更多發散性的推演和深思,歡迎交流。

產品優先:Perplexity 在初期使用了大量 API 來構建產品,團隊專注產品層面的優化,通過深刻的產品洞察來彌補模型能力不足導致的潛在問題,再去自研基礎設施來降低成本。

信息互動:在盡可能減少幻覺的條件下,用 LLM 輔助和外部信息互動,Perplexity 是一個很好的例子。這種形式不局限于搜索引擎,任何需要和外部信息互動的場景,都可以期待 LLM 的重構。

搜索的邊界:小紅書、公眾號等平臺對內容的遷移和封閉限制了全局搜索引擎的發展。然而搜索本身對大量信息進行搜集、過濾、總結、整合等工作曾經依賴搜索主體,如今 AI 能夠將搜索過程可互動式外化。搜索引擎成為一種新的內容平臺。

AI Native 產品分析——Perplexity AI

1.產品:Perplexity AI

2. 產品上線時間:2022 年 12 月

3. 創始人:

  • Aravind Srinivas:CEO,曾在 UCB 就讀博士主攻強化學習和圖像識別。博士期間,曾在 OpenAI、DeepMind 和 Google 實習,21 年畢業后加入 OpenAI 研究語言模型和擴散模型
  • Denis Yarats:CTO,曾在 Quora 擔任機器學習工程師,在 Meta AI 研究院研究強化學習、最優化控制和機器人
  • Andy Konwinski:聯合創始人,也是 Databricks 的聯合創始人
  • Johnny Ho:首席戰略官,此前是量化交易員

4. 產品簡介:

Perplexity 是用于信息發現和滿足好奇心的瑞士軍刀。它通過回答問題的方式,幫助用戶總結內容、探索新主題并激發創造力。

5. 發展歷史

  • 2022 年 8 月,Srinivas 離開 OpenAI 后創立了 Perplexity
  • 2022 年 9 月,獲得 310 萬美元種子輪融資
  • 2022 年 11 月,ChatGPT 上線
  • 2022 年 12 月,Perplexity AI 上線
  • 2023 年 3 月,Perplexity 在 A 輪融資中籌集了 2560 萬美元,估值 1.5 億美元
  • 2023 年 10 月,推出訂閱制服務后 ARR 達到 300 萬美元,完成由 IVP 領投的新一輪融資,估值達到 5 億美元

一、搜索的演變

從搜索的歷程發展可以追溯到人們對信息的需求和查找分發方式的演變。

搜索的概念最早可以追溯到印刷術的出現,當時人們開始使用目錄和索引來幫助他們查找書籍和文獻。1990 年代中期,Yahoo! 等早期搜索引擎開始出現,它們使用關鍵詞匹配的方式幫助用戶查找網頁,但搜索結果并不總是準確或完整。

1998 年谷歌成立,創始人之一拉里·佩奇發明。PageRank 算法,通過評估網頁之間的鏈接數量和質量,將給定網頁的權重和重要性進行排名。此后,網站所有者需要了解 PageRank 算法以及其他搜索引擎的排序因素,以便優化網站以提高其在搜索引擎中的排名。

搜索引擎優化(SEO)專家開始研究關鍵詞的選擇和使用、網站內容的優化、外部鏈接的建設、用戶體驗的改善等策略,以適應谷歌的發展。他們努力通過技術手段和優化方法,使網站在搜索引擎結果頁面(SERP)中獲得更高的可見性和排名。

參考我們之前的文章頂級風投Greylock:會最先被AI重塑的高潛市場,Greylock 提出 AI 使得原來以算法為中心的信息分發網絡變成去中心化式人與人的雙向網絡。于搜索而言,搜索有望不再是單邊的信息查詢和SEO策略優化,而成為一種雙邊的信息交互。

二、Perplexity AI 是什么?

Perplexity 幾乎是最早推出的生成式搜索引擎,或者叫做回答引擎。借用大模型的力量,用戶可以直接提問,Perplexity 會直接從各種篩選過的來源進行總結,提供準確、直接的答案,同時提供來源參考。

當 ChatGPT 剛推出時,它憑借出色的自然語言理解能力和生成豐富回答的能力,曾一度讓人們認為生成式 AI 可能會取代傳統搜索引擎。

然而,隨著用戶體驗中的幻覺現象、無法聯網和知識更新滯后等問題逐漸顯現,人們開始回歸現實,轉向由大型模型增強的搜索引擎,例如 Perplexity 和 Bing Chat。這些“回答引擎”利用 RAG(Retrieval Augmented Generation)技術,對搜索引擎的結果進行處理,以減少誤導信息并提高信息的及時性。除了 Perplexity 和 Bing Chat,其他一些曾企圖挑戰 Google 搜索引擎霸主地位的平臺,如 You.com 和 Neeva,也轉向了 AI 增強的答案生成模式。

與傳統搜索引擎相比,回答引擎主要在以下幾個方面進行了優化:理解用戶問題的能力、總結搜索結果的能力、保留搜索結果索引的能力,以及擴展用戶問題的能力。這些優化旨在降低用戶使用門檻,節省用戶在不同網頁上搜索和瀏覽的時間,確保搜索結果的可靠性,同時為用戶提供深入挖掘問題的能力。

正是因為這些特點,當 Bing Chat 于今年 2 月正式推出時,微軟 CEO 納德拉對其寄予了厚望,將其視為開啟搜索新時代的重要標志。他認為這是對谷歌在搜索引擎市場長達 20 年的主導地位的前所未有的挑戰。然而,到了 10 月的谷歌反壟斷案時,納德拉表現出了轉變,坦誠 Bing Chat 尚有許多待解決的問題,且在市場份額競爭中未達預期效果。全球范圍內,搜索引擎市場的格局依舊穩定。

盡管在訪問量上 Perplexity 仍遠不及主流搜索引擎,而且也有許多批評聲音將其視為僅是表面包裝,但自推出以來,Perplexity 一直保持穩定增長,在同類產品中保持最高訪問時間,其表現甚至超過了有多年 AI 結合搜索引擎經驗的 You.com。

在 a16z 發布的月訪問量前 50 的 GenAI 產品中,PerplexityAI 排名第十。從 3 月到 10 月的半年時間內,Perplexity AI 每天處理的搜索請求量增長了 6~7 倍,目前每天要處理數百萬個搜索請求。

即使在其他大型模型紛紛引入聯網能力后,Perplexity 仍保持良好發展勢頭。因此,本文將結合實際使用體驗,探討許多人眼中的 GPT “套殼”產品 Perplexity 的獨特之處。

三、Perplexity 如何脫穎而出?

Perplexity的三大優點:迭代速度快、效果佳以及功能創新。

1. 迭代速度快,每周一個小更新

如下圖所示,自 Perplexity 推出以來,其重要的更新和里程碑事件一目了然。在不到一年的時間里,Perplexity 已經實現了多次關鍵的版本迭代。特別是在更新頻繁的時期,幾乎每周都會推出新的功能,這些更新主要集中在產品功能層面,直到今年 10 月,Perplexity 才低調推出了旨在降低運行成本的大型模型。

分析推特中 Perplexity 篩選出涉及到的版本更新相關內容詳情和數據,包括各個版本的發布日期和相關推文的點贊次數,可以看出點贊最多的是去年年底推出的 Twitter 搜索引擎。團隊對搜索具有敏銳的產品洞察,在 GPT-3.5 推出后的半個月就上線了推特基于 SQL 的搜索分析引擎。點贊數其次的是新模型推出類動態,而 Perplexity 團隊更為重視和投入的產品更新迭代類內容關注較少。

可以推測,目前大眾對 AI+搜索類產品的認知,還處在同類產品的嘗新,尚未進入對產品功能的深入體驗或形成顯著的用戶粘性。

2. 功能創新,補足回答引擎的短板

「Devil in the details.」,Perplexity 的卓越搜索體驗得益于其眾多創新功能,尤其是 Source Edit(信源編輯)、Focus Search(專注模式)和 Perplexity Copilot。

Perplexity 并不總是都表現良好。例如,在查詢“Twitter 的 CEO 是誰”時,盡管同類產品均能正確回答 Linda Yaccarino,Perplexity 卻有時會答錯。這一錯誤源于其引用了未及時更新的維基百科條目。針對此類錯誤,Source Edit 功能可提供有效解決方案。

Source Edit 允許用戶編輯參考信源并重新搜索。目前,這一功能僅支持刪除而非添加信源,有效減少無關信源對結果的干擾,通過人工的方式,對潛在的不穩定性進行修正。可以看到,排除了包含錯誤信息的維基百科后,Perplexity 能夠給出正確答案。

此外,用戶可通過 Focus Search 功能,在開始新搜索前限定搜索范圍,提升搜索效果。該功能在學術搜索、數學計算、YouTube 視頻和 Reddit 論壇搜索等方面進行了特別優化。特別是 YouTube 視頻搜索,其引用可直接鏈接到視頻中相關內容的準確時間點。

Perplexity Copilot 則增強了搜索結果的準確性和可信度。作為用戶的搜索助手,Copilot 提供更細致、深入和個性化的回答。

對于同樣的問題,通常 Copilot Search 參考的信源更多、回答更長、展示方式更結構化,同時在搜索過程中,Copilot 會對用戶的問題含義進行延伸,在一次用戶的搜索中,實則進行了多次對于不同關鍵詞的搜索。如下圖所示,使用 Copilot 搜索同樣的關鍵詞,Copilot 會自動對用戶的意圖進行延伸,使用不同的關鍵詞進行搜索并最終總結。

個性化的搜索。Perplexity Copilot 不僅深入理解用戶意圖,還根據用戶的個人情況提供定制化內容。

例如,詢問餐廳推薦時,會自動要求用戶補充必要的信息,如餐廳所在的地點;同時,Copilot 會根據用戶的 AI Profile 所需補充信息,如下圖(右)可以看見,在作者在 AI Profile 中提前設置好了自己所在城市后,Perplexity Copilot 便不再要求用戶補充地址信息;最后,當 Copilot 要求用戶補充信息時,會采用更加 LLM Native 的交互方式,會根據要求的補充信息類型,Copilot 自主選擇最合適的交互方式來讓用戶輸入,如下圖(右)就自動生成了一組復選框。

Perplexity Copilot 使用了 Fine-tuned GPT-3.5 而非 GPT-4。根據測試,Fine-tuned GPT-3.5 在大多數情況下(69%)能提供與 GPT-4 同等甚至更好的性能,甚至在少數問題上,能夠提供比 GPT-4 更好的表現。

Perplexity 的愿景不僅是成為更好的搜索引擎,而是打造一個全面的知識中心,助力用戶輕松學習新知。為此,Perplexity 自開發之初便專注于優化其引用信源和發散性問題處理能力。

9 月份,Perplexity 圍繞此愿景推出了“合集(Collections)”功能。在 Perplexity 中,每次查詢對話被視作一個線程(Thread),而合集則是線程的容器,功能類似于收藏夾。合集不僅能整理線程,還能圍繞主題拓展新問題,邀請協作者共同構建知識社區。

3. 效果優秀,快速、準確、可靠

Perplexity 在多個方面展現出卓越的性能,尤其是在內容的可靠性、信源的豐富性、響應速度的快捷性以及內容的穩定性方面。

首先,其內容的可靠性和信源的豐富性尤為顯著。以搜索 OpenAI 最新的 Dev Day 更新為例,在 Bard、Perplexity、GPT4 和 You.com 中進行搜索,Perplexity 不論是用中文還是英文,均展現了最為全面的信源引用和最佳的搜索結果。GPT4 雖然依賴正確的關鍵詞,但其結果質量緊隨其后,而 Bard 和 You.com 在中英文兩種搜索中表現并不全面。

此外,Perplexity 在結果的穩定性和生成速度上同樣表現出色。與其他競爭對手相比,Perplexity 在反復查詢相同問題時,基本能夠基于相同信源提供一致的答案,有效降低了大模型的不確定性。同時,其生成答案的速度在所有同類產品中也是最快的。

除了從用戶體驗角度定性分析,也有學者嘗試對回答引擎的效果進行定量評估。今年 4 月,Stanford 的 Nelson F. Liu 發表了論文《Evaluating Verifiability in Generative Search Engines》,對 Bing Chat、Perplexity、YouChat 和 Neeva 等幾大搜索引擎進行了評估。這篇論文從四個維度來測試:文本流暢度、感知有效性、引文回憶率和引文精確度。綜合來看,Perplexity 在這項評估中表現最為出色。

四、Perplexity AI 的體驗不足

基于上述種種優點,有的用戶認為 Perplexity AI 已經完全可以代替傳統的搜索引擎;而也有用戶則給出了完全相反的意見,認為其信源不足、結果價值低,難以替代傳統搜索引擎。

評價上的落差可能是源自于對回答引擎的高期望和使用習慣的不適應。

1. 期待值高

論文 Evaluating Verifiability in Generative Search Engines 的作者 Nelson F. Liu 認為,整體來說這類回答引擎遠遠沒有到達他們預期的表現?,F存的回答引擎,生成的結果通常都很流暢并且「看起來」很有信息量(informative),但是在引文回憶率和引文精確度上都表現不佳 —— 僅有 51% 生成的陳述得到了引用內容的充分支持,而只有 74.5% 的引用能正確支持生成的結果。

論文作者還發現,生成的內容在引用準確度上和有效性上,存在明顯的負相關。這很有可能是為了降低幻覺的一種代價,體現在,生成的結果常常是直接復制引用的內容,或者的引用內容的改寫(Paraphrase),當信源實際上和用戶的問題并不相關時,這種問題就會非常明顯。

舉例來說,當用戶提問“引導社會進化的動力是合作還是競爭?”時,回答引擎可能會引用動物進化中關于合作和競爭的內容。同時,作者認為研究結果并不能完全評估回答引擎的效果,因為研究聚焦在回答引擎結果的可驗證性,而不是實用性,重點在引用值得二次驗證以及引用準確,假設了用戶要基于生成的結果,用引用去二次驗證搜索結果。然而,用戶期待的理應是無需二次驗證,直接獲得答案,而這種期待往往會落空,因為回答引擎善于總結,不善于縫合。

對于絕大多數事實類的問題,Perplexity AI 的表現非常好,可以做到無需外部鏈接即可完成搜索目標,如搜索 OpenAI Dev Day 更新,SpaceX 火箭發射情況,塞爾達傳說某神廟攻略等。這類問題的特點是,如果用傳統的搜索方式,通常打開單個網頁即可得到答案,回答引擎則參考多個信源,總結出最重要的信息,縮短稱述。

但有時候,生成的結果也會給人一種看起來很有道理,但是沒什么用的感覺。沒有找到真正有用的信息的原因可能在于這部分信息密度極低,即便是 AI 讀取全部數據也無法高效地抽取精華。那些經常被提及的東西,也更有可能是 AI 認為重要且最先習得的東西。如果那目前 transfomer 的自回歸模型來看似乎也符合邏輯,經常出現的高頻信息會提高被預測為下一個詞的概率。「當 Perplexity 給出的答案,沒有比我已知的內容更有意義時,Perplexity 表現得像是找不到答案或者答案根本不存在,但在 Google 上搜索時,我還是能在第一頁中找到一些我真正想要的,更深層次的東西」。

總而言之,用戶對于不同的搜索問題,期望得到不同顆粒度的答案,但是 Perplexity AI 在給出答案時并不能充分考慮這一點,產品本身試圖通過給出更換模型、引入 Copilot 和編輯搜索關鍵詞等選項來克服這個問題,但仍然需要更長期得優化。

2. 使用習慣不同

搜索引擎優化 SEO(Search Engine Optimization)的研究由來已久,是一種通過優化網站內容來提高網站在搜索引擎結果中的排名的過程,關于搜索,有一些有意思的統計:

  1. 69.6% 的搜索關鍵詞長度在 4 個詞以下
  2. 65% 的情況下,用戶會在 10 秒內從搜索結果中選擇要跳轉的頁面
  3. 25.6% 的情況用戶不會點擊任何搜索結果
  4. 不足 1% 的情況用戶會瀏覽搜索結果的第 2 頁
  5. 59% 左右的用戶一次點擊就能解決問題

注:統計結果僅參考量級

大多數的搜索場景,都是用簡單的關鍵詞,用極短的時間從搜索結果中篩選,在小于等于一個頁面內解決問題。這種習慣遷移到回答引擎上,則會很不適應,因為這類回答引擎搜索依賴對問題進行準確描述、提示工程和多輪對話來優化結果;同時生成結果會需要比傳統搜索引擎更長的時間,Perplexity AI 通過在生成結果時先顯示信源,再進行生成的方式來弱化這個問題,但仍慢于傳統方式。

期待值高,使用方式不同就會導致,對于傳統搜索中打開一個頁面就可以解決的快速搜索問題,回答引擎需要用更詳細的搜索條件、更長的時間來得到類似的結果;對于依賴多個頁面交叉驗證補充的復雜搜索問題,回答引擎則顯得信源不全或能力不足,無法給出足夠有價值的信息,需要用戶使用傳統搜索引擎重新搜索。

五、能否顛覆搜索引擎?

雖然回答引擎備受期待,但要顛覆傳統搜索引擎仍是一個遙遠的目標。

以 2019 年成立的 Neeva 為例,這家公司曾是 Google 的潛在挑戰者之一,投入大量資源構建自己的索引和排序系統,旨在提供比 Google 更好的用戶體驗,且不含廣告。Neeva 在用戶研究和內部指標上曾接近 Google 的水平,但僅兩年后即關閉了面向普通消費者的業務,原因是缺乏足夠用戶。這表明,僅靠優化用戶體驗難以改變搜索引擎市場的格局。

過去,搜索引擎建立了深厚的壁壘。微軟的 CEO 納德拉和 Neeva 的聯合創始人拉馬斯瓦米都表示,搜索引擎是互聯網中最難攻破的市場,絕大多數用戶都不會去更改他們的默認搜索引擎,同時,越多用戶使用默認搜索引擎(Google),那么就可能通過大量用戶數據持續優化搜索結果,其領先地位似乎難以撼動。

除了傳統搜索引擎已經建立的壁壘外,回答引擎還有其他基于大模型的產品的常見問題要解決,如成本和反饋機制。

當前的回答引擎大多基于傳統搜索引擎和大模型的 API 構建,自身更專注于模型和 RAG(Retrieval-Augmented Generation)的優化;同時,回答引擎產品普遍沒有找到合理的商業模式,Perplexity AI 的許多競爭對手產品仍然完全免費,而僅靠訂閱機制的收入,難以滿足對 API 的大量需求,阻止了現階段回答引擎完全替代傳統搜索引擎的可能性。

目前,Perplexity AI 已經在嘗試構建自己的 WebCrawler、Search index 和 LLM 來應對不斷增長的的查詢請求來降低成本。

此外,回答引擎也沒能找到像搜索引擎或者信息流推薦一樣,將收集用戶反饋融入產品正常使用中的產品形態,也就很難基于先發優勢和用戶積累,打造數據飛輪。根據 CEO Aravind Srinivas 所述,只有 10% 左右的用戶會提供反饋,同時用戶可能因為各種原因不喜歡 AI 生成的結果,用戶不喜歡并不代表結果生成的不好,很有可能只是因為 AI 的總結中丟失了一部分用戶希望的結果.

正如先前所說,用戶對于總結的預期并不穩定和一致,AI 認為的好未必是人類認為的好。在這點上,Perplexity AI 不能像谷歌或者 Tiktok 一樣,用戶的每一次點擊或者喜歡都能用于進一步優化產品,仍然依賴一些外部 Contractor 對用戶數據進行標注,來對模型進一步優化。

六、不止是搜索引擎

真正威脅搜索引擎的可能不是另一種工具,而是內容的中心化式遷移和封閉。

在過去十幾年中,用戶發布的內容從開放的,對搜索引擎索引支持良好的論壇、博客等,遷移到了對搜索引擎索引支持不那么好的平臺,如公眾號、小紅書、抖音、Instagram,Twitter 甚至 Amazon 等,這些平臺已成為許多人在特定場景下的首選搜索工具。未來,這些生態很有可能出現自己的 AI 搜索助手。不止是內容平臺,飛書和 Notion 等知識管理平臺,也有計劃推出自己的 AI 搜索助手,體驗和使用方法和回答引擎類似,但是搜索范圍聚焦于私有數據庫。

無論在哪種場景下,AI 驅動的搜索都是用戶和外部信息互動的助理,理想狀態下,AI 驅動的搜索將幫助用戶和信息進行一種直觀的雙向對話,而非基于關鍵詞的單向匹配。

除了模型本身對信息的理解和處理能力,數據庫的大小同樣會是限制回答引擎類產品天花板的重要因素之一。內容平臺等封閉的平臺對搜索引擎的沖擊,同樣會對回答引擎的未來產生影響,如何打造獨一無二的數據庫,或者接入更多的外部數據庫,可能是在產品和模型能力之外的發展重點。舉例來說,Rewind AI 某種程度上,是否也可以視為一種基于用戶錄屏數據的搜索產品?

Perplexity AI 的團隊同樣意識到了搜索引擎的壁壘和內容變化的趨勢,因此并沒有選擇在垂直領域的方向去做產品來競爭,如購物助手或者生活助手,因為在數據上無法和 Amazon 和 Tiktok 競爭,而是選擇在成為知識內容平臺的方向進行探索。

通過讓用戶可以分享和保存自己和 Perplexity AI 的多輪對話流程,來試圖建立一個內容社區;盡管目前 AI 在表達能力上表現出色,但 AI 產生的大量看似可靠,卻并不實用的內容,限制了其成為知識平臺的潛力。

但是好的方面是,搜索引擎仍然在大量場景內,幫助用戶解決實際問題,搜索引擎和回答引擎仍能提供可靠的價值。

人們常說,搜索本身即是一種能力,需要對大量信息進行搜集、過濾、總結、整合等工作,而這些對信息的加工是過去的搜索流程中,存在于搜索主體的工作流中但是無法被傳播的,更多都在搜索主體的腦內和個人知識庫中進行處理和加工。而隨著 AI 代替用戶對信息完成加工的過程并展示,搜索的過程本身也具備成為一種可互動的內容形式的潛力,這或許會是 Perplexity AI 成為一種內容平臺的可能性。

參考材料:

https://youtu.be/ix4_rdogcVI

編譯:Shiqi,Vela

來源公眾號:深思SenseAI;關注全球 AI 前沿,走進科技創業公司,提供產業多維深思。

本文由人人都是產品經理合作媒體 @深思SenseAI 授權發布,未經許可,禁止轉載。

題圖來自 Unsplash,基于CC0協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!