AI 搜索去魅

0 評論 1815 瀏覽 15 收藏 12 分鐘

在人工智能飛速發展的今天,AI搜索技術被廣泛認為是信息檢索領域的一次革命性進步。然而,隨著這一技術逐漸從實驗室走向市場,它也面臨著各種爭議和質疑。本文旨在深入探討AI搜索技術的現狀、挑戰及其未來的發展方向。

最近不斷聽到 AI 搜索是新共識這種觀點,但在即刻搜索“AI 搜索”,出現的動態翻來覆去都是我關注的那幾個人在發,我無法確定是因為信息繭房還是真的新共識,得花點時間研究研究技術實現邏輯,避免焦慮。

本文主要為自己學習后整理,會包含一些其他文章的觀點、內容原文,非洗稿。

一、優質信息源推薦

一節播客,了解基礎技術實現邏輯  

https://www.xiaoyuzhoufm.com/episode/668be4c2ae8e21859a657b8a

一篇知乎文章,包含技術實現以及部分商業邏輯  

https://zhuanlan.zhihu.com/p/708438505

一節播客以及一篇公眾號,都是來自 ThinkAny 的創始人,對產品功能規劃比較體系化并且詳細的講述

https://www.xiaoyuzhoufm.com/episode/6644d2da251bd96e6c951aa1

我做了一個 AI 搜索引擎

這節播客是對談 360 VP,關于 360AI 搜索如何做的,包含一些內部才知道的信息量(但我發現播客中的內容已被多篇文章引用)

https://www.xiaoyuzhoufm.com/episode/665eda5f63c334a2fb484a2c

若關注搜索引擎,可看這篇以及文章內的相關推薦  

搜索技術專欄

若關注 AI 搜索的一些思考,可看這篇文章,此文作者也做過多個 AI 搜索的橫向對比

https://mp.weixin.qq.com/s/NsvecuHT_h21d9po0c7UmQ

二、技術邏輯

技術實現邏輯簡單說就三步:

第一步:獲取用戶 query,并調用 Google 等搜索引擎或第三方服務,獲取到搜索結果。

第二步:利用 embedding 等技術對搜索結果進行排序、切片。

第三步:利用 RAG 技術從幾十個網頁中提取和 query 相關的信息,然后通過大模型來整合生成輸出。

一些補充說明:

1)絕大部分通用 AI 搜索并未自建搜索引擎,都是調用三方搜索引擎獲取結果,據說 360VP 說,如果要爬 5000w 的網頁,大概需要一兩百萬人民幣,爬回來的內容還要自己做安全審核,現在通用搜索引擎的網頁都是千億級別,通過多年不斷爬回來的,不管從時間還是錢維度,都不是普通創業者能承受的。

2)搜索引擎返回的網頁需要做內容需要按語義、段落、句子等方式做切分,將網頁內容轉化為更小的、易于處理的信息塊,便于后續步驟中更有效地檢索和利用信息。

3)RAG 技術原理

4)Perplexity 技術路徑

5)ThinkAny創始人認為的標準流程(ThinkAny 這套現在還未搭建完成)

6)傳統搜索引擎技術路線

三、三類 AI 搜索

1. 通用 AI 搜索

即支持搜索所有內容,例如 360AI 搜索,這類搜索一般不會自建搜索引擎,可做空間相對有限,畢竟搜索結果來自于三方的搜索引擎。

據說秘塔在自建搜索引擎。

2. 垂類 AI 搜索

可做空間更大,因為擁有特定領域的數據源和數據庫,需要把私有數據建立索引,自己要干更多的活,而不是直接去調用三方搜索引擎。

例如支持搜索小紅書、豆瓣、公眾號、日歷、地圖,甚至微信聊天內容。

3. 企業 AI 搜索

將企業的各種結構化、非結構化數據都建立索引,然后提供一個查詢接口。

例如釘釘,用戶在釘釘里面可以搜索所有的聊天記錄、文檔、會議、日程、知識庫等。不僅能夠搜索到全面的信息,還能整合釘釘上的工作信息,比如整理出與誰、在哪個場景(比如哪個群、哪篇文檔、哪次會議或哪個業務流程等)的綜合信息(此段信息來自網絡,不保真)。

還有一類全家桶型 AI 搜索,也可以歸為企業 AI 搜索,因為他適合擁有全家桶的大公司,例如 Gemini 可能支搜索 YouTube、Gmail、Google 網盤、GoogleMap、Google 文檔、Google 日歷等一系列產品里的信息,現在已支持下方產品。

這些分類一般都會有一些交叉,例如通用 AI 搜索也會有一些特定領域數據,來增加自己差異化優勢,例如秘塔支持播客搜索,360 改造了原來的搜索索引庫。

四、可做方向

現在處于百花齊放階段,各個產品都在通過不同環節的優化打造出自己的獨特優勢,例如支持搜索小紅書、播客、法律等專業搜索,結果支持導圖展示,支持深入研究等。

從技術實現邏輯三個步驟我們可以粗略劃分為三個方向。

1. 獲取結果

意圖識別,輸入改寫,支持模型切換,選擇便宜的搜索引擎,自建私有數據源,支持多模態搜索,同時進行中英文搜索,支持深入研究……

2. 結果處理

搜索引擎結果重新排序,知識庫切片……

3. 結果輸出

支持展示摘要,支持復制,支持直接編輯,支持小紅書式 feed 流,支持左右滑動式交互,支持一鍵生成 PPT,生成導圖等……

短時間來看,不管哪類搜索,不管在哪個方向優化,找到合適的用戶定位,都有機會建設起差異化優勢。

長周期來看,我比較認同一位即友的觀點,AI 搜索不應該局限在 Summary,更應該關注整個任務鏈,即用戶意圖、用戶搜索之后會做什么,去解決用戶搜索背后的任務。

https://web.okjike.com/originalPost/6690abf699c7144fd6af42a0

五、AI 搜索主要成本

通過上面技術邏輯可看到,主要包括:搜索引擎 API,獲取私有數據,私有數據存儲,調用大模型 API,訓練成本,運營成本等。

關于一次搜索的成本,一次調用搜索引擎的成本,多個播客中提到的并不一樣,且會和技術、時期等都影響很大,所以這里未展示出來。

六、商業模式

目前 AI 搜索商業模式主要有兩派,我將其稱為訂閱派、廣告派。

廣告派:以 360、Google 為主,堅決不向 C 端用戶收費,還是想辦法向廣告主收費。

訂閱派:通過次數限制,高級功能限制等方式,付費解鎖。

七、關于 360

因為聽了節 360VP 聊 AI 搜索,涉及些平時很少有渠道了解的到的信息,所在這里記錄下來。

1. AI 搜索引擎根據不同業務場景,通過語義識別進行場景分流,再根據場景的流程設計,多次調用大小模型,提供最終的解決方案。比如 360VP 梁志輝曾經表示,360 一次 AI 搜索有 9 次大模型的調用。

2. 360 將 query 的意圖識別分類做到了4000多種,每一種需求配對應的Prompt,工作做得已經相當精細,但 360VP 表示這仍然只是很粗顆粒度的匹配。

3. 深入回答

其他產品生成長文本的邏輯:先生成大綱,大綱再進行擴寫,但這樣可能會出現一些問題,例如質量不可控,重復等。

360 的解決方案:發現國內外的互聯網內容是存在一些割裂的,對很多問題缺乏專業網站,所以解決方案是用中文搜索一遍,用英文再搜索一遍,英文搜索時則多參考一些海外網站。

八、本文未討論但很重要的問題

AI 搜索引擎的評價標準是什么

什么場景適合 AI 搜索,什么場景原來搜索更有優勢,尋址?找資源?解決問題?即時問題?簡短內容?還是生成報告式搜索?

一些垂類搜索,AI 搜索+商品,AI 搜索+旅游,AI 搜索+圖片,AI 搜索+小紅書?

PMF、TPF

AI 搜索什么最重要,技術?體驗?搜索結果忠于原網頁?還是定位?

關于成本、商業模式、搜索的未來、市場格局的變化等。

九、最后建議

作為非 AI 搜索從業者,無需作為產品蝗蟲花太多時間關注,大致知道哪些產品有哪些獨特功能、獨特數據源,能夠更高效解決自己生活中的問題即可。

例如秘塔可以搜索播客;

例如 kimi 原來可以搜索小紅書內容(后來下線了);

例如 360 能夠展示導圖更結構化查看;

例如通義千問可以總結播客;

例如萬知可以處理數百頁的 pdf,并生成 PPT;

例如 Gemini 可以關聯 Google 全家桶,總結 Gmail 郵件;

例如 GPT 支持 memory;

……

本文由人人都是產品經理作者【Aaron】,微信公眾號:【曾俊筆記】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!