精品国精品自拍自在线,欧美亚洲色欲色一欲www,国产在线无码制服丝袜无码

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

更好的輸入，才能更好地思考

陌晨

2024-05-27

0 評(píng)論 633 瀏覽 2 收藏

11 分鐘

本文從技術(shù)原理到實(shí)際應(yīng)用，通俗易懂地闡釋了AI搜索的前沿進(jìn)展。了解它是如何通過(guò)收集數(shù)據(jù)、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理等技術(shù)，提供快速、準(zhǔn)確、個(gè)性化的搜索結(jié)果。

今天看到一句很牛的話，放在題目上蠻好。

首先，我覺(jué)得思考是第一生產(chǎn)力，維持著工作勢(shì)能和帶來(lái)活力。因?yàn)橐环矫妫瑱C(jī)械化工作本身就會(huì)讓大腦、肢體感受厭倦和乏力，你會(huì)覺(jué)得沒(méi)意義，后面轉(zhuǎn)化成一種疲于應(yīng)付。

另外一方面，你會(huì)陷入某種內(nèi)耗里面，會(huì)常問(wèn)自己N個(gè)為什么？給我任務(wù)的人是不是傻x，為啥子這么做等等諸如此類吧。

所以，在這環(huán)節(jié)階段必不可少。

01

今年來(lái)，或者說(shuō)從GPT的迅猛凸起，我們就一直與AI平行或結(jié)合。從場(chǎng)景及目前的市場(chǎng)變化看，2024年標(biāo)志著AI搜索技術(shù)的突破年，它不僅顛覆了傳統(tǒng)搜索模式，更以前所未有的速度和智能化水平，為用戶帶來(lái)革命性的搜索體驗(yàn)。

那么AI搜索為何能獲得巨大增速，這個(gè)新時(shí)代到底是靠什么最前沿的技術(shù)來(lái)實(shí)現(xiàn)的呢？

說(shuō)到這，搬出我們的搜索工具來(lái)給我劃出結(jié)構(gòu)和大綱。并用一個(gè)直白通俗易懂的例子來(lái)給我們說(shuō)明下。

讓我用一個(gè)簡(jiǎn)單的例子來(lái)通俗地解釋AI搜索的技術(shù)原理：

想象你有一個(gè)智能助手，它能夠理解你的問(wèn)題并提供準(zhǔn)確的答案。這個(gè)助手就像AI搜索引擎一樣，它通過(guò)以下幾個(gè)步驟來(lái)幫助你找到信息。

首先，AI搜索引擎需要收集大量的數(shù)據(jù)，就像一個(gè)圖書館收集書籍一樣。這些數(shù)據(jù)可以是網(wǎng)頁(yè)、文檔、圖片等，它們存儲(chǔ)在搜索引擎的數(shù)據(jù)庫(kù)中412。

接著，搜索引擎使用機(jī)器學(xué)習(xí)技術(shù)來(lái)分析這些數(shù)據(jù)。機(jī)器學(xué)習(xí)是一種讓計(jì)算機(jī)通過(guò)訓(xùn)練數(shù)據(jù)學(xué)習(xí)并做出預(yù)測(cè)的方法。在這個(gè)過(guò)程中，搜索引擎會(huì)找到數(shù)據(jù)之間的關(guān)聯(lián)和模式2。

然后，當(dāng)用戶輸入一個(gè)搜索詞或問(wèn)題時(shí)，AI搜索引擎會(huì)利用自然語(yǔ)言處理（NLP）技術(shù)來(lái)理解用戶的意圖。NLP是人工智能的一個(gè)分支，它讓計(jì)算機(jī)能夠理解和生成人類語(yǔ)言1516。

接下來(lái)，搜索引擎會(huì)使用知識(shí)圖譜來(lái)增強(qiáng)搜索結(jié)果。知識(shí)圖譜是一種結(jié)構(gòu)化的知識(shí)庫(kù)，它包含了實(shí)體（如人、地點(diǎn)、事物）之間的關(guān)系。通過(guò)知識(shí)圖譜，搜索引擎可以提供更豐富、更準(zhǔn)確的信息15。

最后，搜索引擎會(huì)根據(jù)用戶的查詢和之前的搜索歷史，使用推薦系統(tǒng)來(lái)個(gè)性化搜索結(jié)果。推薦系統(tǒng)通過(guò)分析用戶的行為和偏好，來(lái)推薦最相關(guān)的內(nèi)容9。

通過(guò)這些步驟，AI搜索引擎能夠提供快速、準(zhǔn)確且個(gè)性化的搜索結(jié)果，幫助用戶找到他們需要的信息。就像一個(gè)智能助手，它不僅能理解你的問(wèn)題，還能從海量信息中找到最佳答案412。

AI搜索技術(shù)是一種利用人工智能方法來(lái)增強(qiáng)信息檢索的技術(shù)。它的歷史可以追溯到20世紀(jì)50年代，最初用于解決邏輯和數(shù)學(xué)問(wèn)題，如象棋游戲。

這些早期的AI系統(tǒng)，如IBM的Deep Blue，通過(guò)搜索算法評(píng)估可能的棋局走法，并選擇最佳策略。Deep Blue在1997年擊敗國(guó)際象棋世界冠軍加里·卡斯帕羅夫，這標(biāo)志著搜索技術(shù)在解決復(fù)雜問(wèn)題上的巨大潛力。

02

在AI中，搜索技術(shù)主要用于兩大類問(wèn)題：優(yōu)化問(wèn)題、決策問(wèn)題、解決問(wèn)題

大語(yǔ)言模型盡管在應(yīng)用領(lǐng)域取得了顯著的成果，但是在具體應(yīng)用中仍具有很大的局限性：

1.在處理知識(shí)密集型任務(wù)中可能會(huì)產(chǎn)生”幻覺(jué)”，比如:

輸入沖突幻覺(jué) (用戶想要a但返回b，輸入晚餐返回午餐)
上下文沖突幻覺(jué) (回答全文沒(méi)出現(xiàn)某事物,總結(jié)的時(shí)候卻出現(xiàn))
與事實(shí)相矛盾的幻覺(jué) (對(duì)某個(gè)事物下定義不正確:比如熊貓屬于貓科動(dòng)物)

2.處理訓(xùn)練數(shù)據(jù)中沒(méi)有的知識(shí) 無(wú)法回答或者亂下定義

3.處理時(shí)效性問(wèn)題無(wú)法回答或回答不對(duì)

為了克服這些問(wèn)題,檢索增強(qiáng)生成(Retrieval Augmented Generation,RAG) 通過(guò)計(jì)算語(yǔ)義相似性從外部知識(shí)庫(kù)檢索相關(guān)文檔片段，從而增強(qiáng)LLMs的能力。通過(guò)引用外部知識(shí)，RAG有效的減少生成事實(shí)錯(cuò)誤內(nèi)容的問(wèn)題。

最初RAG的誕生與Transformer架構(gòu)的興起同步，主要是通過(guò)預(yù)訓(xùn)練模型(Pre-Training Models，PTM)的方式，通過(guò)額外的知識(shí)增強(qiáng)語(yǔ)言模型。最初為了優(yōu)化預(yù)訓(xùn)練技術(shù)。隨著ChatGPT的出現(xiàn)，LLMs展示了強(qiáng)大的上下文學(xué)習(xí)能力，標(biāo)志著RAG研究的一個(gè)轉(zhuǎn)折點(diǎn)，在推斷階段(提問(wèn)回答)，RAG研究轉(zhuǎn)向?yàn)長(zhǎng)LMs提供更好的信息來(lái)應(yīng)對(duì)更復(fù)雜和知識(shí)密集的任務(wù)。從而推動(dòng)RAG快速發(fā)展，隨著研究的深入，RAG增強(qiáng)不再僅限于推斷階段，開始更多地融入LLM的微調(diào)技術(shù)。

03

RAG的含義隨著技術(shù)的發(fā)展而擴(kuò)展。在大型語(yǔ)言模型時(shí)代，RAG的具體定義是指模型在回答問(wèn)題或生成文本時(shí)，首先從大量文檔語(yǔ)料庫(kù)中檢索相關(guān)信息。然后，利用這些檢索到的信息生成響應(yīng)或文本，從而提高預(yù)測(cè)的質(zhì)量。RAG方法允許開發(fā)人員不必為每個(gè)特定任務(wù)重新訓(xùn)練整個(gè)大型模型。相反，他們可以附加一個(gè)知識(shí)庫(kù)，為模型提供額外的信息輸入，并提高其響應(yīng)的準(zhǔn)確性。RAG方法特別適用于知識(shí)密集型任務(wù)。綜上所述，RAG系統(tǒng)由兩個(gè)關(guān)鍵階段組成:

1、利用編碼模型檢索基于問(wèn)題的相關(guān)文檔，如BM25、DPR、Col- BERT和類似方法[Robertson等人，2009,Karpukhin等人，2020,Khattab和Zaharia, 2020]。

2.、生成階段:使用檢索到的上下文作為條件，系統(tǒng)生成文本。

上圖是應(yīng)用于問(wèn)答的RAG流程的代表性實(shí)例。它主要包括3個(gè)步驟。

索引 Indexing。文檔被分成幾塊，編碼成向量，并存儲(chǔ)在向量數(shù)據(jù)庫(kù)中。
檢索 Retrieval。根據(jù)語(yǔ)義相似度檢索與問(wèn)題最相關(guān)的Top k塊。
生成 Generation。將原始問(wèn)題和檢索到的塊一起輸入LLM以生成最終答案。

1、Naive RAG – 樸素RAG范式

它在ChatGPT廣泛應(yīng)用后迅速嶄露頭角。Naive RAG遵循傳統(tǒng)的流程，包括索引、檢索和生成，也被稱為“檢索-閱讀”框架。

2、Advanced RAG – 高級(jí)RAG范式

高級(jí)RAG旨在解決樸素RAG的局限性，特別關(guān)注提高檢索質(zhì)量。它采用預(yù)檢索和后檢索策略，通過(guò)滑動(dòng)窗口方法、細(xì)粒度分割和元數(shù)據(jù)的整合來(lái)改進(jìn)索引技術(shù)，同時(shí)引入多種優(yōu)化方法以提升檢索效率。

3、Modular RAG – 模塊化RAG范式

模塊化RAG架構(gòu)超越了前兩種RAG范式，提供了更高的適應(yīng)性和靈活性。它包括多種策略來(lái)改進(jìn)其組件，如添加搜索模塊進(jìn)行相似性搜索，以及通過(guò)微調(diào)來(lái)優(yōu)化檢索器。

Retrieval-Augmented Generation（RAG）作為機(jī)器學(xué)習(xí)和自然語(yǔ)言處理領(lǐng)域的一大創(chuàng)新，不僅代表了技術(shù)的進(jìn)步，更在實(shí)際應(yīng)用中展示了其驚人的潛力。

04

引擎的本質(zhì)：“搜索引擎的核心是用戶體驗(yàn)?；ヂ?lián)網(wǎng)雖然是免費(fèi)的，用戶使用搜索引擎不付出金錢，但也是有代價(jià)的，那就是時(shí)間成本。因此，讓用戶在最短的時(shí)間內(nèi)獲得最想要的東西就是最具性價(jià)比的服務(wù)

一款優(yōu)秀的AI搜索引擎，應(yīng)該能對(duì)用戶的搜索意圖有足夠的推理能力，能快速索引相關(guān)優(yōu)質(zhì)的信息源，并且以適當(dāng)?shù)母袷阶鰞?nèi)容呈現(xiàn)。是索引庫(kù)、檢索算法、工程能力、產(chǎn)品設(shè)計(jì)的綜合比拼。

作者：陌晨公眾號(hào)：陌晨

本文由@陌晨原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash，基于 CC0 協(xié)議。

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App