RAG實踐篇(一):知識資產(chǎn)的“梯度”
近期我們結束了一個RAG項目的開發(fā),后續(xù)將不定期掉落RAG系列的復盤與實踐。如有興趣的讀者,歡迎收藏文章和關注。
你是某個企業(yè)的領域知識專家。這個月,你們公司的AI技術來通知你,你們公司會通過RAG技術,把企業(yè)的私有知識庫搬進大模型。這樣,以后和這個領域的專有知識有關的問題,AI就再也不會滿嘴跑火車,拿著不知真假的回答忽悠人了。他們希望你協(xié)助整理相關知識,然后他們就能把相關知識“喂給”大模型了。
請問,作為一位領域內(nèi)容專家,你此時要怎么做?
A. 多就是好!立刻把我們龐大的、百萬體量的私有知識資產(chǎn),源源本本地輸入進去。
B. 知識資產(chǎn)要怎么放,放哪些,才是真的有效?
可能此時你的表情be like:
別急,我們先來了解一下,什么是RAG?為什么當企業(yè)要把領域知識/私有知識的“AI化”的時候,要用到RAG?
01 為什么是你?RAG
RAG的全稱是Retrieval-Augmented Generation。中文可以翻譯為“檢索增強生成”。技術特點就是通過增強檢索功能來輔助生成模型。這個技術可以允許大語言模型在“回答”之前,先從指定的“池子”里檢索相關信息。這樣,AI在回答問題時,它就不僅僅是依賴于其訓練期間所學習到的數(shù)據(jù),而是能夠參考更多、特定的上下文信息。
說到這里,你應該能明白,RAG對企業(yè)私有知識庫的作用了。從目前的生成式AI的技術而言,大模型們雖然對各種主題都有著驚人的了解,但這些了解僅限于它們訓練時使用的數(shù)據(jù),我們姑且稱之為“世界知識”。這意味著當我們將它用于企業(yè)私有或專有業(yè)務信息的時候,大模型的驚人理解力就無用武之地了。因為它根本沒有“訓練”過相應的知識。
而RAG(檢索增強生成)技術等于給大模型開了一個知識“外掛”。通過這個“外掛”,一些并沒有包含在原始的模型訓練數(shù)據(jù)中的企業(yè)私有知識、專有業(yè)務信息,也能夠被檢索到,然后生成正確的輸出。
簡單來說,RAG的工作流程可以分為以下幾個步驟:
- 檢索:當用戶提出一個問題時,RAG首先會在一個或多個文檔數(shù)據(jù)庫中查找相關的文檔片段。
- 上下文融合:找到相關的文檔后,RAG會將這些信息與問題本身結合起來,形成一個完整的上下文。
- 生成響應:最后,基于這個上下文,RAG生成一個自然語言響應,該響應應該是準確且符合上下文的。
02 有“外掛”,一勞永逸?
不過,當我們用RAG技術為AI模型輸入知識庫時,并不像往圖書館里添加新書一樣清楚簡單。畢竟是一種“外部檢索”技術,稍有不慎就會翻車。以下是我們在做RAG時,經(jīng)常會踩的坑:
1. 晦澀的專業(yè)術語
誤區(qū):在專業(yè)領域中。許多文獻和資料中充滿了專業(yè)術語,這些術語對于非專業(yè)人士(甚至是大模型)來說都是難以理解的。
風險:當知識庫內(nèi)容包含大量專業(yè)術語、且文獻錯綜復雜,對術語沒有做出很好的解釋和關聯(lián)時,模型可能就會“倒在”第一步。因為它根本無法很好地理解這些術語,更遑論最終輸出正確的答案了。
2. 信息提取困難
誤區(qū):有時候,文獻量太大,RAG系統(tǒng)在處理大量文本數(shù)據(jù)時,它可能無法有效地從中抽取關鍵信息。
風險:如果模型無法從復雜的文獻中提取出核心要點,那么生成的答案可能會缺乏重點,或者包含大量無關緊要的細節(jié),例如,在法律文獻中,關鍵條款往往隱藏在大量法律條文中,模型在檢索時可能會“忽略”,或者一股腦地提取。導致回答要么缺漏重點,要么又多又雜、找不到重點。
3. 自相矛盾/不一致的信息
誤區(qū):有時候文獻過多,輸入到RAG系統(tǒng)中的數(shù)據(jù)可能包含不準確或錯誤的信息。比如,一個醫(yī)療的RAG系統(tǒng),它的目的為醫(yī)生和患者在進行詢問時,提供準確的藥品信息。但是,這個系統(tǒng)在知識庫的建立時,收集了多種來源的藥品說明書、臨床試驗報告以及最新的醫(yī)學研究論文。就極有可能出現(xiàn)以下情況:
- 說明書A(來自制造商X,2020年發(fā)布):“阿莫西林適用于治療多種細菌感染,如肺炎、咽炎和皮膚感染。,成人每日劑量為500毫克,每日三次?!?/li>
- 最新研究論文C(2023年發(fā)表):“最新的臨床研究表明,阿莫西林對某些類型的細菌感染不再有效,因為它可能導致耐藥性。”
風險:生成答案時,可能會出現(xiàn)自相矛盾的回答,或者是每次的回答都不一致,容易誤導用戶。
4. 過時內(nèi)容
誤區(qū):過時內(nèi)容是指知識庫中的某些信息可能已經(jīng)不再適用當前的情況。
風險:如果RAG系統(tǒng)提供了過時的信息,那么這些信息可能會導致用戶做出基于過時數(shù)據(jù)的決策。例如,在技術快速發(fā)展的領域,如信息技術或生物醫(yī)藥,幾年前的研究成果可能已經(jīng)不再適用。
5. 無關且多余的信息
誤區(qū):無關且多余的信息是指知識庫中包含了一些與當前問題無關或多余的內(nèi)容。
風險:這些信息可能會干擾模型的判斷,導致生成的答案中包含不必要的細節(jié),從而使答案顯得冗長而不切題。例如,在用戶詢問某一產(chǎn)品的具體規(guī)格時,系統(tǒng)卻給出了大量與產(chǎn)品無關的市場營銷材料。
6. 與“世界(知識)為敵”
誤區(qū):這種經(jīng)常出現(xiàn)在一些“軟”知識上,比如公司管理、領導力咨詢等等。在這種知識領域,并沒有唯一的、正確的答案,而是不同的“學派”會有不同的切入點和理論體系。這樣,同一個概念,在私有知識庫和世界知識的說法不同,就可能產(chǎn)出沖突。
風險:模型回答的輸出不穩(wěn)定。面對“外掛”給到的知識點和自己訓練時就有的數(shù)據(jù),大模型容易陷入“本能遷移”,更傾向于用自己訓練時的數(shù)據(jù)做回答。
03 知識資產(chǎn)的“金字塔”梯度
看完了以上的誤區(qū),你可能已經(jīng)隱隱有感覺:“喂給”RAG的知識庫,并不是越多越好。
盡管從知識庫到正確的回答的輸出,需要算法工程師進行技術的微調,但是從領域專家的角度,梳理和建設知識庫時,就需要牢記以下原則:
并不是所有的知識都是平等的。你需要評估哪些知識“有價值”,而價值的私有知識,才可以稱之為“知識資產(chǎn)”,并放入知識庫之中。
那什么是有價值的知識資產(chǎn)?盡管各領域的知識內(nèi)容不盡相同,但在實踐中,我們可以遵循金字塔梯度的思路:
- 頂層,核心資產(chǎn):這應該是公司私有化/專業(yè)領域中最為核心、最關鍵的知識內(nèi)容。也是這個私有知識庫最想給用戶傳遞、最有競爭力的知識體系。例如,一家咨詢公司賴以成名的核心方法論,就是這家公司最核心的知識資產(chǎn)。在RAG的實踐中,一旦涉及到這類范圍的知識理解和輸出,必須要求準確、全面、深入,能夠體現(xiàn)權威性。
- 次層,獨家資產(chǎn):重要等級比關鍵知識略低,但同樣是私有知識庫中的獨特的資產(chǎn)。這些知識也許會和世界知識有重合,但在私有知識庫中,必須按照私有知識庫中的要求回答。這類知識的一種常見場景就是公司的規(guī)章制度/文化內(nèi)容/績效規(guī)則等,世界知識庫也許有大量類似的內(nèi)容,但是在公司中必須要按照公司的要求進行。因此,對這類知識的解讀也同樣要求準確,且必須以私有知識庫為準,不得混淆世界知識。
- 第三層,普通資產(chǎn):在實踐中,經(jīng)常會出現(xiàn)一種情況:“私有”即“世界”。說白了,不管是多私有的知識,它的源頭必然能追溯到人類公有的知識體系中。所以,私有知識庫免不了有一些“其實和世界知識差不多,但表述、范圍上略有差異”的內(nèi)容。這類其實是最容易和世界知識發(fā)生混淆,造成輸出不準確/冗余的“元兇”。因此,這類知識,我們建議不必“敝帚自珍”,在建立知識庫時大刀闊斧地去除即可。
- 第四層,不良資產(chǎn):包括自相矛盾、過時、無用的信息,這些不良資產(chǎn),一定要盡早剝離。在進行知識庫的建設時,就不能存在。
本文由 @AI 實踐干貨 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務
- 目前還沒評論,等你發(fā)揮!