大模型在金融領域落地會遇到哪些坑?
大模型的熱度已經高了很久了,但在具體的行業業務落地的應用還是在進行時,會遇到不少的問題。這篇文章,作者分享了自己在金融領域的落地經驗,希望能幫到大家。
一、我們做了哪些場景?
- 客服場景下的會話小結
- 知識庫的智能搜索:LLM+向量知識庫+ES兜底
- 知識實時智能推薦
- 代碼輔助
二、遇到了哪些坑
1. 會話小結
大模型應用準確率怎么提升?
大模型不像是傳統的nlp,雖然大模型準確率起點高,但是不像nlp可以依靠業務的標注數據進行優化,那么大模型的云應用調用方(不做本地化和finetun情況下)在業務應用中如何進行模型效果的評價和業務使用效果的優化?就成了一道考題。
剛上線你會發現準確率在60%左右,業務想要繼續提升,部分算法同學會說模型能力是調用別人的,無法進行數據回流迭代,我也沒辦法?這時候要擺爛還是繼續想辦法努力?
幻覺問題:gpt針對短對話的小結會進行自我創造(亂編),這個在業務上是很難被接受的。
實時場景的時延問題:調大模型的云應用尤其是gpt,每次請求到返回的時間問題無法優化。
對于坐席輔助的場景時延要求極高,會話小結是為了幫助人工自動寫事件小結的,超過5s的小結基本就失去了幫助坐席減少話后時長的作用,但是即使在只調用一次gpt進行小結的情況下,平均時延也在10s左右
業務上評價會話小結的指標為:要素完備性、要素準確率、業務接受率。如對會話小結這幾個方面要求較高(細分場景業務細則,專有名詞),就需要在通用格式的會話小結中再加入業務要素的補充,則需要多次調用gpt的場景下,小結的時延會在30s左右。
超過30s后還要不要繼續回調用?前端頁面還要不要進行輪詢?
連接調用不穩定會產生漏損:大模型調用會有失敗的情況,就像大家用chatgpt的應用時遇到偶發的不響應的情況,這種情況在c端大家容忍度比較高,但是在b端,尤其是嵌入核心作業流程的場景下,業務對于偶發的漏損情況比較敏感,小結的漏損率會在5%左右。
2. 知識庫應用
相比坐席輔助,知識庫是一個對AI錯誤容忍率更低的場景,體現在下面的場景:
- 數據同步問題:業務人員批量新增、刪除、更新知識的時候,后端調用大模型接口進行embedding或者tokenization的時候,如遇到大模型調用不穩定報錯就會導致數據同步出現問題。
- 時延、并發問題:gpt模型的請求數有限制,針對高并發(知識庫上千人使用),搜索時延要求高(1-2s)的情況下,會有比較大的壓力,也會有偶發的大模型調用出錯的問題。
三、探索解決方案
會話小結:
搭建“NLP+ChatGPT”的雙層模型,確保業務效果的同時又能節省大模型的使用費用,針對大模型應用在過短對話時會出現“聯想和想象”的問題,增加了NLP過濾(過濾掉無效對話)
針對大模型業務應用后準確率需要提升,但很難靠傳統NLP標注的方法進行學習和訓練后迭代的問題,聯合業務進行了多輪探討和嘗試,用“業務要素完備率+關鍵要素準確率+業務接受度”進行評價,針對業務接受度差的部分,詳細去看原因,并且提煉通用問題進行優化,再深入業務總結不同場景小結的業務要求規則并進行提煉,融入prompt,準確率從57%-82%,準確率的提升只用了2輪數據標注和反饋(每次100條),大大節省了傳統 NLP項目大樣本數據標注的工作
針對漏損的進行批量補跑;監測模型穩定性指標-小結平均時延、小結的漏損率
坐席輔助:
幻覺這個問題我們是用GPT+NLP雙模型來減少亂編,比如客服與客戶對話的AI摘要會預設業務關鍵要素,盡量都覆蓋到,且涉及金額、數量或時間這類都會提取參數記錄,需要走下個流程分支的會自動生成工單任務流轉…
投訴類會有客訴評分,按歷史接觸的客訴傾向語義點及當通電話的音量語速等計算怒氣值,客服的話術除了情緒安撫外更多是理解客戶解決其問題
ToC不敢直接用,是做了人工中轉,比如側邊欄根據對話命中意圖或標簽自動推薦最優話術,按相關度排序,人工可任選一鍵發送,也可通過API對接GPT提問后生成話術
知識庫:
- 不穩定的情況利用Kafka進行依次消費,任務失敗后進行告警并且重新跑
- 多個大模型的api并行處理,提高并發承載力
- 大模型+ES多重召回機制
此外我們在實踐過程中也參考了行業資深大佬關于向量知識庫應用的見解,很有用,引用如下:
首先,向量化就不是唯一解,也不是全場景最優解。
**第一,向量化匹配是有能力上限的。**搜索引擎實現語義搜索已經是好幾年的事情了,為什么一直無法上線,自然有他的匹配精確度瓶頸問題。
第二,本質是匹配問題(即找到語義相似知識),NLP領域原本也有更優美,更高效的方案,只是這波熱潮里,很多以前沒接觸過AI的朋友對之不熟悉罷了。
**第三,甚至不用AI技術,用精確MVSOL、用策略規則也是一種解法,其至是重要解法。**舊AI時代的產品同學會非常熟悉這種“用規則/策略/產品設計”來彌補AI能力贏弱的問題一一現在是因為行業早期,大家被LLM的能力錯誤迷惑,并且以往產品經理的聲音還沒發出來而已。
**其次,在引入外部知識這個事情上,如果是特別專業的領域,純粹依賴向量、NLP、策略/規則在某些場景仍然不奏效。**因為模型首先需要掌握那個領域的專業知識,才能在這樣一個基礎能力的加持下,用向量化等手段來便捷地解決外部知識引入問題。
當在模型在基礎知識中缺乏、或有錯誤地學習到某些背景知識,即使他有外部知識庫加持也是無效的最后,不要管是不是90%會被解決,對于某個具體業務而言,沒有90%,只有100%和0%;
用向量知識庫的補丁策略,這個認知很有必要。
1、**把問答域細化,**給檢索文本分類,打標簽處理,以縮小召回目標域,提升相關性。
2、增加問答邏輯。如問題與上下文是否相關,上下文是否可以回答用戶問題的判定邏輯,拒答邏輯。
3、不同種類問答的分流邏輯。打個比方,問百科,問醫藥,問金融,走不同的回答邏輯。
4、使用多重召回邏輯?;谙蛄?,基于領域向量,基于es,基于編輯距離等,走投票策略。
5、**增加生成前判定,生成后判定邏輯。**前者判定適合是否該回答,是否該拒答,后者判定是否對自己回答有置信。
知識庫的搜索體驗優化:利用GIO進行行為數據觀測,P@3、P@5位置的準確度評估
四、結束語
大模型的熱度已經高了很久了,但我們和各位同行的老師聊,發現在金融行業業務落地的應用還是在進行時,尤其是要能產生業務價值的落地中還是會遇到各種問題,因此希望分享我們遇到的問題和探索的經驗幫助也在做此類項目的朋友避坑,當然我們的方法不一定是最優解,如大家有更好的方法和應用方向,期望能夠交流!
本文由 @甜甜圈 Tina 原創發布于人人都是產品經理,未經作者許可,禁止轉載。
題圖來自Unsplash,基于CC0協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!