模型評測怎么做?一篇文章看懂

0 評論 2766 瀏覽 21 收藏 19 分鐘

一次標準流程的測評能夠輔助大家更好的對模型進行深入了解。本文作者分享了自己對大模型進行測評的整個過程,其中有不少可以借鑒的點,供大家參考。

前段時間公司非??春肁I賽道,所以想要將AI能力集合至公司內的產品中,助力產品降本增效。在調研初期,我也走了比較多的彎路,在這篇文章里,詳細說說模型測評怎么做,應該如何制作文檔有助于匯報。

由于我們是工業低代碼產品,在b端中也屬于較為復雜的,之前也非常認真的撰寫過操作手冊、搭建規范,也研究過更為易讀的方式,但依舊不能提升用戶對產品的熟悉速度,所以公司前段時間希望能夠利用AI快速解決這個問題。

之前我一直對測評這件事的目的不是特別明確,除了確定大模型的價格、功能還需要測評什么。一次標準流程的測評能夠輔助大家更好的對模型進行深入了解,如驗證算法模型的有效性,為技術選型提供依據;發現模型潛在的問題,判斷是否可以優化或選擇其他模型;還可以識別模型在特定數據集上的表現,這樣能夠確保它的準確性和可靠性。另外模型測評不是一個人的工作,中間有很多的工作(如性能指標之類的)需要算法同學協助。

以下是我根據工作中遇到的常見評測內容及方法進行的匯總內容(僅供參考),希望能給大家一些幫助。

一、前期準備

在正式開始測評前,我們先看一下可能會存在的誤區和需要準備的一些資料。

1. 模型評測的誤區

  • 過度依賴單一指標:只關注準確率或其他單一指標,忽略了其他重要的性能指標。不同的應用場景可能需要不同的性能指標,如精確度、召回率、F1分數等,綜合考慮多個指標可以更全面地評估模型性能。
  • 忽略模型的可解釋性:只關注模型的預測結果,不關注模型的決策過程。模型的可解釋性對于建立用戶信任和滿足法規要求非常重要,也需要配合一個標準的提示詞框架對模型進行限定,可以讓模型回答的更加符合要求。
  • 沒有標準的打分指南:不同評估者給出的結果可能差異較大,難以達成共識、影響團隊對模型性能的準確理解和決策。需要制定一套詳細的評估指南,包括評估指標、評分標準和操作流程。

2. 測評的基本流程

模型評測的一般步驟和流程包括以下幾個關鍵階段:

3. 收集必要信息

需要收集模型評測所需的數據、文檔等,本次我們公司是想要驗證知識庫在低代碼產品中的可落地性,所以使用的數據為產品的標準培訓手冊。通常訓練數據集需要以下幾份不同用法的數據,但是可以根據企業需求進行選擇。

  • 訓練數據集:用于模型的初始學習過程。
  • 驗證數據集:用于模型調參和超參數優化。
  • 測試數據集:用于評估模型的最終性能。
  • 標注數據:如果模型需要進行監督學習,需要有標簽的數據。

4. 評測指標詳解

在模型評測中,確認企業測評的目的后首先就需要確認所需的測評指標,只有有了指標才能更好的確定模型提問 的問題。下面的各項指標用于衡量模型的不同方面,能幫助開發者和決策者了解模型在實際應用中的表現:

大模型基礎能力

  • 多輪對話理解:評估模型是否能夠理解并記住多輪對話中的上下文信息。
  • 意圖識別理解:模型是否能夠準確識別用戶的需求和意圖。
  • 信息檢索:評估模型是否能夠快速從企業知識庫中檢索到相關信息。
  • 信息呈現:評估模型提供的信息是否準確、全面,并且易于理解。

性能指標

  • 準確率 (Accuracy): 正確預測的數量除以總預測數量,反映模型整體的預測準確性。
  • 精確度 (Precision): 正確預測為正類的數量除以預測為正類的總數量,反映模型預測為正類的準確性。
  • 召回率 (Recall): 正確預測為正類的數量除以實際為正類總數量,反映模型找出所有正類的能力。
  • F1分數: 精確度和召回率的調和平均數,是一個綜合考慮精確度和召回率的指標。
  • ROC曲線和AUC: 接收者操作特征曲線下面積,衡量模型在所有分類閾值上的性能。

效率指標

  • 響應時間: 模型完成單個預測所需的時間,影響用戶體驗和系統性能。
  • 資源消耗: 模型運行時對計算資源(如CPU、GPU、內存)的需求。
  • 吞吐量: 模型在單位時間內能處理的數據量。

穩定性和魯棒性

  • 穩定性: 模型在不同時間或不同數據集上的一致性和可靠性。
  • 魯棒性: 模型對輸入數據中的噪聲、異常值或小的變化保持性能的能力。

安全性和隱私保護

  • 數據保護: 確保模型處理的數據符合數據保護法規,如GDPR。
  • 訪問控制: 模型提供的訪問控制機制,防止未授權訪問。
  • 隱私泄露風險: 評估模型是否可能導致敏感信息泄露。

成本效益分析

  • 成本分析: 評估模型部署和運維的總成本,包括硬件、軟件、人力等。
  • 投資回報率 (ROI): 評估模型帶來的收益與成本之間的關系。
  • 長期成本效益: 考慮模型的長期維護和升級成本。

可擴展性和兼容性

  • 可擴展性: 模型適應數據量增加或功能擴展的能力。
  • 技術升級: 模型適應新技術或框架升級的能力。
  • 平臺兼容性: 模型在不同操作系統、硬件平臺或環境中運行的能力。

5. 確定評測問題

根據指標確定提問問題 ,本次公司內部主要圍繞企業業務場景:提升產品易用性,降低投訴率。需要借助大模型完成以下功能:

  • 在低代碼產品中,通過對話結合產品內組件自動生成靜態頁面、自動選擇圖標等,能快速提升用戶搭建的頁面質量(此功能需要結合Agent);
  • 企業知識庫,用戶/應用團隊/合作伙伴能夠通過單輪/多輪對話快速了解操作方式;
  • 產品智能助手:能夠通過用戶所處頁面判斷場景,提供可能的指導方案(此功能需要結合Agent);

通常測評問題可以分為:功能性測評、非功能性測評。功能性的測評是關注大模型是否提供了預期的功能和行為,比如能夠通過閱讀提供的幫助手冊回答用戶關于產品操作的問題;非功能性測評注系統或模型的性能、安全性、可用性等非功能方面,比如回答一個問題需要多少時長、能夠為未來的功能集成提供更好的環境,這部分有很多的指標是需要算法同學協助進行的。

以我們公司的項目為例,我的功能性測評為:

非功能性測評

6. 確定打分指南

產品經理需要制定一套標準的打分指南,能夠便于對模型評分進行解釋,而不是過于主觀的進行評分,示例:

4??:完全滿足要求,一字不改。直接采用。

3??:不完全滿足,有小瑕疵但可接受。小改之后采用。

2??:不完全滿足,有大瑕疵,雖然可以改,但改起來也比較麻煩。不會改,直接拋棄。

1??:完全不滿足,都是錯的,都是偏題。無法用。

7. 數據預處理

在我們確認目標并開始測試前,需要對已有的文檔進行預處理,因為公司之前的文檔是我寫給團隊內部及合作伙伴的參考操作手冊 ,所以必然存在一些口語上的問題、格式不統一等,為了讓大模型更好的理解企業文檔中的內容,所以我進行了如下操作:

數據規范化 (Data Normalization)

  • 縮放數值:將數據縮放到特定的范圍或比例,例如0到1之間,以消除不同數值范圍和量綱的影響。
  • 歸一化:將數據轉換為具有統一比例的格式,常用的方法包括最小-最大歸一化、Z分數歸一化等。
  • 編碼分類變量:將分類變量轉換為模型可處理的格式,如使用獨熱編碼(One-Hot Encoding)或標簽編碼(Label Encoding)。
  • 特征工程:創建新的特征或修改現有特征,以提高模型的性能,例如通過多項式特征擴展或交互項。
  • 降維:使用PCA(主成分分析)等技術減少特征的數量,同時盡量保留原始數據的變異性。
  • 解釋:對文檔中獨有的黑話進行解釋,避免大模型理解出現偏差。

數據清洗 (Data Cleaning)

  • 去除重復記錄:檢查文檔中的重復行,并刪除它們以避免在分析中產生偏差。
  • 處理缺失值:識別文檔中的缺失值,要決定是填充它們、刪除它們還是保留它們。
  • 糾正錯誤和異常值:識別文檔錄入錯誤和異常值,進行糾正/刪除,以保證數據的準確性。
  • 格式統一:確保文檔中的內容遵循統一的格式,比如日期和時間格式。
  • 文本數據清洗:對于文本數據,建議去除無意義的填充詞(如“啊”、“嗯”等),標點符號,或者進行詞干提取和詞形還原。
  • 文本化:去除文檔中的圖片,并將內容以文本的方式補充在文檔中。
  • 分詞:對于文本數據,進行分詞處理,將句子分解為單詞或短語。
  • 停用詞過濾:從文本數據中移除常見的但對分析沒有太大意義的詞,如“的”、“和”、“是”等。
  • 詞袋模型:將文本轉換為詞袋模型,即文本中單詞的出現頻率。
  • TF-IDF:計算單詞在文檔中的重要性,用于評估單詞的相關性。

二、模型測評

真正的測評部分就比較簡單了,搭建好流程以后將自己的問題提給大模型,然后進行打分即可。這部分主要說下我們使用的平臺-Dify。

Dify是一個開源的大語言模型(LLM)應用開發平臺,允許開發者通過直觀的界面或者代碼方式來創建AI應用,管理模型,上傳文檔形成知識庫,創建自定義工具(API),并對外提供服務。

開發者擁有高度的定制化能力和對項目的控制權,適合那些尋求靈活解決方案的專業開發者,并且企業使用收費不高。

(非廣告,主要是工作中在用這個平臺,coze沒有用過沒法對比,大家根據自己的需求選擇)

我這邊主要介紹一下基礎流程,創建賬號??接入模型??創建Agent/知識庫助手??配置流程??配置提示詞(可以對模型角色進行限定,回答的內容會更加精準)??完成。具體的操作大家還是要看下官方手冊

官方操作文檔:https://docs.dify.ai/v/zh-hans/guides/application_orchestrate/agent

ps:提示詞模版(僅供參考):

– Role: 企業應用知識庫檢索助手

– Background: 用戶需要一個能夠快速檢索企業知識庫并提供專業建議的助手,以解決工作中遇到的問題。

– Profile: 作為一個專業的企業應用助手,我具備深入企業知識庫、理解用戶需求并提供解決方案的能力。

– Skills: 知識庫檢索、問題分析、建議生成、信息整合。

– Goals: 提供快速準確的知識庫檢索服務,幫助用戶找到問題的答案并給出專業建議。

– Constrains: 檢索結果需確保準確性和相關性,建議應基于最佳實踐和企業標準。

– OutputFormat: 結果應以清晰、條理化的形式呈現,包括直接答案、相關文檔鏈接和進一步的操作建議。

– Workflow:

1. 接收用戶的檢索請求和問題描述。

2. 在企業知識庫中進行關鍵詞匹配和內容檢索。

3. 分析檢索結果,提取關鍵信息和建議。

4. 向用戶提供答案和建議,并根據需要提供進一步的指導。

– Examples:

– 用戶請求:檢索關于“項目管理”的最佳實踐。

助手回應:檢索到關于項目管理的最佳實踐文檔,并提供關鍵點摘要和相關操作步驟。

– 用戶請求:解決“供應鏈中斷”的問題。

助手回應:提供供應鏈中斷的常見原因分析、預防措施和應急響應方案。

– Initialization: 歡迎使用企業應用知識庫檢索助手。請告訴我您需要檢索的內容或需要解決的問題,我將為您提供專業的幫助。

三、結果分析與可視化

結果分析與可視化是模型評測過程中的重要環節,它幫助我們直觀理解模型性能并傳達評測發現,使用圖表和圖形展示結果能夠很好的分析模型的優勢和不足。將之前評測的不同問題進行打分,然后利用數據可視化工具或者excel轉換為圖表即可。

四、撰寫評測報告

撰寫報告時明確報告的結構和內容,所處案例和使用場景一定要貼合企業需求,盡可能清晰、準確地呈現評測結果,也便于企業后續進行存檔和查閱。

五、模型優化建議

模型優化是一個持續的過程,能夠提升模型的性能、可擴展性、和實用性??梢躁P注以下幾個方面:

  • 框架選擇: 考慮更換或組合不同的算法/Agent流程,找到最適合當前數據和任務的模型。
  • 對模型預測錯誤的案例進行深入分析,識別錯誤模式和原因。
  • 選擇模型時考慮未來可能的擴展,如支持新功能或處理更大規模的數據。
  • 加強流程的安全性,防止潛在的數據泄露和惡意攻擊。
  • 讓用戶參與到模型優化過程中,收集他們的反饋和建議。
  • 在模型部署后,持續監控模型的性能和用戶反饋,快速響應問題。

六、結語

目前平臺的知識庫功能已經上線了一段時間,Agent輔助搭建頁面、藍圖等功能也內測了好幾輪。

總的來說,AI對復雜系統的提效還是挺多的,只是前期要把所需文檔準備好,尤其是企業知識庫這塊,操作手冊、公司文檔可以說是最重要的東西,系統的操作手冊搭建也是需要很長一段時間沉淀下來。

agent輔助功能則需要不斷的沉淀系統的標準化場景,盡量給AI提供足夠多的樣本進行學習,生成的內容會更加符合需求。

以上是一些個人總結,各位看官有疑問可以隨時提出,一起討論。

本文由 @13號小星球 原創發布于人人都是產品經理,未經許可,禁止轉載

題圖來自 Unsplash,基于 CC0 協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!