如何去評測一個大模型

0 評論 1700 瀏覽 4 收藏 7 分鐘

做AI應用時,我們都會對個大模型進行分析評測,挑選出合適的。但大模型不是APP類產品,評測的方法肯定不同,這篇文章,我們就來看看作者建議如何評測。

一、權威機構評測

這是目前由國內C-Eval機構給出的國內大模型的評測排名。

C-Eval 是一個全面的中文基礎模型評估套件。由上海交通大學、清華大學和愛丁堡大學研究人員在2023年5月份聯合推出,它包含了13948個多項選擇題,涵蓋了52個不同的學科和四個難度級別,用以評測大模型中文理解能力。

那么像這樣的機構或者是說大模型的公司,是怎樣通過這么多的題目和學科去評測一個模型的好壞和使用好感度的呢。下面讓我們來研究一下。

二、如何去評測一個模型

1、我們去評測模型到底是在評測什么呢?

我們說對大規模數據訓練的大模型的評估,主要是評估模型的理解能力、推理能力和表達能力,以確保它能夠在新的未見過的數據上有能夠進行有效的工作和泛化能力。

2、如何評測呢?

我們去評測任何一個模型或是說任何一個模型的某一項能力的時候,并不是盲目去問問題看回答的。而是要先確定好一個評測標準,有了這些規則,我們才能根據這些規則標準去評測一些的模型的好壞,或者說模型的有效的工作能力才有了依據的標準。

那么,我們要去定義的規則標準是什么呢?

假如:我們評測模型的標準定義為:回答是否偏題、內容豐富度是否夠豐富、邏輯是否正確、語意是否通順、如果是書信問題格式是否正確、表達是否有冗余或者重復、是否遵循多輪的邏輯、回答的知識點是否有遺漏等等。

那有了這些基礎的標準我們就可以根據這些標準來制定一些方案來評測模型了

1)給模型打分

我們可以把模型的回答定為4個分數

  • 4分:完全符合規則。
  • 3分:不完全滿足,有點可以接受的小問題,比如標點符號之類的。
  • 2分:不完全滿足,有大瑕疵,但大意解釋清楚了
  • 1分:完全不滿足,完全沒有回答問題。

2)模型之間相比較

模型之間相比較的方式為 “GSB(good same bad)”:意思是人們從整體感知,評判為兩個模型之間的優劣。

通俗來講:G:就是good 也就是好的模型、B:就是bad 也就是壞的模型、S:就是same 一樣好或是一樣壞的模型。

這個方法適用于多個模型之間的對比

評測方法為:

模型A VS 模型B

A:如果A好,打A

B:如果B好,打B

S:如果一樣好(或者一樣不好),打S。

統計結果:

模型A :模型B = A好的數量 :S的數量 : B好的數量

比如,A : B = 25:30:55,B勝出

這兩種方法是AI訓練師在做模型訓練時比較常用的方法。

3)需要注意的事情

在測評的時候一定要應客觀公正,不能根據個人知識水平、立場偏好、回復長短等評測,這樣會對回答失去公平性。

三、評測的數據集從哪里來

測數據集,可以客觀地評估模型在實際應用中的表現。只有在評測數據集上表現良好的模型,才能認為其具有實際應用價值。然而獲取數據集的渠道可以從以下幾個方面來獲得以及清洗數據:

公開數據集平臺

  • C-Eval:C-Eval數據集主要用于評測大模型的知識和邏輯推理能力,即大模型是否能夠認識和理解廣泛的世界知識,并類似人類一樣對事物進行推理規劃
  • GitHub:許多研究人員和開發者會在GitHub上共享數據集。

行業數據平臺

  • 阿里云天池:阿里云提供的一個數據競賽平臺,提供豐富的數據集和競賽機會。
  • 京東AI研究院:提供一些公開的機器學習數據集。

學術研究

  • 研究論文:許多研究論文會附帶數據集鏈接,可以通過閱讀相關領域的研究論文獲取數據集。
  • 學術會議和期刊:頂級的機器學習和數據科學會議(如NeurIPS、ICML、CVPR等)和期刊(如JMLR、TPAMI等)通常會發布與研究相關的數據集。

API和開放數據接口

  • 一些開放數據平臺提供API接口,可以通過API獲取最新的數據。例如,Twitter API、Weather API、Google Maps API等。

最后,我們在選擇數據集時需要考慮數據集的質量、規模、標簽的準確性以及是否與評測任務相關。確保數據集足夠多樣化,能夠涵蓋模型可能遇到的各種情況,從而全面評測模型的性能。

本文由 @貝琳_belin 原創發布于人人都是產品經理。未經作者許可,禁止轉載

題圖來自Unsplash,基于CC0協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!