AI模型穩定性評估指標:PSI的原理和計算

1 評論 2723 瀏覽 13 收藏 6 分鐘

在構建AI模型的過程中,需要處理很多模型和算法。之前我們介紹了如何評估分類模型和回歸模型的性能,這篇文章,我們介紹一下常用的模型穩定性指標———客群穩定性指標(PSI)。

前面兩篇文章分別介紹了如何評估分類模型和回歸模型的性能。

模型上線前的評估,除了前文提到的模型性能之外,還需要考慮模型的穩定性,只有穩定性足夠好的模型才能達到上線的標準。

本文就來介紹一下常用的模型穩定性指標———客群穩定性指標(PSI)。

一、什么是PSI?

模型構建時,我們以歷史數據作為樣本,以歷史數據的表現作為模型評估的依據。

但實際上,由于客群變化(不同時間段給到模型的樣本數據會有變化)或數據源采集變化等因素影響,實際樣本分布也會不可避免的發生偏移,從而導致模型不穩定。

如果模型不穩定,那么我們根據歷史數據樣本得到的“合適”閾值,去給實際數據樣本做評判,就會直接影響模型結果的合理性。

所謂PSI指標就是客群穩定性指標(Population Stability Index),通過該指標,可以得到不同時間段的樣本下,模型在各分數段分布的穩定性。

二、如何計算PSI?

我們先來看一下PSI的計算公式:

PSI(Population Stability Index)= SUM((實際占比-預期占比) * ln(實際占比/預期占比))

從公式中可以看到,想要計算穩定性,就需要有一個基準數據(預期占比)作為參照,然后用實際數據和基準數據就可以計算PSI值。

計算PSI值一般分為以下三步:

  1. 分箱:分別將模型輸出的預期分布和實際分布進行分箱操作。有等頻分箱和等距分箱兩種方式。
  2. 計算分布:分別計算落在各區間的人數占比,分別得到每個區間的預期占比和時機占比數值。
  3. 計算PSI值:根據公式 (實際占比-預期占比) * ln(實際占比/預期占比) 計算每個區間的PSI值,再求和,就可以得到最終的PSI值。

三、判斷標準

PSI表示的是實際占比和預期占比之間的差距,所以PSI值越小,說明實際占比和預期占比的差異也比較小,代表模型越穩定。

我們一般會這么定義模型的穩定性:

  • 若PSI<0.1,穩定性良好,說明樣本分布僅有微小變化,模型很穩定;
  • 若PSI在0.1~0.25之間,穩定性一般,說明樣本分布有變化,需要根據實際情況調整評分切點或調整模型;
  • 若PSI>0.25,穩定性較差,說明樣本分布有顯著變化,模型不穩定,必須調整模型。

四、局限性

但是我們也不能迷信PSI指標,PSI只是一個粗糙的指標,有它的局限性,嚴重受制于數據質量、樣本代表性和分檔數量。

  • 數據質量:當PSI指標表明模型不穩定時,首先要確定數據是否存在問題,比如數據是否正常提供、接口是否正常工作、網關數據傳輸過程是否正常、加工過程是否遭到數據污染或邏輯上有疏忽遺漏等。
  • 樣本代表性:既要確保選取的樣本數量足夠反應總體數據的信息,又要確保選取的樣本結構和總體數據的結構一致(分層抽樣)
  • 分檔數量和方式:不同的分組數和分組方式也會對PSI值有小幅的影響

五、總結

本文我們介紹了如何使用PSI指標評估模型的穩定性,模型穩定性是判斷模型是否可用的一個非常重要的條件,雖然我們實際上不需要手動計算PSI值,但通過計算過程我們可以更深入的理解其原理。

至此,我們用三篇文章分別講述了分類模型性能評估、回歸模型性能評估和模型穩定評估的指標和計算方法,希望對大家有所幫助。

接下來,我們開始進入AI算法大篇章的學習,由于計劃分享的算法較多,我會在算法篇適當增加更新的頻率,爭取在一個月內完成算法相關的文章,敬請期待。

本文由 @AI小當家 原創發布于人人都是產品經理,未經許可,禁止轉載

題圖來自 Unsplash,基于 CC0 協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. PSI適用于什么類型的模型?

    來自遼寧 回復