淺談評分模型

25 評論 23779 瀏覽 124 收藏 22 分鐘

編輯導語:我們在生活中處處都有需要評分的地方,比如我們點外賣或者去一家餐飲店,就習慣性會去看看評論如何;本文是作者分享的關于評分模型在業務、系統、公司的意義,以及搭建的方法論,我們一起來學習一下。

一、什么是評分模型

在寫這篇文章前,我一直在思考評分模型之于業務、系統、公司的意義,如果用一句話描述評分模型,我的定義是——對某一群體事物(評價主體)由定性分析到定量分析的過程

二、搭建評分模型的意義

評分模型在平臺上應用較為廣泛,常見的交易,內容、社交、社區平臺都會廣泛運用評分模型或分層模型(分層模型更多是在評分模型的基礎上進一步歸類得到)。

為什么是平臺?

平臺作為供給方與需求方的連接,在平臺生態的搭建中,往往通過規則的制定,激勵、懲罰、約束供給方與需求方,打造正向體驗,促使平臺朝著良性、正向的方向發展。

在規則的制定與履行中,往往基于平臺的價值觀去制定規則,再借由評分模型(體系)進行度量,所以我們也說評分模型是平臺價值觀的體現。

舉個例子
基于場景:某個區域有100位用戶打車(需求),而司機(供給運力)僅有80個單位,針對此場景大D、小D兩平臺調度系統邏輯分別為:

大D平臺:認為打車業務是需求驅動型業務,即平臺的核心在于最短時間內滿足所有乘客的出行需求,因此調度系統會從全局最優角度為司機——路線匹配程度進行量化評分,進而依據分值進行調度

小D平臺:認為打車業務是供給驅動型業務,即平臺核心是保障司機端體驗以聚攏更多司機(運力),因此調度系統從司機體驗最優角度為司機——路線匹配程度量化評分,進而依據分值進行調度

三、評分模型的基礎結構

評分模型,更準確的說應該是評價模型與我們的生活息息相關,當我們對某一事物進行評價時,實際上已完成了評價模型的建立。

例如我們評價一件商品的好壞,一個人工作能力的強弱,一道菜品的優劣。

評價模型是我們對某一事物的價值評估,更側重定性分析;而評分模型,文章開頭我們講過定義:是對某一群體事物由定性分析到定量分析對過程,本質上是定量分析。

如何理解兩者的差異,下面一張圖方便大家理解:

剛才我們講評價模型與評分模型的差異,及生活中被各類評價模型裹挾。那么生活中有沒有評分模型?

有一類評分模型我們從小就開始與其打交道,伴隨了我們的成長 —— 考試,考試的本質是對學生的學習情況定量分析的過程。

現在我們就由考試講起,聊一聊評分模型的組成。

考試作為評分模型,它的結構是怎樣的呢?讓我們先回想一下考試的幾個組成要素:

  • 學生
  • 試卷
  • 老師

對上述三個對象在評分模型中的定位進行抽象:

  • 學生——被評價者:即評價模型所研究對象
  • 試卷——綜合評價模型
  • 老師——評價標準制定者

我們可以看到,考試的本質是評價標準制定者通過模型的建立對被評價者某種能力/特征進行量化評分的過程。

這個結構簡單理解就是:被評價者特征信息的輸入通過評價模型進行量化,完成結果分值的輸出。

那么模型本身的內在構造又是怎樣的呢?;氐娇荚噲鼍埃嚲砭褪窃u分模型,試卷中包含了哪些要素?

我們通過得分拆解:分值=題*每題得分。

  • 題的本質:對被評價者在某方面能力、特征的度量——考核指標。
  • 分的本質:某項能力、特征對整體評價的重要性——權重。

花了很大篇幅講評分模型的相關概念,是為了讓大家理解評分模型的基礎原理。

四、指標:評分模型的基石

1. 指標的特性

評價指標是反應被評價對象在評價體系中影響評價結果的影響因子。

選擇的指標需要滿足幾個基本特性:關聯性、普遍性、可度量性

關聯性:在選取模型指標時常出現以下幾個問題,導致選取指標組成的評分模型無法準確表達評分模型目標及意義。

  • 選取指標不全,片面表達
  • 選取指標不合理
  • 選取指標重復

如場景:在制定商家服務評分體系的時候,主要考核衡量商家對用戶服務的質量,以下哪些指標可以運用于商家服務評分體系,體現商家服務質量:

  • 銷量
  • 評價數
  • 30s應答率
  • 退貨率

各位可以思考下(一分鐘思考時間)~

答案是僅30s應答率可納入商家服務質量指標體系。

我在線下跟朋友交流此問題時,鮮有人能準確選出答案,甚至到商家管理業務同學這里也栽了跟頭;這個問題在未明確目標時,我們容易將銷量,評價數、退貨率這些指標引入評價模型。

從主觀感知上來看,我們天然認為銷量高的商家比銷量低的商家服務質量好;評價越多的商品,店鋪服務質量會越好;退貨率越高的店鋪,服務質量不好,從平臺大盤數據看整個商家體系往往也是此趨勢。

但具體到個例上看確是如此么?

  • 銷量高、評價數多的商家普遍比銷量低評價數少的商家服務好,但新商家服務質量不一定比老商家差,小眾品類商家服務質量不一定比大品類商家差;
  • 退貨率低的商家普遍比退貨率高的商家服務質量好,但有些品類天然退貨率高,如服飾鞋帽品類天然比食品零食品類退貨率高。
  • 退貨也不一定是商家服務質量造成的退貨,可能存在用戶個人原因,故若要反應商家服務質量,也品質退貨率會更準確,類似此類例子還有很多。

商家對用戶提供的服務質量確實會影響銷量、評價數、退貨率等指標,但這是一個逆命題。

上述幾個指標均是結果型指標,代表的場景是:商戶對用戶提供了良好的服務質量,會影響上述指標的結果。

我們的模型要探究的是哪些指標對商家服務質量結果產生了影響,而不是商家服務質量會對哪些指標產生影響;在此語境下,我們更應關注過程型指標。

但這并不代表結果型指標不可用于評分模型,結果型指標運用于評分模型中有兩個天然的劣勢:

  • 滯后性,從評價主體的行為到結果的輸出存在時間差;
  • 多因素干擾,實際業務場景下,某個結果型指標往往被多因素共同影響,存在部分因素不是評分模型研究范圍。

若實際業務過程中能接受滯后性,或者能排除多因素干擾,那么結果型指標同樣可作用于評分模型

可度量性:這個就相對易理解了,文章開頭我們定義了評分模型的概念:本質上是定性分析到定量分析的過程——這就要求選取的指標可量化。

普遍性:評分模型在完成評價主體的確定,對模型指標選擇中,應盡量選擇評價主體都具備的能力/特征作為考核指標,以減少統計的不公平性,避免模型計算過程中的復雜性。

2. 指標的選擇——GSM模型

合理的指標需要滿足什么基礎特征,我們現在知道了。

但就像明白了很多做人道理卻依舊過不好此生,很多人會感覺指標該滿足關聯性、普遍性、可度量性,我知道了,但合理的指標如何選取呢,還是不知道。

這里面其實有一個邏輯定式在里面,我們說的指標滿足各種特性,其實是對結果的一種驗證,缺少的是對實現路徑的認知。

這里我提供一個路徑,供大家參考:拆分目標-歸納表現型-選取指標——GSM模型。

GSM模型:目標(Goal)→信號(Signal)→指標(Metric)是谷歌用戶體驗團隊提出的一種指標體系搭建方法,其核心思想:通過明確目標,歸納測量主體表現型,找出關鍵指標。

目標確立(Goal):

  • 明確業務目標、系統目標等;
  • 根據核心(主)目標做目標拆解;

推導信號和現象(Signal):

  • 目標達成或未達成的表現型是怎樣;
  • 什么行為指示了目標達成/未達成;
  • 很多時候負向信號/表現型比正向信號/表現型更容易識別;

選取指標(Metric):

  • 目標達成/未達成的表現通過哪些數據指標量化;
  • 考慮每個數據指標對推導信號/現象的描述程度;

3. 指標的正向化

選擇的指標從評判標準來將會存在以下幾種類型:

  • 正向指標——越大越好;
  • 逆向指標——越小越好;
  • 中間型指標——越趨于某個值越好;
  • 區間型指標——越靠近某一區間;

為了便于后續計算與分析,我們通常將各類型指標轉化為正向指標。

逆向指標正向化:

yi=max-xi 或 yi=1/xi

中間型指標正向化:

其中Xbest為中間最優值。

區間型指標正向化:

4. 指標的無量綱化

無量綱——聽起來有點晦澀。

無量綱是物理學延伸出的概念,指在便于對物理常量進行比較、分析,不同常量(重量、長度、時間、體積、溫度等)之間單位是不一樣,為了消除單位的影響需要進行的去量綱化。

同理,不同指標之間由于存在量綱不同致其不具可比性,亦需將指標進行無量綱化,消除量綱影響將指標實際值轉化為評價值,大家可以簡單理解為去單位化。

目前最普遍使用的無量綱化方法是標準化法,標準化法即令:

其中x拔和σj分別是指標xj的均值和標準差。

五、權重

1. 權重的內涵

前面我講過評分模型是平臺價值觀的體現,這個價值觀很大一部分由指標的選擇與權重的定義承載。

不同平臺在定義指標權重時會存在較大差異,可以簡單理解為不同平臺因產品形態/產品定位/目標用戶/使用場景存在差異,導致平臺在評價一項事物時會有不同的標準,這個標準我們可以抽象為權重。

權重的大小反映了對于目標結果來說,評價指標的重要程度。

這個重要程度一般從兩方面衡量:

  • 指標包含評價主體信息量的多少,包含信息量越大,權重越大;
  • 指標對評價主體的區分度,評價指標區別被評價對象的能力越大,則權重越大

2. 權重的計算

我們知道,價值觀具有極強主觀性,同樣,平臺在指標權重的定義上也存在極強的主觀性。

我目前了解到各大平臺在定義各類評分模型的指標權重時,往往用主觀賦權法較多:

主觀賦權法:常用的主觀賦權有專家定權法、層次分析法,該類方法主觀性都較強;

  • 專家定權法:專家定權的本質是由業內/領域權威人士直接定義各指標權重;
  • 層次分析法:層次分析法雖屬于主觀定權,但也存在一定的科學性,旨在通過指標量量對比,量化權重,主觀定權下帶有一定的客觀計算規則。

其計算思路如下:

1)構造判斷矩陣

判斷矩陣含義:建立指標之間兩兩比較的影響程度的矩陣。例如對指標B1;B2;B3;B4;B5定權,構造判斷矩陣為:

2)建立指標度量標度

其中aij表示第i個指標與第j個指標的比較度量,用如下標度表示:

3)檢驗判斷矩陣的合理性

判斷矩陣構建后,需要進行矩陣一致性校驗,何為一致性校驗,即在比較時是否表達一致,例如:A>B,B>C,那么A必然大于C,這樣檢驗方式稱為一致性檢驗。

一致性檢驗是通過計算一致性比例CR得來:

中CI表示一致性指標,其公式為:

n表示判斷矩陣中指標的個數,λmax?表示判斷矩陣的最大特征值。

RI表示隨機一致性指標,可查表獲得,如下表所示:

當CR<0.1時,則表示一致性檢驗通過,判斷矩陣構造合理,CI 越大,判斷矩陣的不一致性程度越嚴重。

4)定權

客觀賦權法

這里僅介紹下常用的客觀賦權——熵值法。

什么是熵?

物理學對熵的定義是描述體系混亂程度(離散程度)的度量,宇宙是一個熵增的過程,熵增也是世間萬物的運行規律。

什么是熵值法?

物理規律下的離散程度我們定義為熵,信息領域的信息不確定度被定義為信息熵,熵值法是對信息熵的計算,用來判斷某個指標的離散程度。

在權重的內涵中我們講到衡量權重的標準之一:指標對評價主體的區分度,評價指標區別被評價對象的能力越大,則權重越大。

熵值法正是基于此思想而建立,是泯滅指標特性的數據分析,不對指標實際含義進行解析和解釋,通過對數據的離散程度(不確定度)進行對比而推算權重。

例如在商家服務質量評分模型建立過程中,各商家在指標A上的數據離散程度非常小,如果我們賦予該指標較大的權重就會出現各商家得分相近,難以區分優劣。

計算方法如下,較為晦澀,感興趣的同學可以百科自行學習,再此不多贅述,以下參考資料來源百度百科:

上述指標權重的定義更多是在講“術”的方面,即如何科學定義權重;但我們要明白的是權重不是一成不變的,評分模型運行后我們往往會動態定義權重,觀察在不同權重組合影響下(如各類AB實驗),對用戶體驗/平臺效益/系統效能等方面的收益進行量化,以期尋找一個最優組合;甚至在平臺發展的不同階段,各指標權重也會跟著平臺戰略演進而調整。

六、分值的選擇

  • 5分制:具備分層屬性:極差、較差、一般、較好、極好,強化等級/層級,弱化同級差異,重定性描述,直觀,易于交互,閱讀性較強,常用于C端展示;
  • 百分制:強化排序/排名 重比較,重定量描述,常用于內部排序、排名使用;
  • 10分制:歸屬定性描述還是定量描述,我的理解介于兩者之間。

介紹至此,你會想評分模型就是這樣?如果是狹義上的評分模型,我認為是的,但是至此該評分模型都不具備商業價值。

狹義的評分模型僅是作為衡量尺度的工具,文章開頭我們講了,評分模型是平臺價值觀的體現;這個價值觀不止體現在指標的選擇、權重的定義,還體現在蛋糕(權益)的分配。

任何平臺的資源都是有限的,如何攜帶有限資源在企業發展這個無限游戲中長久玩下去,是每一個平臺都要思考的問題;而評分模型的建立正是期望通過一系列量化,提升資源的利用效率。

所以我們也定義權益分配是評分模型中的一部分,如下圖:

至此,我本次的分享告一段落了。

本文用“淺談”旨在表達評分模型搭建的方法論遠不止于此,往后還可延展出很多內容,如評分模型的ABtest、通用評分模型系統的搭建等等,有機會再分享。

 

本文由 @阿鐵 原創發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自 Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 厲害了,學到了~

    來自上海 回復
  2. 大佬,你好厲害哦

    來自江蘇 回復
  3. 求后續內容更新

    來自上海 回復
    1. 帥鍋,你也在研究評分模型么?我們也在籌劃類似產品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204

      來自江蘇 回復
  4. 哇哦,學習了,還可以在哪里看到大佬的分享資料哦,或者會考慮繼續更新嘛~~

    來自北京 回復
    1. 帥鍋,你也在研究評分模型么?我們也在籌劃類似產品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204

      來自江蘇 回復
  5. 想要請教一下,指標選取好了,如果將指標轉化為分值呢?可以展開講講么?

    來自上海 回復
    1. 帥鍋,你也在研究評分模型么?我們也在籌劃類似產品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204

      來自江蘇 回復
    2. 您目前是怎么處理“將指標轉化為分值”這個問題的呢

      來自北京 回復
  6. 學習了!想問有沒有公眾號,想關注一波

    來自上海 回復
    1. 帥鍋,你也在研究評分模型么?我們也在籌劃類似產品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204

      來自江蘇 回復
  7. 學生 考試 那里講的很好 ,剛好要做個評分系統

    來自廣東 回復
    1. 帥鍋,你也在研究評分模型么?我們也在籌劃類似產品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204

      來自江蘇 回復
  8. 不明覺厲

    來自浙江 回復
    1. 帥鍋,你也在研究評分模型么?我們也在籌劃類似產品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204

      來自江蘇 回復
  9. 鐵哥這邏輯點贊

    回復
    1. 帥鍋,你也在研究評分模型么?我們也在籌劃類似產品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204

      來自江蘇 回復
  10. 看了作者其他文章,都干貨滿滿,有思想的產品經理

    回復
    1. 帥鍋,你也在研究評分模型么?我們也在籌劃類似產品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204

      來自江蘇 回復
  11. 已關注,期待大神的更多分享

    來自北京 回復
    1. 帥鍋,你也在研究評分模型么?我們也在籌劃類似產品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204

      來自江蘇 回復
  12. 老鐵666

    來自北京 回復
    1. 帥鍋,你也在研究評分模型么?我們也在籌劃類似產品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204

      來自江蘇 回復
  13. 老鐵,講的太好了,受教了

    來自香港 回復
    1. 帥鍋,你也在研究評分模型么?我們也在籌劃類似產品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204

      來自江蘇 回復