亚洲精品TY久久久久久久久久,996久久国产精品线观看

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

淺談評分模型

阿鐵

2020-11-20

25 評論 23779 瀏覽 124 收藏

22 分鐘

編輯導語：我們在生活中處處都有需要評分的地方，比如我們點外賣或者去一家餐飲店，就習慣性會去看看評論如何；本文是作者分享的關于評分模型在業務、系統、公司的意義，以及搭建的方法論，我們一起來學習一下。

一、什么是評分模型

在寫這篇文章前，我一直在思考評分模型之于業務、系統、公司的意義，如果用一句話描述評分模型，我的定義是——對某一群體事物（評價主體）由定性分析到定量分析的過程。

二、搭建評分模型的意義

評分模型在平臺上應用較為廣泛，常見的交易，內容、社交、社區平臺都會廣泛運用評分模型或分層模型（分層模型更多是在評分模型的基礎上進一步歸類得到）。

為什么是平臺？

平臺作為供給方與需求方的連接，在平臺生態的搭建中，往往通過規則的制定，激勵、懲罰、約束供給方與需求方，打造正向體驗，促使平臺朝著良性、正向的方向發展。

在規則的制定與履行中，往往基于平臺的價值觀去制定規則，再借由評分模型（體系）進行度量，所以我們也說評分模型是平臺價值觀的體現。

舉個例子
基于場景：某個區域有100位用戶打車（需求），而司機（供給運力）僅有80個單位，針對此場景大D、小D兩平臺調度系統邏輯分別為：

大D平臺：認為打車業務是需求驅動型業務，即平臺的核心在于最短時間內滿足所有乘客的出行需求，因此調度系統會從全局最優角度為司機——路線匹配程度進行量化評分，進而依據分值進行調度

小D平臺：認為打車業務是供給驅動型業務，即平臺核心是保障司機端體驗以聚攏更多司機（運力），因此調度系統從司機體驗最優角度為司機——路線匹配程度量化評分，進而依據分值進行調度

三、評分模型的基礎結構

評分模型，更準確的說應該是評價模型與我們的生活息息相關，當我們對某一事物進行評價時，實際上已完成了評價模型的建立。

例如我們評價一件商品的好壞，一個人工作能力的強弱，一道菜品的優劣。

評價模型是我們對某一事物的價值評估，更側重定性分析；而評分模型，文章開頭我們講過定義：是對某一群體事物由定性分析到定量分析對過程，本質上是定量分析。

如何理解兩者的差異，下面一張圖方便大家理解：

剛才我們講評價模型與評分模型的差異，及生活中被各類評價模型裹挾。那么生活中有沒有評分模型？

有一類評分模型我們從小就開始與其打交道，伴隨了我們的成長 —— 考試，考試的本質是對學生的學習情況定量分析的過程。

現在我們就由考試講起，聊一聊評分模型的組成。

考試作為評分模型，它的結構是怎樣的呢？讓我們先回想一下考試的幾個組成要素：

學生
試卷
老師

對上述三個對象在評分模型中的定位進行抽象：

學生——被評價者：即評價模型所研究對象
試卷——綜合評價模型
老師——評價標準制定者

我們可以看到，考試的本質是評價標準制定者通過模型的建立對被評價者某種能力/特征進行量化評分的過程。

這個結構簡單理解就是：被評價者特征信息的輸入通過評價模型進行量化，完成結果分值的輸出。

那么模型本身的內在構造又是怎樣的呢?；氐娇荚噲鼍埃嚲砭褪窃u分模型，試卷中包含了哪些要素？

我們通過得分拆解：分值=題*每題得分。

題的本質：對被評價者在某方面能力、特征的度量——考核指標。
分的本質：某項能力、特征對整體評價的重要性——權重。

花了很大篇幅講評分模型的相關概念，是為了讓大家理解評分模型的基礎原理。

四、指標：評分模型的基石

1. 指標的特性

評價指標是反應被評價對象在評價體系中影響評價結果的影響因子。

選擇的指標需要滿足幾個基本特性：關聯性、普遍性、可度量性

關聯性：在選取模型指標時常出現以下幾個問題，導致選取指標組成的評分模型無法準確表達評分模型目標及意義。

選取指標不全，片面表達
選取指標不合理
選取指標重復

如場景：在制定商家服務評分體系的時候，主要考核衡量商家對用戶服務的質量，以下哪些指標可以運用于商家服務評分體系，體現商家服務質量：

銷量
評價數
30s應答率
退貨率

各位可以思考下（一分鐘思考時間）~

答案是僅30s應答率可納入商家服務質量指標體系。

我在線下跟朋友交流此問題時，鮮有人能準確選出答案，甚至到商家管理業務同學這里也栽了跟頭；這個問題在未明確目標時，我們容易將銷量，評價數、退貨率這些指標引入評價模型。

從主觀感知上來看，我們天然認為銷量高的商家比銷量低的商家服務質量好；評價越多的商品，店鋪服務質量會越好；退貨率越高的店鋪，服務質量不好，從平臺大盤數據看整個商家體系往往也是此趨勢。

但具體到個例上看確是如此么？

銷量高、評價數多的商家普遍比銷量低評價數少的商家服務好，但新商家服務質量不一定比老商家差，小眾品類商家服務質量不一定比大品類商家差；
退貨率低的商家普遍比退貨率高的商家服務質量好，但有些品類天然退貨率高，如服飾鞋帽品類天然比食品零食品類退貨率高。
退貨也不一定是商家服務質量造成的退貨，可能存在用戶個人原因，故若要反應商家服務質量，也品質退貨率會更準確，類似此類例子還有很多。

商家對用戶提供的服務質量確實會影響銷量、評價數、退貨率等指標，但這是一個逆命題。

上述幾個指標均是結果型指標，代表的場景是：商戶對用戶提供了良好的服務質量，會影響上述指標的結果。

我們的模型要探究的是哪些指標對商家服務質量結果產生了影響，而不是商家服務質量會對哪些指標產生影響；在此語境下，我們更應關注過程型指標。

但這并不代表結果型指標不可用于評分模型，結果型指標運用于評分模型中有兩個天然的劣勢：

滯后性，從評價主體的行為到結果的輸出存在時間差；
多因素干擾，實際業務場景下，某個結果型指標往往被多因素共同影響，存在部分因素不是評分模型研究范圍。

若實際業務過程中能接受滯后性，或者能排除多因素干擾，那么結果型指標同樣可作用于評分模型

可度量性：這個就相對易理解了，文章開頭我們定義了評分模型的概念：本質上是定性分析到定量分析的過程——這就要求選取的指標可量化。

普遍性：評分模型在完成評價主體的確定，對模型指標選擇中，應盡量選擇評價主體都具備的能力/特征作為考核指標，以減少統計的不公平性，避免模型計算過程中的復雜性。

2. 指標的選擇——GSM模型

合理的指標需要滿足什么基礎特征，我們現在知道了。

但就像明白了很多做人道理卻依舊過不好此生，很多人會感覺指標該滿足關聯性、普遍性、可度量性，我知道了，但合理的指標如何選取呢，還是不知道。

這里面其實有一個邏輯定式在里面，我們說的指標滿足各種特性，其實是對結果的一種驗證，缺少的是對實現路徑的認知。

這里我提供一個路徑，供大家參考：拆分目標-歸納表現型-選取指標——GSM模型。

GSM模型：目標（Goal）→信號（Signal）→指標（Metric）是谷歌用戶體驗團隊提出的一種指標體系搭建方法，其核心思想：通過明確目標，歸納測量主體表現型，找出關鍵指標。

目標確立（Goal）：

明確業務目標、系統目標等；
根據核心(主)目標做目標拆解；

推導信號和現象（Signal）：

目標達成或未達成的表現型是怎樣；
什么行為指示了目標達成/未達成；
很多時候負向信號/表現型比正向信號/表現型更容易識別；

選取指標（Metric）：

目標達成/未達成的表現通過哪些數據指標量化；
考慮每個數據指標對推導信號/現象的描述程度；

3. 指標的正向化

選擇的指標從評判標準來將會存在以下幾種類型：

正向指標——越大越好；
逆向指標——越小越好；
中間型指標——越趨于某個值越好；
區間型指標——越靠近某一區間；

為了便于后續計算與分析，我們通常將各類型指標轉化為正向指標。

逆向指標正向化：

yi=max-xi 或 yi=1/xi

中間型指標正向化：

其中Xbest為中間最優值。

區間型指標正向化：

4. 指標的無量綱化

無量綱——聽起來有點晦澀。

無量綱是物理學延伸出的概念，指在便于對物理常量進行比較、分析，不同常量（重量、長度、時間、體積、溫度等）之間單位是不一樣，為了消除單位的影響需要進行的去量綱化。

同理，不同指標之間由于存在量綱不同致其不具可比性，亦需將指標進行無量綱化，消除量綱影響將指標實際值轉化為評價值，大家可以簡單理解為去單位化。

目前最普遍使用的無量綱化方法是標準化法，標準化法即令：

其中x拔和σj分別是指標xj的均值和標準差。

五、權重

1. 權重的內涵

前面我講過評分模型是平臺價值觀的體現，這個價值觀很大一部分由指標的選擇與權重的定義承載。

不同平臺在定義指標權重時會存在較大差異，可以簡單理解為不同平臺因產品形態/產品定位/目標用戶/使用場景存在差異，導致平臺在評價一項事物時會有不同的標準，這個標準我們可以抽象為權重。

權重的大小反映了對于目標結果來說，評價指標的重要程度。

這個重要程度一般從兩方面衡量：

指標包含評價主體信息量的多少，包含信息量越大，權重越大；
指標對評價主體的區分度，評價指標區別被評價對象的能力越大，則權重越大

2. 權重的計算

我們知道，價值觀具有極強主觀性，同樣，平臺在指標權重的定義上也存在極強的主觀性。

我目前了解到各大平臺在定義各類評分模型的指標權重時，往往用主觀賦權法較多：

主觀賦權法：常用的主觀賦權有專家定權法、層次分析法，該類方法主觀性都較強；

專家定權法：專家定權的本質是由業內/領域權威人士直接定義各指標權重；
層次分析法：層次分析法雖屬于主觀定權，但也存在一定的科學性，旨在通過指標量量對比，量化權重，主觀定權下帶有一定的客觀計算規則。

其計算思路如下：

1）構造判斷矩陣

判斷矩陣含義：建立指標之間兩兩比較的影響程度的矩陣。例如對指標B1；B2；B3；B4；B5定權，構造判斷矩陣為：

2）建立指標度量標度

其中aij表示第i個指標與第j個指標的比較度量，用如下標度表示：

3）檢驗判斷矩陣的合理性

判斷矩陣構建后，需要進行矩陣一致性校驗，何為一致性校驗，即在比較時是否表達一致，例如：A>B，B>C，那么A必然大于C，這樣檢驗方式稱為一致性檢驗。

一致性檢驗是通過計算一致性比例CR得來：

中CI表示一致性指標，其公式為：

n表示判斷矩陣中指標的個數，λmax?表示判斷矩陣的最大特征值。

RI表示隨機一致性指標，可查表獲得，如下表所示：

當CR<0.1時，則表示一致性檢驗通過，判斷矩陣構造合理，CI 越大，判斷矩陣的不一致性程度越嚴重。

4）定權

客觀賦權法

這里僅介紹下常用的客觀賦權——熵值法。

什么是熵？

物理學對熵的定義是描述體系混亂程度(離散程度)的度量，宇宙是一個熵增的過程，熵增也是世間萬物的運行規律。

什么是熵值法？

物理規律下的離散程度我們定義為熵，信息領域的信息不確定度被定義為信息熵，熵值法是對信息熵的計算，用來判斷某個指標的離散程度。

在權重的內涵中我們講到衡量權重的標準之一：指標對評價主體的區分度，評價指標區別被評價對象的能力越大，則權重越大。

熵值法正是基于此思想而建立，是泯滅指標特性的數據分析，不對指標實際含義進行解析和解釋，通過對數據的離散程度(不確定度)進行對比而推算權重。

例如在商家服務質量評分模型建立過程中，各商家在指標A上的數據離散程度非常小，如果我們賦予該指標較大的權重就會出現各商家得分相近，難以區分優劣。

計算方法如下，較為晦澀，感興趣的同學可以百科自行學習，再此不多贅述，以下參考資料來源百度百科：

上述指標權重的定義更多是在講“術”的方面，即如何科學定義權重；但我們要明白的是權重不是一成不變的，評分模型運行后我們往往會動態定義權重，觀察在不同權重組合影響下（如各類AB實驗），對用戶體驗/平臺效益/系統效能等方面的收益進行量化，以期尋找一個最優組合；甚至在平臺發展的不同階段，各指標權重也會跟著平臺戰略演進而調整。

六、分值的選擇

5分制：具備分層屬性：極差、較差、一般、較好、極好，強化等級/層級，弱化同級差異，重定性描述，直觀，易于交互，閱讀性較強，常用于C端展示；
百分制：強化排序/排名重比較，重定量描述，常用于內部排序、排名使用；
10分制：歸屬定性描述還是定量描述，我的理解介于兩者之間。

介紹至此，你會想評分模型就是這樣？如果是狹義上的評分模型，我認為是的，但是至此該評分模型都不具備商業價值。

狹義的評分模型僅是作為衡量尺度的工具，文章開頭我們講了，評分模型是平臺價值觀的體現；這個價值觀不止體現在指標的選擇、權重的定義，還體現在蛋糕(權益)的分配。

任何平臺的資源都是有限的，如何攜帶有限資源在企業發展這個無限游戲中長久玩下去，是每一個平臺都要思考的問題；而評分模型的建立正是期望通過一系列量化，提升資源的利用效率。

所以我們也定義權益分配是評分模型中的一部分，如下圖：

至此，我本次的分享告一段落了。

本文用“淺談”旨在表達評分模型搭建的方法論遠不止于此，往后還可延展出很多內容，如評分模型的ABtest、通用評分模型系統的搭建等等，有機會再分享。

本文由 @阿鐵原創發布于人人都是產品經理，未經許可，禁止轉載。

題圖來自 Unsplash，基于CC0協議

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

阿鐵

3篇作品 46760總閱讀量

聊一聊AI技術在“政府熱線場景”中的運用，內含實際落地案例~

12-073275 瀏覽

跨界聯名越來越多，我卻不想喝奶茶了

09-20594 瀏覽

一定會問到，但不好回答的產品經理面試題（一）（附答案）

08-245873 瀏覽

三大方法驗證新產品市場匹配度

09-306649 瀏覽

網約車市場，飽和了？

06-282390 瀏覽

評論

汪仔9522

厲害了，學到了～

最近來自上海回復
未能免俗

大佬，你好厲害哦

最近來自江蘇回復
雪中追逐

求后續內容更新

最近來自上海回復
1. 未能免俗回復雪中追逐
  
  帥鍋，你也在研究評分模型么？我們也在籌劃類似產品，我拉一個群，可以一起探討一下么？歡迎入群：QQ290061204
  
  最近來自江蘇回復
小白

哇哦，學習了，還可以在哪里看到大佬的分享資料哦，或者會考慮繼續更新嘛～～

最近來自北京回復
1. 未能免俗回復小白
  
  帥鍋，你也在研究評分模型么？我們也在籌劃類似產品，我拉一個群，可以一起探討一下么？歡迎入群：QQ290061204
  
  最近來自江蘇回復
Z.Jessica

想要請教一下，指標選取好了，如果將指標轉化為分值呢？可以展開講講么？

最近來自上海回復
1. 未能免俗回復Z.Jessica
  
  帥鍋，你也在研究評分模型么？我們也在籌劃類似產品，我拉一個群，可以一起探討一下么？歡迎入群：QQ290061204
  
  最近來自江蘇回復
2. 。回復Z.Jessica
  
  您目前是怎么處理“將指標轉化為分值”這個問題的呢
  
  最近來自北京回復
Z.Jessica

學習了！想問有沒有公眾號，想關注一波

最近來自上海回復
1. 未能免俗回復Z.Jessica
  
  帥鍋，你也在研究評分模型么？我們也在籌劃類似產品，我拉一個群，可以一起探討一下么？歡迎入群：QQ290061204
  
  最近來自江蘇回復
沅江人

學生考試那里講的很好，剛好要做個評分系統

最近來自廣東回復
1. 未能免俗回復沅江人
  
  帥鍋，你也在研究評分模型么？我們也在籌劃類似產品，我拉一個群，可以一起探討一下么？歡迎入群：QQ290061204
  
  最近來自江蘇回復
那是一段

不明覺厲

最近來自浙江回復
1. 未能免俗回復那是一段
  
  帥鍋，你也在研究評分模型么？我們也在籌劃類似產品，我拉一個群，可以一起探討一下么？歡迎入群：QQ290061204
  
  最近來自江蘇回復
小羊

鐵哥這邏輯點贊

最近回復
1. 未能免俗回復小羊
  
  帥鍋，你也在研究評分模型么？我們也在籌劃類似產品，我拉一個群，可以一起探討一下么？歡迎入群：QQ290061204
  
  最近來自江蘇回復
DAbai

看了作者其他文章，都干貨滿滿，有思想的產品經理

最近回復
1. 未能免俗回復DAbai
  
  帥鍋，你也在研究評分模型么？我們也在籌劃類似產品，我拉一個群，可以一起探討一下么？歡迎入群：QQ290061204
  
  最近來自江蘇回復
曉風

已關注，期待大神的更多分享

最近來自北京回復
1. 未能免俗回復曉風
  
  帥鍋，你也在研究評分模型么？我們也在籌劃類似產品，我拉一個群，可以一起探討一下么？歡迎入群：QQ290061204
  
  最近來自江蘇回復
夢溪

老鐵666

最近來自北京回復
1. 未能免俗回復夢溪
  
  帥鍋，你也在研究評分模型么？我們也在籌劃類似產品，我拉一個群，可以一起探討一下么？歡迎入群：QQ290061204
  
  最近來自江蘇回復
寒冰

老鐵，講的太好了，受教了

最近來自香港回復
1. 未能免俗回復寒冰
  
  帥鍋，你也在研究評分模型么？我們也在籌劃類似產品，我拉一個群，可以一起探討一下么？歡迎入群：QQ290061204
  
  最近來自江蘇回復