如何衡量推薦系統(tǒng)的好壞?

0 評(píng)論 12674 瀏覽 61 收藏 11 分鐘

編輯導(dǎo)語:如今推薦系統(tǒng)無處不在,你收到的推送、看到的推薦等等都是通過推薦系統(tǒng)進(jìn)行推送;一個(gè)好的推薦系統(tǒng)可以讓三方共贏,那如何來衡量推薦系統(tǒng)的好壞?本文作者從“做的好不好”和“還能好多久”兩方面進(jìn)行分析,我們一起來看一下。

上篇文章從非技術(shù)的角度寫了一些推薦系統(tǒng)相關(guān)的理論知識(shí),沒看過的可以先去回顧下前情提要《一文帶你掌握推薦系統(tǒng)》。

上篇文章有部分內(nèi)容是關(guān)于推薦系統(tǒng)數(shù)據(jù)指標(biāo)的,當(dāng)時(shí)主要是從《推薦系統(tǒng)實(shí)踐》那本書里直接搬運(yùn)過來的,沒有詳細(xì)展開,所以就再補(bǔ)一篇如何衡量推薦系統(tǒng)好壞的文章。

之前我們提到推薦系統(tǒng)存在有一個(gè)非常重要的前提,那就是信息過載——我們想做的事情是在滿足用戶個(gè)性化需求的基礎(chǔ)上,充分挖掘長(zhǎng)尾資源,提升整體資源利用效率。

如果把整體資源看作待開采的寶藏,那推薦系統(tǒng)就可以看作是礦機(jī),要做的事情就是不斷的挖掘?qū)毑?,發(fā)揮寶藏應(yīng)有的價(jià)值。

從這個(gè)角度來看,衡量推薦系統(tǒng)做的好不好可以從兩方面來評(píng)估:

  • 一方面是推薦系統(tǒng)本身做的好不好,開采效率高不高;
  • 另一方面就是推薦系統(tǒng)還能好多久,畢竟寶藏的開采也是需要長(zhǎng)期可持續(xù)發(fā)展的。

下面我們分別從做的好不好與還能好多久這兩個(gè)角度來看下如何衡量推薦系統(tǒng)的好壞。

一、做的好不好

可以從深度和廣度這兩個(gè)維度來進(jìn)行評(píng)估。

先來看深度,主要是衡量推薦系統(tǒng)的結(jié)果,通常會(huì)有評(píng)分準(zhǔn)確度、分類準(zhǔn)確率、排序指標(biāo)和商業(yè)指標(biāo)等。

1. 評(píng)分準(zhǔn)確度

在討論這個(gè)指標(biāo)之前,先來說下另一個(gè)問題。

推薦系統(tǒng)的預(yù)測(cè)一般分為兩種,一種是評(píng)分預(yù)測(cè),一種是行為預(yù)測(cè)。

評(píng)分預(yù)測(cè)是根據(jù)用戶以往對(duì)物品的打分情況,預(yù)測(cè)用戶對(duì)新物品的打分;比如用戶A之前看過3部電影,這時(shí)候想給用戶推薦另外一部電影,評(píng)分預(yù)測(cè)就是預(yù)測(cè)用戶A對(duì)這部電影可能的打分。

行為預(yù)測(cè)指的是直接預(yù)測(cè)行為本身發(fā)生的概率,比如用戶有多大可能性產(chǎn)生點(diǎn)擊、購(gòu)買或者點(diǎn)贊、分享操作。

評(píng)分準(zhǔn)確度是為了評(píng)估評(píng)分預(yù)測(cè)是否精準(zhǔn)的指標(biāo),整體的思路是計(jì)算預(yù)測(cè)值和真實(shí)值之間的誤差,然后把誤差盡可能控制在可接受范圍之內(nèi)。

通常情況下會(huì)用均方根誤差(RMSE)、均方誤差(MSE)、平均絕對(duì)誤差(MAE)來衡量。

具體計(jì)算方式不贅述,感興趣的可以自行了解下。

2. 分類準(zhǔn)確率

主要是針對(duì)行為預(yù)測(cè)的,一般用TopN的準(zhǔn)確率和召回率來進(jìn)行衡量。

  • 召回率:希望覆蓋的案例中,實(shí)際被覆蓋的有多少比如想從1萬條新聞中識(shí)別所有的軍事類新聞,召回率為80%意味著只識(shí)別出來了8000條新聞。
  • 準(zhǔn)確率:策略覆蓋的案例中,真正希望被覆蓋的有多少;從1萬條新聞中識(shí)別出100條軍事類新聞,準(zhǔn)確率為80%意味著只識(shí)別出來了80條軍事新聞。

召回率和準(zhǔn)確率是相互矛盾的,召回率高,準(zhǔn)確率可能會(huì)低,準(zhǔn)確度高,召回率可能會(huì)低;需要結(jié)合產(chǎn)品階段和優(yōu)化目標(biāo)去找一個(gè)合適的平衡點(diǎn)。

3. 排序指標(biāo)

通常采用AUC值, AUC值在數(shù)學(xué)上等價(jià)于模型把關(guān)心的那一類樣本排在其他樣本前面的概率。

最大是1,完美結(jié)果,0.5就是隨機(jī)排列,0就是完美地全部排錯(cuò),最差的是接近0.5。

此外還可以通過目標(biāo)值和AB測(cè)試來進(jìn)行衡量,比如目標(biāo)值是停留時(shí)長(zhǎng),那就用停留時(shí)長(zhǎng)的大小來進(jìn)行衡量,線上環(huán)境可以通過不同的流量對(duì)比效果。

4. 商業(yè)指標(biāo)

主要就是我們期望提升的一些目標(biāo)值,比如:

  • 比例類:點(diǎn)擊率、轉(zhuǎn)化率、留存率、完播率等;
  • 絕對(duì)值類:用戶停留時(shí)長(zhǎng)、GMV(成交金額)、社交關(guān)系數(shù)量等。

再來看廣度,通常會(huì)有覆蓋率、失效率、新穎性、更新率、流行度等。

5. 覆蓋率

主要指的是推薦系統(tǒng)在多少用戶身上成功運(yùn)用了,比如總共有100W用戶,A策略覆蓋用戶數(shù)量是10W,那覆蓋率就是10%。

通常情況覆蓋率為UV覆蓋率或者PV覆蓋率:

  • UV覆蓋率:有效推薦覆蓋UV/總UV。
  • PV覆蓋率:覆蓋PV/總PV。

6. 失效率

主要是衡量不出推薦結(jié)果的情況,比如策略A覆蓋了10W用戶,有1W用戶是沒有推薦結(jié)果的,那對(duì)應(yīng)的失效率就是10%。

失效率也分為UV失效率和PV失效率:

  • UV失效率:推薦結(jié)果列表長(zhǎng)度為0覆蓋的UV/整體UV。
  • PV失效率:推薦結(jié)果列表長(zhǎng)度為0覆蓋的PV/整體PV。

7. 新穎性和驚喜性

直觀上的理解就是用戶沒見過(新穎),最好還能是用戶感興趣或者喜歡的(驚喜)。

這個(gè)時(shí)候需要把維度不斷的細(xì)化,比如細(xì)化到主題、分類、標(biāo)簽等,然后再衡量每個(gè)維度上用戶沒見過物品的比例。

8. 更新率

主要是衡量每個(gè)推薦周期和上個(gè)周期相比,推薦列表中不同物品的比例。

這個(gè)周期,可以是每次刷新,也可以是每天;通常情況下有離線計(jì)算、近線計(jì)算和實(shí)時(shí)計(jì)算這幾種類型,不同類型的的復(fù)雜程度和實(shí)現(xiàn)成本不同,當(dāng)然推薦的效果也是不同的。

9. 流行度

主要是用來衡量推薦和熱門的相似程度,流行度越大,結(jié)果就越趨近于全局熱門的物品;既然我們想挖掘長(zhǎng)尾物品,那肯定不希望熱門商品占據(jù)了太多的流量。

二、還能好多久

上一部分主要是從推薦本身的角度來衡量的,這部分主要是從全局的角度來衡量,主要有個(gè)性化、多樣性和基尼系數(shù)這幾個(gè)指標(biāo)。

1. 個(gè)性化

顧名思義就是推薦系統(tǒng)的個(gè)性化程度,如果沒有很大差異的話,一方面推薦效果可能還有提升空間,另一方面對(duì)長(zhǎng)尾物品的挖掘可能不那么充分。

可以取一天的日志,計(jì)算用戶推薦列表的平均相似度,平均相似度越大,說明個(gè)性化程度越低,相似度越小,說明個(gè)性化程度越大;如果用戶量較大,可以考慮對(duì)用戶抽樣來進(jìn)行計(jì)算。

2. 多樣性

推薦系統(tǒng)里面有個(gè)信息繭房問題,具體表現(xiàn)為推薦系統(tǒng)是基于用戶已有的行為和偏好去尋找和推薦相關(guān)內(nèi)容;然后就會(huì)出現(xiàn)你越看某類內(nèi)容,推送給你這類內(nèi)容就越多的情況。

多樣性可以在一定程度上解決這個(gè)問題,在用戶感興趣內(nèi)容的基礎(chǔ)上,可以做一些其他興趣的探索。

具體來說可以通過控制各類型的占比或者推薦理由的占比,再結(jié)合著一些其他產(chǎn)品策略來保證整體推薦結(jié)果的多樣性。

3. 基尼系數(shù)

首先需要知道什么是基尼系數(shù),來看下百度百科的定義:

基尼系數(shù)是指國(guó)際上通用的、用以衡量一個(gè)國(guó)家或地區(qū)居民收入差距的常用指標(biāo)。

基尼系數(shù)最大為“1”,最小等于“0”;基尼系數(shù)越接近0表明收入分配越是趨向平等。

基尼系數(shù)在推薦系統(tǒng)中的應(yīng)用也是用來衡量平等程度的,越接近于0表示個(gè)性化程度越高,越接近于1表示馬太效應(yīng)越嚴(yán)重,即少數(shù)的物品占據(jù)了絕大多數(shù)的流量。

三、最后

除了上面列的一些指標(biāo),可能還會(huì)有時(shí)效性、健壯性、可解釋性等其他指標(biāo),不再一一說明。

需要說明的是,不同階段需要重點(diǎn)關(guān)注的數(shù)據(jù)指標(biāo)是不同的,沒必要上來就關(guān)注這么多指標(biāo),而且選擇過多的指標(biāo)也不利于進(jìn)行觀察和決策。

可以先定義清楚當(dāng)前階段迫切需要解決的問題,結(jié)合著業(yè)務(wù)特點(diǎn)和目標(biāo),再來選擇幾個(gè)合適的數(shù)據(jù)指標(biāo)進(jìn)行衡量。

以上,就是本文的主要內(nèi)容,愿你有所收獲,歡迎斧正、指點(diǎn)、拍磚。

本文寫作過程中,參考了以下作品或資料:

書籍《推薦系統(tǒng)實(shí)踐》 By 項(xiàng)亮

音頻課程 《推薦系統(tǒng)三十六式》 By 邢無刀

#專欄作家#

王家郴 ,公眾號(hào):產(chǎn)品經(jīng)理從0到1,人人都是產(chǎn)品經(jīng)理專欄作家,喜歡網(wǎng)球和騎行的產(chǎn)品汪,目前奔走在產(chǎn)品的道路上,漫漫產(chǎn)品路,與君共勉。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 unsplash,基于 CC0 協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!