黄色性爱网站在线观看,亚洲熟女综合色一区二区三区,日韩国产成人无码AV毛片蜜柚

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

如何衡量推薦系統(tǒng)的好壞？

王家郴

2020-10-12

0 評(píng)論 12674 瀏覽 61 收藏

11 分鐘

編輯導(dǎo)語：如今推薦系統(tǒng)無處不在，你收到的推送、看到的推薦等等都是通過推薦系統(tǒng)進(jìn)行推送；一個(gè)好的推薦系統(tǒng)可以讓三方共贏，那如何來衡量推薦系統(tǒng)的好壞？本文作者從“做的好不好”和“還能好多久”兩方面進(jìn)行分析，我們一起來看一下。

上篇文章從非技術(shù)的角度寫了一些推薦系統(tǒng)相關(guān)的理論知識(shí)，沒看過的可以先去回顧下前情提要《一文帶你掌握推薦系統(tǒng)》。

上篇文章有部分內(nèi)容是關(guān)于推薦系統(tǒng)數(shù)據(jù)指標(biāo)的，當(dāng)時(shí)主要是從《推薦系統(tǒng)實(shí)踐》那本書里直接搬運(yùn)過來的，沒有詳細(xì)展開，所以就再補(bǔ)一篇如何衡量推薦系統(tǒng)好壞的文章。

之前我們提到推薦系統(tǒng)存在有一個(gè)非常重要的前提，那就是信息過載——我們想做的事情是在滿足用戶個(gè)性化需求的基礎(chǔ)上，充分挖掘長(zhǎng)尾資源，提升整體資源利用效率。

如果把整體資源看作待開采的寶藏，那推薦系統(tǒng)就可以看作是礦機(jī)，要做的事情就是不斷的挖掘?qū)毑?，發(fā)揮寶藏應(yīng)有的價(jià)值。

從這個(gè)角度來看，衡量推薦系統(tǒng)做的好不好可以從兩方面來評(píng)估：

一方面是推薦系統(tǒng)本身做的好不好，開采效率高不高；
另一方面就是推薦系統(tǒng)還能好多久，畢竟寶藏的開采也是需要長(zhǎng)期可持續(xù)發(fā)展的。

下面我們分別從做的好不好與還能好多久這兩個(gè)角度來看下如何衡量推薦系統(tǒng)的好壞。

一、做的好不好

可以從深度和廣度這兩個(gè)維度來進(jìn)行評(píng)估。

先來看深度，主要是衡量推薦系統(tǒng)的結(jié)果，通常會(huì)有評(píng)分準(zhǔn)確度、分類準(zhǔn)確率、排序指標(biāo)和商業(yè)指標(biāo)等。

1. 評(píng)分準(zhǔn)確度

在討論這個(gè)指標(biāo)之前，先來說下另一個(gè)問題。

推薦系統(tǒng)的預(yù)測(cè)一般分為兩種，一種是評(píng)分預(yù)測(cè)，一種是行為預(yù)測(cè)。

評(píng)分預(yù)測(cè)是根據(jù)用戶以往對(duì)物品的打分情況，預(yù)測(cè)用戶對(duì)新物品的打分；比如用戶A之前看過3部電影，這時(shí)候想給用戶推薦另外一部電影，評(píng)分預(yù)測(cè)就是預(yù)測(cè)用戶A對(duì)這部電影可能的打分。

行為預(yù)測(cè)指的是直接預(yù)測(cè)行為本身發(fā)生的概率，比如用戶有多大可能性產(chǎn)生點(diǎn)擊、購(gòu)買或者點(diǎn)贊、分享操作。

評(píng)分準(zhǔn)確度是為了評(píng)估評(píng)分預(yù)測(cè)是否精準(zhǔn)的指標(biāo)，整體的思路是計(jì)算預(yù)測(cè)值和真實(shí)值之間的誤差，然后把誤差盡可能控制在可接受范圍之內(nèi)。

通常情況下會(huì)用均方根誤差（RMSE）、均方誤差（MSE）、平均絕對(duì)誤差(MAE)來衡量。

具體計(jì)算方式不贅述，感興趣的可以自行了解下。

2. 分類準(zhǔn)確率

主要是針對(duì)行為預(yù)測(cè)的，一般用TopN的準(zhǔn)確率和召回率來進(jìn)行衡量。

召回率：希望覆蓋的案例中，實(shí)際被覆蓋的有多少比如想從1萬條新聞中識(shí)別所有的軍事類新聞，召回率為80%意味著只識(shí)別出來了8000條新聞。
準(zhǔn)確率：策略覆蓋的案例中，真正希望被覆蓋的有多少；從1萬條新聞中識(shí)別出100條軍事類新聞，準(zhǔn)確率為80%意味著只識(shí)別出來了80條軍事新聞。

召回率和準(zhǔn)確率是相互矛盾的，召回率高，準(zhǔn)確率可能會(huì)低，準(zhǔn)確度高，召回率可能會(huì)低；需要結(jié)合產(chǎn)品階段和優(yōu)化目標(biāo)去找一個(gè)合適的平衡點(diǎn)。

3. 排序指標(biāo)

通常采用AUC值， AUC值在數(shù)學(xué)上等價(jià)于模型把關(guān)心的那一類樣本排在其他樣本前面的概率。

最大是1，完美結(jié)果，0.5就是隨機(jī)排列，0就是完美地全部排錯(cuò)，最差的是接近0.5。

此外還可以通過目標(biāo)值和AB測(cè)試來進(jìn)行衡量，比如目標(biāo)值是停留時(shí)長(zhǎng)，那就用停留時(shí)長(zhǎng)的大小來進(jìn)行衡量，線上環(huán)境可以通過不同的流量對(duì)比效果。

4. 商業(yè)指標(biāo)

主要就是我們期望提升的一些目標(biāo)值，比如：

比例類：點(diǎn)擊率、轉(zhuǎn)化率、留存率、完播率等；
絕對(duì)值類：用戶停留時(shí)長(zhǎng)、GMV（成交金額）、社交關(guān)系數(shù)量等。

再來看廣度，通常會(huì)有覆蓋率、失效率、新穎性、更新率、流行度等。

5. 覆蓋率

主要指的是推薦系統(tǒng)在多少用戶身上成功運(yùn)用了，比如總共有100W用戶，A策略覆蓋用戶數(shù)量是10W，那覆蓋率就是10%。

通常情況覆蓋率為UV覆蓋率或者PV覆蓋率：

UV覆蓋率：有效推薦覆蓋UV/總UV。
PV覆蓋率：覆蓋PV/總PV。

6. 失效率

主要是衡量不出推薦結(jié)果的情況，比如策略A覆蓋了10W用戶，有1W用戶是沒有推薦結(jié)果的，那對(duì)應(yīng)的失效率就是10%。

失效率也分為UV失效率和PV失效率：

UV失效率：推薦結(jié)果列表長(zhǎng)度為0覆蓋的UV/整體UV。
PV失效率：推薦結(jié)果列表長(zhǎng)度為0覆蓋的PV/整體PV。

7. 新穎性和驚喜性

直觀上的理解就是用戶沒見過（新穎），最好還能是用戶感興趣或者喜歡的（驚喜）。

這個(gè)時(shí)候需要把維度不斷的細(xì)化，比如細(xì)化到主題、分類、標(biāo)簽等，然后再衡量每個(gè)維度上用戶沒見過物品的比例。

8. 更新率

主要是衡量每個(gè)推薦周期和上個(gè)周期相比，推薦列表中不同物品的比例。

這個(gè)周期，可以是每次刷新，也可以是每天；通常情況下有離線計(jì)算、近線計(jì)算和實(shí)時(shí)計(jì)算這幾種類型，不同類型的的復(fù)雜程度和實(shí)現(xiàn)成本不同，當(dāng)然推薦的效果也是不同的。

9. 流行度

主要是用來衡量推薦和熱門的相似程度，流行度越大，結(jié)果就越趨近于全局熱門的物品；既然我們想挖掘長(zhǎng)尾物品，那肯定不希望熱門商品占據(jù)了太多的流量。

二、還能好多久

上一部分主要是從推薦本身的角度來衡量的，這部分主要是從全局的角度來衡量，主要有個(gè)性化、多樣性和基尼系數(shù)這幾個(gè)指標(biāo)。

1. 個(gè)性化

顧名思義就是推薦系統(tǒng)的個(gè)性化程度，如果沒有很大差異的話，一方面推薦效果可能還有提升空間，另一方面對(duì)長(zhǎng)尾物品的挖掘可能不那么充分。

可以取一天的日志，計(jì)算用戶推薦列表的平均相似度，平均相似度越大，說明個(gè)性化程度越低，相似度越小，說明個(gè)性化程度越大；如果用戶量較大，可以考慮對(duì)用戶抽樣來進(jìn)行計(jì)算。

2. 多樣性

推薦系統(tǒng)里面有個(gè)信息繭房問題，具體表現(xiàn)為推薦系統(tǒng)是基于用戶已有的行為和偏好去尋找和推薦相關(guān)內(nèi)容；然后就會(huì)出現(xiàn)你越看某類內(nèi)容，推送給你這類內(nèi)容就越多的情況。

多樣性可以在一定程度上解決這個(gè)問題，在用戶感興趣內(nèi)容的基礎(chǔ)上，可以做一些其他興趣的探索。

具體來說可以通過控制各類型的占比或者推薦理由的占比，再結(jié)合著一些其他產(chǎn)品策略來保證整體推薦結(jié)果的多樣性。

3. 基尼系數(shù)

首先需要知道什么是基尼系數(shù)，來看下百度百科的定義：

基尼系數(shù)是指國(guó)際上通用的、用以衡量一個(gè)國(guó)家或地區(qū)居民收入差距的常用指標(biāo)。

基尼系數(shù)最大為“1”，最小等于“0”；基尼系數(shù)越接近0表明收入分配越是趨向平等。

基尼系數(shù)在推薦系統(tǒng)中的應(yīng)用也是用來衡量平等程度的，越接近于0表示個(gè)性化程度越高，越接近于1表示馬太效應(yīng)越嚴(yán)重，即少數(shù)的物品占據(jù)了絕大多數(shù)的流量。

三、最后

除了上面列的一些指標(biāo)，可能還會(huì)有時(shí)效性、健壯性、可解釋性等其他指標(biāo)，不再一一說明。

需要說明的是，不同階段需要重點(diǎn)關(guān)注的數(shù)據(jù)指標(biāo)是不同的，沒必要上來就關(guān)注這么多指標(biāo)，而且選擇過多的指標(biāo)也不利于進(jìn)行觀察和決策。

可以先定義清楚當(dāng)前階段迫切需要解決的問題，結(jié)合著業(yè)務(wù)特點(diǎn)和目標(biāo)，再來選擇幾個(gè)合適的數(shù)據(jù)指標(biāo)進(jìn)行衡量。

以上，就是本文的主要內(nèi)容，愿你有所收獲，歡迎斧正、指點(diǎn)、拍磚。

本文寫作過程中，參考了以下作品或資料：

書籍《推薦系統(tǒng)實(shí)踐》 By 項(xiàng)亮

音頻課程《推薦系統(tǒng)三十六式》 By 邢無刀

#專欄作家#

王家郴，公眾號(hào)：產(chǎn)品經(jīng)理從0到1，人人都是產(chǎn)品經(jīng)理專欄作家，喜歡網(wǎng)球和騎行的產(chǎn)品汪，目前奔走在產(chǎn)品的道路上，漫漫產(chǎn)品路，與君共勉。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載

題圖來自 unsplash，基于 CC0 協(xié)議

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

王家郴

喜歡網(wǎng)球和騎行的產(chǎn)品汪，公眾號(hào)：產(chǎn)品經(jīng)理從0到1，每周都會(huì)在公眾號(hào)上寫點(diǎn)東西，歡迎關(guān)注。

57篇作品 972204總閱讀量

服務(wù)設(shè)計(jì)｜跨學(xué)科合作的共創(chuàng)框架

11-011503 瀏覽

做電商運(yùn)營(yíng)最難的是什么

09-263712 瀏覽

產(chǎn)品經(jīng)理的技術(shù)學(xué)習(xí)之路

05-3033670 瀏覽

連續(xù)裁員，瘋狂轉(zhuǎn)型，快被遺忘的Clubhouse的一生

09-272143 瀏覽

聊聊香港信貸用戶的畫像

08-282337 瀏覽

評(píng)論

目前還沒評(píng)論，等你發(fā)揮！

產(chǎn)品經(jīng)理必備的猥瑣發(fā)育之道（售前篇）

05-109274 瀏覽
干貨：營(yíng)銷和傳播從「經(jīng)驗(yàn)」到「科學(xué)」

01-305187 瀏覽
我，花3天時(shí)間做了這件事 | 普通人視角下的WAIC

07-202537 瀏覽