這10個(gè)評(píng)價(jià)指標(biāo),可以帶你認(rèn)識(shí)推薦系統(tǒng)

6 評(píng)論 17540 瀏覽 50 收藏 11 分鐘

目前,基于大數(shù)據(jù)的推薦系統(tǒng)已經(jīng)成為了移動(dòng)互聯(lián)網(wǎng)的研究熱點(diǎn),本文介紹了評(píng)判推薦系統(tǒng)好壞的十個(gè)評(píng)價(jià)指標(biāo)。

隨著移動(dòng)互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)中的信息量呈指數(shù)式增長(zhǎng),大量的商品、資訊、知識(shí)、視頻、音樂(lè)等內(nèi)容和資源可供用戶選擇,信息過(guò)載問(wèn)題日益突出。

而推薦系統(tǒng)是解決信息過(guò)載最有效的方式,因此,基于大數(shù)據(jù)的推薦系統(tǒng)已經(jīng)成為了移動(dòng)互聯(lián)網(wǎng)的研究熱點(diǎn)。

其實(shí)推薦系統(tǒng)在上世紀(jì)末就已經(jīng)出現(xiàn)了,亞馬遜在1998年就通過(guò)基于ITEM的協(xié)同過(guò)濾技術(shù),為數(shù)百萬(wàn)客戶提供商品選購(gòu)建議。而學(xué)術(shù)界對(duì)于推薦系統(tǒng)的研究也一直在進(jìn)行著。

雖然隨著云計(jì)算、大數(shù)據(jù)、人工智能等新興科技的發(fā)展,算力、數(shù)據(jù)和算法的提升,使推薦系統(tǒng)的性能越來(lái)越好,但針對(duì)推薦系統(tǒng)的評(píng)價(jià)體系則基本保持了穩(wěn)定,只是各項(xiàng)指標(biāo)的精度在不斷提升。

了解推薦系統(tǒng),可以從認(rèn)識(shí)推薦系統(tǒng)的評(píng)價(jià)指標(biāo)開(kāi)始,主要包括以下十點(diǎn):

一、用戶滿意度

用戶作為推薦系統(tǒng)的重要參與者,其滿意度是評(píng)測(cè)推薦系統(tǒng)的最重要指標(biāo)。

有時(shí),互聯(lián)網(wǎng)企業(yè)會(huì)通過(guò)調(diào)查問(wèn)卷的方式,或者是簡(jiǎn)單的滿意或不滿意的按鈕,來(lái)獲得用戶的滿意度反饋。

但更多的時(shí)候,用戶滿意度是通過(guò)對(duì)用戶某些行為的統(tǒng)計(jì)進(jìn)行量化分析后計(jì)算出來(lái)的。比如在移動(dòng)電商應(yīng)用中,用戶如果購(gòu)買了推薦的商品,就表示他們?cè)谝欢ǔ潭壬蠞M意系統(tǒng)的推薦結(jié)果,而購(gòu)買轉(zhuǎn)化率就可以用于度量用戶的滿意度。

此外,點(diǎn)擊率、分享率、收藏率、停留時(shí)間等指標(biāo),也都可能在度量用戶滿意度方面具備一定的權(quán)重。

二、預(yù)測(cè)準(zhǔn)確度

預(yù)測(cè)準(zhǔn)確度只是泛泛的名稱,具體要看你希望預(yù)測(cè)什么內(nèi)容,例如預(yù)測(cè)用戶對(duì)系統(tǒng)推薦的電影的觀后評(píng)分?

或是預(yù)測(cè)系統(tǒng)推薦的歌曲列表中,用戶最終選擇了幾首加入到了他的歌單?

但總體來(lái)說(shuō),預(yù)測(cè)準(zhǔn)確度是度量一個(gè)推薦系統(tǒng)或者推薦算法在預(yù)測(cè)用戶行為的準(zhǔn)確性方面最重要的指標(biāo)。

提高預(yù)測(cè)準(zhǔn)確度通常依賴于算法和模型精度的提升,所以更具備學(xué)術(shù)層面的研究?jī)r(jià)值。大數(shù)據(jù)、機(jī)器學(xué)習(xí)等熱門技術(shù),與預(yù)測(cè)準(zhǔn)確度之間的關(guān)系極為密切,彼此之間互相促進(jìn),技術(shù)的發(fā)展推動(dòng)了預(yù)測(cè)準(zhǔn)確度的提升,而似乎永無(wú)止境的對(duì)預(yù)測(cè)準(zhǔn)確度的提升需求,也帶動(dòng)了技術(shù)層面的不斷投入。

三、覆蓋率

覆蓋率用來(lái)描述一個(gè)推薦系統(tǒng)對(duì)長(zhǎng)尾內(nèi)容或商品的發(fā)掘能力。

關(guān)于覆蓋率的定義,最簡(jiǎn)單的理解是推薦系統(tǒng)能夠推薦出來(lái)的物品,占平臺(tái)中全部物品的比例。

以圖文內(nèi)容推薦為例,自媒體作者可能會(huì)很關(guān)心他們的內(nèi)容有沒(méi)有被推薦給讀者,而對(duì)于覆蓋率達(dá)到100%的推薦系統(tǒng),則意味著每篇內(nèi)容都被推薦給了至少一個(gè)用戶;但這對(duì)于僅提供熱門文章排行榜的系統(tǒng)來(lái)說(shuō)。

例如一些大學(xué)論壇的首頁(yè)可能只顯示每日十大文章,這樣的推薦系統(tǒng),它的覆蓋率是很低的。因?yàn)樗粫?huì)推薦那些被大量閱讀的文章,而這些文章在所有文章中的占比非常小。

四、多樣性

用戶的興趣是非常廣泛的,在一個(gè)視頻應(yīng)用中,用戶可能既喜歡看燒腦電影,也喜歡看動(dòng)作大片。

那么,為了滿足用戶廣泛的興趣,推薦列表需要能夠覆蓋用戶不同的興趣領(lǐng)域,即推薦結(jié)果需要具有多樣性。

想提升推薦系統(tǒng)的多樣性,就需要在較大的時(shí)間跨度上去識(shí)別和理解用戶的興趣。

五、新穎性

所謂新穎,就是指給用戶推薦那些他們以前沒(méi)有聽(tīng)說(shuō)過(guò)的內(nèi)容或商品,例如在視頻應(yīng)用中應(yīng)該盡可能多地向用戶推薦他們沒(méi)有看過(guò)的電影。

而考慮到很多用戶在某個(gè)應(yīng)用中的使用粘性可能并不高,例如一個(gè)用戶可能同時(shí)是多個(gè)視頻應(yīng)用的用戶,所以僅僅依靠用戶在自己系統(tǒng)中的行為記錄來(lái)保證推薦的新穎性是不夠的。

除此之外比較簡(jiǎn)單方法是基于內(nèi)容或商品的平均流行度去進(jìn)行推薦,因?yàn)樵讲粺衢T的東西越可能讓用戶覺(jué)得新穎。

不過(guò),向用戶推薦不流行的內(nèi)容或商品,其實(shí)是犧牲了一定的推薦精度的,所以我們需要權(quán)衡該指標(biāo)與其它指標(biāo)之間的平衡——這不僅在于技術(shù)層面的考量,可能也在于商業(yè)層面的考量。

六、驚喜度

所謂驚喜度,簡(jiǎn)單的解釋就是:如果推薦結(jié)果和用戶的歷史興趣不相似,但卻能夠讓用戶覺(jué)得滿意,那么就可以說(shuō)推薦結(jié)果的驚喜度很高。

想要兼顧推薦系統(tǒng)的驚喜度并不是一件容易的事情,因?yàn)檫@意味著需要降低推薦結(jié)果和用戶歷史興趣的相似度,所以可能會(huì)對(duì)預(yù)測(cè)準(zhǔn)確度帶來(lái)一定的挑戰(zhàn)。

但毫無(wú)疑問(wèn),用戶需要驚喜,這會(huì)極大提升用戶的滿意度和使用體驗(yàn),所以推薦系統(tǒng)對(duì)驚喜度的追求只會(huì)不斷提高,且還需要在不影響預(yù)測(cè)準(zhǔn)確度的前提下來(lái)實(shí)現(xiàn)。

七、信任度

所謂信任度,是指:用戶對(duì)推薦系統(tǒng)是否信任,是否愿意“聽(tīng)取”推薦系統(tǒng)的“建議”,而不是幾乎無(wú)視推薦頻道或推薦列表的存在。

信任度對(duì)推薦系統(tǒng)的意義非常重大,因?yàn)榛谟脩舻男湃瓮扑]的內(nèi)容和商品,更能夠讓用戶產(chǎn)生興趣;而如果失去了用戶的信任,那么你推薦的任何內(nèi)容和商品,都會(huì)讓用戶覺(jué)得像是廣告,而難以產(chǎn)生興趣。

這就如同兩個(gè)人向你分別推薦同一件商品,一個(gè)人是你的朋友,而另一個(gè)人不是,你會(huì)聽(tīng)誰(shuí)的?

相比其它指標(biāo),信任度多少有些感性,因此提升的方法也很多。例如可以考慮增加推薦系統(tǒng)的透明度;想辦法讓用戶了解推薦系統(tǒng)的運(yùn)行機(jī)制,并得到用戶的認(rèn)可;甚至可以通過(guò)一些自媒體做一些宣傳;此外,例如在你推薦的內(nèi)容概要中,提示用戶“你的xx個(gè)朋友已經(jīng)閱讀過(guò)了”,也是一種間接提升推薦系統(tǒng)信任度的方法。

八、時(shí)效性

推薦系統(tǒng)的時(shí)效性包括兩個(gè)方面:

  • 一方面是,在很多應(yīng)用中,因?yàn)閮?nèi)容具有很強(qiáng)的時(shí)效性,所以需要在內(nèi)容還具有時(shí)效性時(shí)就將它們推薦給用戶;
  • 而另一方面是,用戶的需求可能也具有一定的時(shí)效性,例如當(dāng)一個(gè)用戶剛剛在移動(dòng)電商應(yīng)用中下單購(gòu)買了一部新手機(jī)時(shí),如果推薦系統(tǒng)能夠立即給他推薦相關(guān)配件,那么肯定比第二天再給用戶推薦相關(guān)配件更有價(jià)值,轉(zhuǎn)化率更高。

這兩個(gè)方面,前者更依賴被推薦的內(nèi)容本身,而后者則需要建立在對(duì)用戶行為實(shí)時(shí)分析的基礎(chǔ)上。

九、健壯性

任何一個(gè)能帶來(lái)利益的算法系統(tǒng)都會(huì)被人攻擊,例如搜索引擎的作弊和反作弊斗爭(zhēng)就異常激烈。

因?yàn)槿绻茏屪约旱膬?nèi)容或商品排在匹配某個(gè)搜索詞的搜索結(jié)果的第一位,那么就會(huì)帶來(lái)極大的用戶流量,也就意味著巨大的商業(yè)利益。

推薦系統(tǒng)也會(huì)遇到同樣的作弊問(wèn)題,而健壯性(即魯棒性)指標(biāo),則可以用來(lái)衡量了一個(gè)推薦系統(tǒng)抗擊作弊的能力。

強(qiáng)化推薦系統(tǒng)的健壯性,比較重要的方式就在于提升剔除噪聲數(shù)據(jù)的能力。畢竟大規(guī)模的攻擊,例如利用水軍攻擊影評(píng)網(wǎng)站的評(píng)分系統(tǒng),其用戶行為與正常用戶會(huì)是有明顯區(qū)別的。所以想提升系統(tǒng)的健壯性,就應(yīng)該最大限度地識(shí)別出這些噪聲數(shù)據(jù),并把他們的影響降到最低。

十、商業(yè)目標(biāo)

前面的九個(gè)指標(biāo),有時(shí)候很難完全兼顧,甚至于有些指標(biāo)在某種程度上會(huì)形成一定程度的互斥關(guān)系。

而如何平衡這些指標(biāo),則還需要從經(jīng)濟(jì)效益和商業(yè)目標(biāo)層面進(jìn)行綜合考慮。

此外,對(duì)于不同階段的產(chǎn)品,例如有的產(chǎn)品處于打磨試錯(cuò)積累種子用戶階段;有的產(chǎn)品處于燒錢打市場(chǎng)階段;有的產(chǎn)品處于規(guī)?;A段,其推薦系統(tǒng)的策略也是會(huì)有所差異的。

 

本文由 @科技無(wú)憂 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自 Unsplash ,基于 CC0 協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 此文轉(zhuǎn)自《推薦系統(tǒng)實(shí)踐》

    來(lái)自安徽 回復(fù)
  2. 先收藏 沒(méi)準(zhǔn)以后有用

    來(lái)自北京 回復(fù)
  3. 打卡

    來(lái)自北京 回復(fù)
  4. 有用

    來(lái)自北京 回復(fù)
  5. 打卡

    回復(fù)
  6. 您好,小編,我想轉(zhuǎn)載您本篇文章,會(huì)附**的原文鏈接和您的作者姓名

    回復(fù)