推薦系統(tǒng)老司機(jī)的十條經(jīng)驗(yàn)

0 評論 22415 瀏覽 84 收藏 20 分鐘

推薦Quora的工程副總裁Xavier Amatriain在ACM recsys2016上的分享,主要分享了作為推薦系統(tǒng)老司機(jī)的他,多年開車后總結(jié)的禁忌和最佳實(shí)踐,這樣的采坑實(shí)錄顯然是很有價值的。值得一讀。

一年一度的ACM Recsys會議在9月份已經(jīng)勝利閉幕,留下一堆slides和tutorials等著我們?nèi)W(xué)習(xí)。

翻看今年的各種分享,其中老司機(jī)Xavier Amatriain(曾任Netflix的算法總監(jiān),現(xiàn)任Quora的工程副總裁)的分享引起了我的興趣:Lessons Learned from Building Real--Life Recommender Systems。主要分享了作為推薦系統(tǒng)老司機(jī)的他,多年開車后總結(jié)的禁忌和最佳實(shí)踐,這樣的采坑實(shí)錄顯然是很有價值的。

Xavier Amatriain在recsys上的分享,是他在推薦系統(tǒng)領(lǐng)域的十條實(shí)踐經(jīng)驗(yàn)(這位老司機(jī)同樣的題目在不同渠道多次分享過,一共有三個版本,加起來去重后不止十條,同學(xué)們賺到了),本文只針對他在Recsys2016上的分享一一解讀。

一、隱式反饋比顯式反饋要爽

所謂隱式反饋,就是用戶發(fā)出這些行為時并不是為了表達(dá)興趣/態(tài)度,只是在正常使用產(chǎn)品而已,反之,顯式反饋就是用戶在做這個操作時就是要表達(dá)自己的態(tài)度,如評分,投贊成/反對票。

Xavier Amatriain列舉了隱式反饋的以下好處:

  1. 數(shù)據(jù)比顯式反饋更加稠密。誠然,評分?jǐn)?shù)據(jù)總體來說是很稀疏的,之前netflix的百萬美元挑戰(zhàn)賽給出的數(shù)據(jù)稀疏度大概是1.2%,畢竟評分?jǐn)?shù)據(jù)是要消耗更多注意力的數(shù)據(jù)。
  2. 隱式反饋更代表用戶的真實(shí)想法,比如你不是很贊成川普的觀點(diǎn),但是還是想經(jīng)??吹剿膬?nèi)容(以便吐槽他),這是顯式反饋無法捕捉的。而人們在Quora上投出一些贊成票也許只是為了鼓勵一下作者,或者表達(dá)一些作者的同情,甚至只是因?yàn)檎握_而投,實(shí)際上對內(nèi)容很難說真正感興趣。
  3. 隱式反饋常常和模型的目標(biāo)函數(shù)關(guān)聯(lián)更密切,也因此通常更容易在AB測試中和測試指標(biāo)掛鉤。這個好理解,比如CTR預(yù)估當(dāng)然關(guān)注的是點(diǎn)擊這個隱式反饋。

舉個例子,IMDB的電影排名,對比一下用票房排名和用評分排名,票房其實(shí)是一種隱式反饋的量化,表示“看過”,而評分則是顯式反饋。

1

2

一些小眾電影的評分比較少,在依靠評分排名時不太占優(yōu)勢,而依靠隱式反饋排名則會有所緩解。

雖然有諸多好處,但隱式反饋有個比較大的問題就是:短視。

現(xiàn)在有很多手段來吸引用戶點(diǎn)擊,比如高亮的標(biāo)題,還有一些“三俗”的圖片,都會吸引用戶點(diǎn)擊,這種利用了人性弱點(diǎn)的隱式反饋,對平臺的長期價值是有損的,所以也不能一味使用隱式反饋,而是需要隱式反饋和顯式反饋結(jié)合使用,兼顧短期利益和長期價值。

二、深刻理解數(shù)據(jù)

Xavier Amatriain舉了個例子,訓(xùn)練一個分類器,用來自動識別優(yōu)質(zhì)答案或劣質(zhì)答案。這個問題似乎很簡單,實(shí)際上你要思考,下面這些答案是好的還是不好的:

  1. 抖機(jī)靈的答案;
  2. 某個領(lǐng)域的網(wǎng)紅給了個很短的答案;
  3. 很長、很有料的答案,但是沒有人點(diǎn)贊;
  4. 內(nèi)容有料,但是錯別字多。

這些都是需要我們?nèi)ド钊霕I(yè)務(wù)理解,到底什么樣的數(shù)據(jù)才是我們要找的。

三、為模型定義好學(xué)習(xí)任務(wù)

一個機(jī)器學(xué)習(xí)模型有三個因素構(gòu)成:

  1. 訓(xùn)練數(shù)據(jù)(隱式反饋或者顯式反饋)
  2. 目標(biāo)函數(shù)(比如用戶閱讀一篇回答的概率)
  3. 衡量指標(biāo)(比如準(zhǔn)確率或者召回率)

假如現(xiàn)在有這么一個問題:用用戶的購物歷史以及歷史評分,去優(yōu)化用戶走進(jìn)電影院看完一部電影并且給出高分的概率,NDCG作為模型的評價指標(biāo),4分以上作為正樣本。

這樣就比較清晰的定義了學(xué)習(xí)任務(wù)的三元素:

  1. 訓(xùn)練數(shù)據(jù):用戶購物歷史和歷史評分
  2. 目標(biāo)函數(shù):用戶走進(jìn)電影院看完電影且給出高分的概率
  3. 衡量指標(biāo):NDCG

如果定義評價指標(biāo)時模糊不清,如不說明是4分以上的作為正樣本的話,就失去了顯式反饋的信息,失去了對平臺長期利益的關(guān)注。

還有個例子,Quora的興趣feed排序。

3

Quora的首頁是結(jié)合了多個用戶隱式反饋的排序模型,給每一種用戶行為建立一個預(yù)測模型,預(yù)測它發(fā)生的概率,結(jié)合每一種行為帶來的長期價值大小,然后加權(quán),即期望價值。這個例子里面的三元素也可定義清楚:

  1. 訓(xùn)練數(shù)據(jù):用戶的顯式反饋和隱式反饋
  2. 目標(biāo)函數(shù):一個story的展示價值,量化定義為用戶行為的期望價值
  3. 衡量指標(biāo):任何排序模型指標(biāo)都可以

四、推薦可解釋比精準(zhǔn)更有意義

這里其實(shí)就是說推薦要展示出理由給用戶,讓用戶知道每一項(xiàng)推薦的項(xiàng)目是怎么得到的。

比如Quora的feed推薦給出的“被你關(guān)注的人投票”的理由:

4

比如Quora給出的推薦話題給出的“被你關(guān)注的人關(guān)注”的理由:

5

比如Netflix給出的“因?yàn)榭催^給出好評的電影而推薦”的理由:

6

五、矩陣分解大法好

Xavier Amatriain很推崇Matrix Factorization,因?yàn)樗扔斜O(jiān)督學(xué)習(xí),又有無監(jiān)督學(xué)習(xí)。

7

兩種學(xué)習(xí)方法就這樣結(jié)合在一個算法里:

  1. 它可以用來降維,這部分通常是PCA這樣的無監(jiān)督學(xué)習(xí)算法承擔(dān)的,矩陣分解得到的隱因子就是降維后的特征,可以直接作為其他學(xué)習(xí)算法的輸入;
  2. 它還可以做聚類,比如Non-negative Matrix Factorization就常常用來做聚類;
  3. SVD就是一種回歸,標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)。

矩陣分解還有一些變種:

  • ALS(交替最小二乘)
  • SVD++(結(jié)合特征的SVD)
  • FM(因子機(jī))
  • TF(張量分解)

總之,在推薦系統(tǒng)里,使勁壓榨矩陣分解的效果。

六、萬能的集成方法

Netflix的冠軍模型,那可是100多種算法集成在一起的,真是應(yīng)了那句話:

比你效果好的模型還比你更努力。

實(shí)際上任何推薦系統(tǒng)也不可能是單一算法在起作用,而是多種算法集成在一起。集成方法理論上不會比你其中那個最好的算法差。在推薦系統(tǒng)中,你至少可以集成基于內(nèi)容推薦和協(xié)同過濾兩種。

本質(zhì)上,集成算法是把某個模型的輸出變成另一個模型的特征。如果你很難決策到底用哪個算法時,千萬不要糾結(jié),所有的都用,然后集成之。

集成還有一個好處就是:某個推薦算法可能更適合某個場景下,這樣被集成的算法就可以各自handle各自擅長的場景,最后集大成。

具體集成方法可選的很多,如logistic regression,GBDT,Random Forest,ANN。

七、推薦系統(tǒng)也不能免俗之特征工程

談機(jī)器學(xué)習(xí)必談特征工程,雖然深度學(xué)習(xí)的大火讓某些領(lǐng)域的機(jī)器學(xué)習(xí)應(yīng)用更加端到端了,但是推薦系統(tǒng)這個王國里面,特征工程還是要談一談。

好的特征有以下特點(diǎn):

  1. 可復(fù)用。可復(fù)用就是說不止一個模型可以用,換個模型一樣用。
  2. 可轉(zhuǎn)換。特征是既可以直接使用,也可以進(jìn)行一些尺度轉(zhuǎn)換的,比如對數(shù)轉(zhuǎn)換等。
  3. 可解釋。特征的物理意義需要很清楚。
  4. 可靠。特征出現(xiàn)異常的話需要能及時監(jiān)控到,也要容易調(diào)試。

Xavier以Quora的答案排序?yàn)槔?,舉了一些他們現(xiàn)在用到的特征算是好特征:

  • 一個是答案本身的特征,如回答的質(zhì)量;
  • 第二個是互動類型的特征,如投票,評論;還有用戶特征,如他在某個話題下的專業(yè)程度。

深度學(xué)習(xí)給了另一種全新的特征工程之路,也是值得探索的,或許是人工特征工程的終結(jié)者,拭目以待。

八、對你的推薦系統(tǒng)要了如指掌

推薦系統(tǒng)里面,模型對于很多人來說都是黑盒子,甚至對于算法工程師自己來說也是黑盒子,并不太清楚某個東西為什么被推出來,某個東西為什么用戶沒買帳或者買帳。

通常產(chǎn)品經(jīng)理對推薦系統(tǒng)都有一定的預(yù)期,推薦的東西不能讓他們理解,解釋起來也比較麻煩,也是通常算法工程師和PM產(chǎn)生爭端的原因所在。對于黑盒一般的模型,我們要能夠做到可以回答任何人的任何問題。模型應(yīng)該做到“可調(diào)試”(debuggability)。

舉個例子,一個決策樹算法,從根節(jié)點(diǎn)開始,一步一步經(jīng)過了哪些決策節(jié)點(diǎn)得到了最終的預(yù)測結(jié)果呢?如果有工具可以直觀展現(xiàn)出來,我們就能知道哪些特征起了更重要的作用,是不是合理的?

8

Xavier 提到在Quora內(nèi)部就有個工具,可以看到某個人的首頁feed的每一個內(nèi)容的分?jǐn)?shù),以及每個分?jǐn)?shù)計(jì)算所依賴的特征,這樣就很清楚知道為什么你“看到/沒看到”某個人的回答或問題。

9

10

九、數(shù)據(jù)和模型是重要,但正確的演進(jìn)路徑更不容忽視

老司機(jī)說,這條經(jīng)驗(yàn)他很看重。這條經(jīng)驗(yàn)告訴我們,一個推薦系統(tǒng)的產(chǎn)品功能如何一步一步從0到上線的。

11

通常,正確的演進(jìn)路徑是這樣:

  1. 首先提出一個假設(shè),可以通俗的說是對問題的一個猜想;
  2. 針對這個假設(shè),我們要選擇用什么模型;
  3. 模型選定后訓(xùn)練模型,離線測試,如果驗(yàn)證通過就要上AB測試,否則要么換個模型,要么重新審視一下你的假設(shè)是不是站得住腳;
  4. 上AB測試,測試結(jié)果明顯提升的話就上線,否則滾回去再看看最開始你那個假設(shè)是不是靠譜。

這個過程有幾個地方比較難:

第一個就是離線模型評價指標(biāo)的選擇,不同的指標(biāo)可能包含不同的意義。例如同樣是Learn to rank的排序評價,MRR和NDCG這兩個指標(biāo)對于排序靠前的項(xiàng)目權(quán)重就會更大,而FCP(Fraction of Concordant Pairs)就更看重排序靠中間的項(xiàng)目。所以選擇什么指標(biāo)要仔細(xì)思考,離線評價表現(xiàn)好才有機(jī)會有必要上AB測試。

12

第二個就是離線評價(通常是技術(shù)性或者學(xué)術(shù)性的,比如準(zhǔn)確率)和在線產(chǎn)品指標(biāo)(通常是商業(yè)性的,比如留存率)之間通常是存在鴻溝的。模型的離線評價效果可能很好,但是在線去測試,產(chǎn)品指標(biāo)可能表現(xiàn)不好,可以離線的時候換一個與直接產(chǎn)品指標(biāo)更相關(guān)的評價指標(biāo)。

第三個就是AB測試的時候一定注意要有一個總體評價指標(biāo)(?Overall Evaluation Criteria),很多人(通常是產(chǎn)品經(jīng)理)會同時關(guān)注一個AB測試的很多指標(biāo),點(diǎn)擊率上去了,多樣性又下去了,這種測試結(jié)果你很難說是該上線還是該下線,所以說需要一個?Overall Evaluation Criteria,如果你有多個目標(biāo),就想法把多個目標(biāo)整合成一個數(shù)值指標(biāo),這樣才能夠最終決定AB測試是成功還是失敗。 Overall Evaluation Criteria通常是更接近商業(yè)目標(biāo)和平臺長期價值的數(shù)值,要定義出來需要深度的思考。

最后提一下,AB測試并不是唯一確定新算法是否上線的方式,還有一種方法是bandit算法,見專治選擇困難癥——bandit算法。

十、別一言不合就要上分布式

Hadoop,spark,mapreduce,這些名詞背后有一個共同的概念:分布式。

現(xiàn)在,所謂的大數(shù)據(jù)項(xiàng)目也是言必稱分布式,那么是不是都需要分布式呢?尤其是模型部分?老司機(jī)Xavier認(rèn)為,大多數(shù)推薦算法不需要分布式,畢竟我們的推薦系統(tǒng)中很少會有訓(xùn)練計(jì)算機(jī)從海量視頻中識別什么是貓這樣的算法。

Xavier說,很多算法其實(shí)都是可以在單機(jī)上完成的(多核的單機(jī)),那為什么大家又很少這樣做呢?

究其原因有幾個:

  1. 分布式平臺的確降低了處理大數(shù)據(jù)的門檻,稍微寫點(diǎn)膠水代碼就可以操作成T上P的數(shù)據(jù),工程師們不用懂太多分布式本身的知識;
  2. 一些在單機(jī)上并行處理數(shù)據(jù)的方法不為人知,比如像C++中的openmp這樣的庫,很多人并不知道,它可以充分發(fā)揮多核機(jī)器的作用。還有Linux本身有很多并行化的命令,比如grep,wc等;
  3. 掌握的數(shù)據(jù)采樣方法不夠不精。對全量數(shù)據(jù)采樣,以使之在單機(jī)上能夠計(jì)算且不明顯損失信息,這是一門精致的手藝,很多人并不掌握。

Xavier說在Quora,曾經(jīng)用Spark實(shí)現(xiàn)了一個計(jì)算任務(wù),需要15臺機(jī)器跑6小時才能跑完,而某個工程師花了四天時間研究spark慢在哪,然后用C++寫了一個單機(jī)版,只用10分鐘就跑完整個任務(wù)。說到這里,我也同樣的經(jīng)驗(yàn),曾經(jīng)用Spark跑協(xié)同過濾,四個小時沒有跑完,組內(nèi)的董瑋博士用C++寫了一個單機(jī)版,用openmp庫把所有的核都用上,30分鐘就計(jì)算完了。

說到這里,常見的推薦算法有很多分布式的庫,比如Spark中就有MLib庫,但是也可以試試一些著名的單機(jī)版,如GraphChi。

十一、要做就做能賺錢的推薦系統(tǒng)【推廣】

不得不承認(rèn),我們遇到的推薦系統(tǒng)都是這樣的:

  • 推薦新聞,閱讀了就是推薦成功;
  • 推薦音樂,加紅心或者聽完了就是推薦成功;
  • 推薦商品,點(diǎn)擊了就是推薦成功;
  • 推薦好友,加關(guān)注了就是推薦成功;
  • 推薦視頻,觀看了就是推薦成功;

……

到底這些推薦系統(tǒng)產(chǎn)生了多大的商業(yè)價值,我們都無法確切知道,作為從業(yè)者的我們也無法確切知道自己工作的價值是多大。

看到這里,你是不是有點(diǎn)沮喪?

難道沒有可以直接衡量推薦系統(tǒng)商業(yè)價值的產(chǎn)品嗎?

當(dāng)然有!

工程師們發(fā)送簡歷給kaijiang@tiannongtech.com了解更多詳情,你懂的。

參考資料

[1] http://www.slideshare.net/xamat/recsys-2016-tutorial-lessons-learned-from-building-reallife-recommender-systems

[2] http://www.slideshare.net/xamat/strata-2016-lessons-learned-from-building-reallife-machine-learning-systems

[3] https://chatbotnewsdaily.com/10-more-lessons-learned-from-building-real-life-ml-systems-part-i-b309cafc7b5e#.vmuuaznyk

[4] https://medium.com/@xamat/10-more-lessons-learned-from-building-real-life-machine-learning-systems-part-ii-93fe7008fa9#.e4p4bl23f

[5] https://www.youtube.com/watch?v=88tzDSOzVUQ

 

作者:陳開江@刑無刀,多年個性化推薦從業(yè)經(jīng)驗(yàn),歡迎加他個人微信交流:kaijiang_chen,加我時請自我介紹。

本文由 @刑無刀 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!