如何執(zhí)行個性化推薦:個性化推薦的需求、算法和數(shù)據(jù)
毫無疑問,投其所好,往往能夠幫助產(chǎn)品捕獲更多的用戶并且更為牢固的鎖住用戶,但關(guān)鍵在于如何執(zhí)行個性化推薦,從而更好的滿足用戶需求。
個性化推薦的原理應(yīng)該是在特定的,去構(gòu)造一些合理的算法或規(guī)則將正確的數(shù)據(jù)推薦給正確的用戶,這句話放在現(xiàn)在很多產(chǎn)品都是一樣的,但可能在不同的產(chǎn)品上也有一點區(qū)別,比如說在百度視頻里面所指的數(shù)據(jù)就是視頻和用戶。
視頻:我們在幾千萬的視頻屬性庫里面每一部視頻都有一些它自己的靜態(tài)屬性。比如明星、地區(qū)、發(fā)行年代、用戶為他打上一些心情、場景等標(biāo)簽、視頻類目標(biāo)簽。同時每部視頻也有它的一些動態(tài)數(shù)據(jù),如播放量,收藏率等。
用戶:百度視頻除了有自己的用戶畫像,比如說觀看偏好,觀看場景等,還擁有一些其他體制下的用戶畫像,比如用戶的年齡、性別等等,這些都會是一些比較好的推薦資源。
需求/場景
個性化推薦聽得最多的就是它的一些算法,百度視頻用的也是一些基于畫像的推薦,或者協(xié)調(diào)過濾,其次百度視頻的推薦還會涉及到另外一些方面比如需求場景,如他是一個懶惰型還是發(fā)現(xiàn)型用戶,他在用個性化推薦的時候是在什么樣的時間等。這些我都?xì)w納為需求場景。
1.懶惰/被動瀏覽
他可能是漫無目的,可能會有一些自己感興趣的視頻作品,但他又懶得去找,比如說進入視頻頁,他就是想要一鍵播放,其實也沒有更好的解決辦法,之前就是要進入一個列表滑動一下,然后又沒有預(yù)期。那這種需求我就要提煉出來,首先推薦一些他感興趣的,另外說他不需要太費力地瀏覽,能夠做到一鍵播放,這個地方也就是他個性化需求的另一方面,也就是去滿足他被動聽那個心態(tài)
這里做了一些嘗試,比如說我們做的“猜你喜歡”,“個性視頻”等那些,都是解決個性化推薦和一鍵播放,根據(jù)用戶的行為進行調(diào)整。
2.主動瀏覽
對于這種用戶就是他有自己的一個找到某些視頻的需求,但是他的時間比較短,有時候需要通過一些分類他肯定需要進入很多層級,找一次很麻煩,所以需要一種能夠節(jié)省時間得方法。
提煉一下需求,就是說這種用戶是屬于那種瀏覽型用戶,他有自己感興趣的,也希望能夠主動去發(fā)現(xiàn),但是就是在篩選的方式上比較麻煩,要通過篩選幾次之后才能找到他自己想要的內(nèi)容。
那我可以在他瀏覽的場景,比如說在視頻搜索欄,在查找的視頻下面,主動去做一些個性化,比如說新增一個全部,那全部里面可能是根據(jù)你的看過習(xí)慣做的推薦,省去你查找的麻煩。另外一塊,或者是我們把他經(jīng)常做一些篩選的行為記錄下來,也讓他后面重新做篩選的時候省去一些麻煩。
3.追“新作品”
對于這種場景,這個用戶他是有一種新的需求,比如說他喜歡的明星出了新短視頻及相關(guān)內(nèi)容,他希望第一時間能夠知道,這種需求在我提到的兩種場景里面都不能很好地滿足。
那我可以通過他的看視頻行為知道他關(guān)注什么明星的那些作品,隨后單擊明星或者作品更新的時候我們可以馬上通過push的方法來告訴用戶,這種是一個搞清用戶最快的一個辦法,滿足他個性化的需求。
4.讓推薦融于無形之中
這塊可能是比較容易忽略的也是非常重要的一個推薦場景,比如說在搜索框內(nèi)出現(xiàn)了這部視頻作品可能是我關(guān)注的一位,那其實他更多時候進一個視頻軟件第一件事要么就是從本地緩存那里看視頻,或者直接就進入搜索框去搜索他感興趣的內(nèi)容。那我在你一進來的時候能夠在搜索框上面顯示你感興趣的內(nèi)容或者關(guān)鍵詞,對他來說就是一個非常節(jié)省時間而且更自然的方式
如果一個用戶在本地的數(shù)據(jù)較少,緩存的視頻作品非常少,他是一個新用戶,不知道怎樣去查找視頻內(nèi)容,那可能對我來說通過這樣的一種方法,就是根據(jù)他已經(jīng)下載的一些的視頻來推薦給他與這個視頻相似的視頻。比如我是一個喜歡看科幻電影的用戶,可能我剛剛下載了一部作品,發(fā)現(xiàn)下載里面又出現(xiàn)了幾部跟這個比較像的電影,那我繼續(xù)下載它,讓用戶感覺推薦是這個非常自然的事情。
5.對于需求和場景的總結(jié)
用戶在使用這個場景的時候是什么?他是一個需要主動瀏覽的場景還是說是一個被動場景,這場景沒有解決的時候他的痛點是什么?
我希望他的解決方法是自然和簡單的。不需要用戶去做太多操作,太多操作對于用戶來說是一種負(fù)擔(dān)
對個性化推薦來說是不是有更加剛需的主場景?舉個例子,我提供了很久在線發(fā)現(xiàn)跟本地推薦,在線推薦的意思是說有發(fā)現(xiàn)欲望的用戶在視頻庫里面可以逛到一些好看的視頻,但其實,在很多視頻軟件里面,用戶的大部分時間都不是停留在在線發(fā)現(xiàn)。那我應(yīng)思考一下用戶的主場景,比如說他的下載視頻是不是有更多可以做個性化推薦的可能。
算法/規(guī)則
可能認(rèn)為個性化推薦需要接觸的算法東西很多,比如幾個推薦系統(tǒng)、幾個表情推薦、畫像推薦甚至是更深奧的回歸等,實際上百度視頻嘗試過不少算法,但歸納到底一些比較復(fù)雜的算法可能會用到局部調(diào)整。
常用的推薦算法
- 基于用戶畫像的推薦。比如說我是一個北京市的 80 后男人,我喜歡科幻、歐美視頻,那能不能給我推薦一些類似視頻呢?
- 協(xié)同推薦。比如說很多人覺得這兩部視頻好看,你收藏/分享了其中一部,那另外一部不如也試試看,這是協(xié)同推薦最基礎(chǔ)的一個方法。
- 基于標(biāo)簽推薦。比如這部視頻和另外一部視頻在年代、類目等這些維度都非常相似,剛好也喜歡其中的一部,那我就認(rèn)為你可以也喜歡另外一種
1.什么是畫像推薦
用戶畫像在百度里面有兩個定義,第一個是基于用戶的社會屬性定出來的,比如說我?guī)讱q、我的職業(yè)、我的星座等這些屬性。社會屬性在百度視頻有幾個特征是非常明顯的,比如說不同年齡段的人看到視頻是不太一樣的,或者說不同職業(yè)的人看的視頻不一樣。
而百度視頻的用戶畫像是指,通過用戶在百度視頻里面看到、收藏的視頻歸納出來的用戶可能喜歡某些視頻,他可能喜歡某些類別,某位明星這些,通過數(shù)據(jù)歸納出對他的一個描述
2.基于用戶畫像怎樣去推薦
主要表現(xiàn)在百度視頻里不同年齡和性別的用戶喜歡哪些視頻??梢缘贸?,不同性別、年齡的用戶口味相差蠻大的。假設(shè)一個用戶進入百度視頻但沒有任何數(shù)據(jù)的時候,我們可以嘗試這種方法來推薦給用戶,比如說你是一個十幾歲的男生,我比較傾向于給你推薦偏娛樂、二次元這種視頻。
3.用戶畫像是怎么做的
百度視頻的用戶畫像我是收集了用戶在產(chǎn)品里面的一些操作行為,比如說他觀看哪些視頻等,把數(shù)據(jù)收集起來在后臺服務(wù)器上去計算。另外也有自己視頻庫的東西,比如這部視頻作品的流派,風(fēng)格、心情。將這兩個數(shù)據(jù)結(jié)合,他有幾個維度,比如明星、流派、風(fēng)格,都一個個分權(quán)重。
有了這些數(shù)據(jù)之后我就可以做很多事情,用戶產(chǎn)生這些行為之后我大概可以知道他可能喜歡鹿晗、吳某凡等明星,那我可以推薦給他這些的一些冷門但好聽歌曲,這些對用戶來說都是一個非常好的體驗
4.協(xié)同推薦是怎么做的
比如百度視頻有100個人收藏了鹿晗的這部電影,而吳某凡的也有100個人收藏,其中共同收藏這兩部作品共有50 個人,那通過一個簡單的并集運算,然后再用共同人數(shù) 50 除以并集100 之后可以得出0.5,也就是喜歡鹿晗的這部電影有 50%的概率就喜歡吳某凡的作品。
通過這個方法可以通過多少人看過這部視頻,再求出共同看視頻人數(shù),最后通過一個公式來算出相似度:
用戶的行為=內(nèi)容(明星、類目、年代)+顯性操作(??础㈥P(guān)注、下載、收藏)+隱形操作(完整觀看、跳過)
獲得視頻相似度之后該怎樣去推薦給用戶感興趣的作品內(nèi)容?這里涉及到怎樣去定義用戶感興趣的作品內(nèi)容,在百度視頻里面用戶行為定義是,比如他的一個顯性和隱形操作,比如說他對一個專題收藏/分享和跳過了哪些視頻內(nèi)容。
當(dāng)有了這些操作行為之后就可以來計算用戶喜歡哪些作品,如圖上的例子(鋼鐵俠這部作品分值應(yīng)該是:5*0.4+4*0.7=4.7),通過這樣一個計算得出鋼鐵俠這部電影應(yīng)該是最先推給你的,其次是蜘蛛俠、超人。
這是 百度視頻一個原理,當(dāng)然上面可能疊加了很多修正,比如說他很久之前看的電影就會進行一個降權(quán),因為越早收藏的重要性越低。而一些熱門作品很多人都收藏的會降權(quán),但你收藏了很多歌曲會加權(quán)。通過這個算法對用戶進行推薦。
5.算法總結(jié)
基于用戶畫像推薦解釋性可能是最強的,但是他依賴于用戶不斷地去看視頻積累數(shù)據(jù)。關(guān)于協(xié)同推薦的有點就是只要你看過這部作品,他就可以通過后臺計算去給你推薦,對于一些冷門作品,這樣是非常有用的;同時他的缺點也非常明顯,就是對于熱門作品它的可解釋性不強。基于標(biāo)簽優(yōu)點在于他無論冷熱門作品可取性都非常強,只要你有打上這個標(biāo)簽就能推薦;缺點就在于他需要依靠人工去打標(biāo)簽。
數(shù)據(jù)
基礎(chǔ)數(shù)據(jù)和挑戰(zhàn)
對于視頻來說最重要的是標(biāo)簽和用戶數(shù)據(jù),對于標(biāo)簽來說可以看到他有很多維度,比如明星、作品等很多,而標(biāo)簽這塊人力成本非常高,而且不斷試錯的過程中發(fā)現(xiàn)客觀標(biāo)簽的覆蓋率不是特別全面,主觀標(biāo)簽如果完全依賴于信息,它的出錯率也是非常高的。對于用戶畫像來說,它的生成慢和感知差是一個大痛點。
讓畫像創(chuàng)建簡單,應(yīng)用場景更普遍
用戶畫像我上面說道他的一個生成難、感知度普遍較弱。在嘗試一個辦法,比如說用戶新裝了 百度視頻,那他可能會有一個掃描手機本地視頻的習(xí)慣,那么掃描完之后我們就會去分析一下他本地的那些視頻是什么樣的,這樣就能夠確定一個用戶的初始畫像。這種方法在很多 app 上都有用到。同時對于畫像感知差的問題,我會做一個數(shù)據(jù)總結(jié),把用戶數(shù)據(jù)呈現(xiàn)在用戶面前,告訴他這不是一個冷冰冰的數(shù)據(jù),這樣就讓用戶更有動力去接受我們的推薦。
個性化推薦難點
1.產(chǎn)品經(jīng)理不懂技術(shù)
2.優(yōu)化效果不明顯
3.口碑難以量化和橫向?qū)Ρ?/p>
4.算法重要,但場景和基礎(chǔ)不能忽略
產(chǎn)品經(jīng)理更加重視的是它的關(guān)注、場景、推薦系統(tǒng)所用數(shù)據(jù),理解算法其中的優(yōu)劣勢。
作者:Indulgence
來源:http://www.36dsj.com/archives/70880
本文來源于人人都是產(chǎn)品經(jīng)理合作媒體@36大數(shù)據(jù),作者@Indulgence
第1:協(xié)同過濾分兩種,一種是基于用戶的協(xié)同過濾(余弦相似度公式);一種是基于物品的協(xié)同過濾(交并集分析法)
第二,名字搞錯先不說,交并集分析法用兩項交集除兩項并集,按照你文中舉的例子,并集怎么會是100?100個人看了a,100個人看了b,ab同時觀看的人數(shù)是50,并集自己應(yīng)該是是150,比例是0.33,是數(shù)學(xué)不好嗎?這是小學(xué)三年級學(xué)的吧
第三,計算分?jǐn)?shù)時,0.8 0.4這類的乘數(shù)哪里來的都不介紹嗎?
整體應(yīng)該是抄來的文章,為了避免判定抄襲,縮減了字?jǐn)?shù)。這么高的瀏覽量,我還以為是有新玩法
洗稿洗成這樣…
缺失覺得干貨挺少的
感覺說得不是很具體,只能了解一個大概的思路
學(xué)習(xí)了