推薦策略產(chǎn)品經(jīng)理必知必會②:三大常見的召回策略
數(shù)據(jù)是一切的開始,而召回決定整個推薦系統(tǒng)的上限,如果一開始就召回錯了的話,整個系統(tǒng)的推薦效果將會很差。
常見的召回策略有以下三種:
一、規(guī)則召回
最常用的召回策略,解釋性最強(qiáng)。
優(yōu)點(diǎn):策略邏輯清晰明了,業(yè)務(wù)意義明確,可解釋性極強(qiáng)
缺點(diǎn):個性化弱,千人一面,易引起馬太效應(yīng),頭部曝光越來越多。
適用場景:最開始搭建推薦系統(tǒng)時
標(biāo)簽召回
使用方式:最早應(yīng)用于音樂與電影網(wǎng)站,同時對內(nèi)容和用戶打標(biāo),計(jì)算兩者的標(biāo)簽重合度。
核心問題:如何構(gòu)建科學(xué)全面的標(biāo)簽體系、如何為用戶和內(nèi)容打標(biāo),主流打標(biāo)方式仍為人工打標(biāo)。
高質(zhì)量分召回&類目召回
使用方式:電商推薦和內(nèi)容推薦場景,適合用于新人冷啟動。
舉例:電商領(lǐng)域通過歷史銷量、好評率、收藏數(shù)等綜合評估物料的質(zhì)量分;內(nèi)容通過瀏覽量、互動數(shù)來綜合評估。
注:為質(zhì)量因子配備超參數(shù),超參數(shù)決定該部分在整個公式的重要度,為人工設(shè)定,參數(shù)為模型訓(xùn)練得到。
質(zhì)量因子歸一化:Min-Max歸一化公式進(jìn)行,對于電商不同類目需要分類目進(jìn)行歸一化,防止極大差異影響。
熱銷召回
使用方式:召回近期熱門的物料,適合用于新用戶召回策略,“熱門”由業(yè)務(wù)進(jìn)行自行定義,需要設(shè)計(jì)統(tǒng)計(jì)周期(長、中、短)為x、y、z。
高點(diǎn)擊率召回
使用方式:召回“CTR預(yù)估模型”這一核心指標(biāo)
復(fù)購召回
使用方式:生鮮電商領(lǐng)域經(jīng)常使用
實(shí)現(xiàn)方式:基于用戶維度統(tǒng)一其購買的商品,使用Min-Max歸一化方式,在綜合電商領(lǐng)域一般,大宗商品會讓用戶印象差
二、協(xié)同過濾
推薦系統(tǒng)最經(jīng)典的算法,包括基于物料(Item-CF,1998)的算法和基于用戶(User-CF,1992)的算法,即“協(xié)同+過濾”,利用群體數(shù)據(jù)去尋找規(guī)律,測定物料間、用戶間的相似性,排除相似度低的物料與用戶,后再進(jìn)行排序。
核心問題:如何計(jì)算物料與物料之間、用戶與用戶之間的相似度
優(yōu)點(diǎn):算法邏輯較簡單,容易實(shí)現(xiàn),同時又有不錯的效果,具備一定的個性化
缺點(diǎn):與規(guī)則召回缺點(diǎn)方向一致,冷啟動問題明顯,存在一定的馬太效應(yīng),頭部熱門問題容易與其他商品產(chǎn)生關(guān)聯(lián)
1.挖掘與目標(biāo)用戶相似的用戶集合,取相似度排在前幾位的用戶作為候選集。
Jaccard系數(shù):Wab = 0.4; Wac = 0.25; Wad = 0.2; Wae = 0.75,B、E最高
2.挖掘該集合中受歡迎的物料,從中為目標(biāo)用戶推薦他沒有接觸過的物料。
B、E瀏覽的商品中,A為瀏覽過d、e,估算其興趣度
P(A,d) = 0.4*1+0.75*0 = 0.4;P(A,e) = 0.4*1+0.75*1=1.15,故而A對e商品的興趣度高選擇e商品為用戶推薦
基于物料的協(xié)同過濾(Item算法):目前在各大互聯(lián)網(wǎng)公司應(yīng)用十分廣泛,用余弦相似度計(jì)算。
舉例如下,6個用戶和5個商品。
計(jì)算商品間的相似度:余弦定理計(jì)算商品間的相似度
基于目標(biāo)用戶歷史瀏覽行為和商品間的相似度,為其推薦感興趣且未瀏覽過的商品
本文只有5個商品,目標(biāo)A瀏覽過a、b、c。沒有瀏覽過d、e,所以預(yù)估P(A,d)、P(A,e)。
P(A,d) = 0.5*1+0*1+0.67*1=1.17
P(A,e) = 0.5*1+0.35*1+0.89*1=1.74
所以優(yōu)先為用戶A推薦商品e。
UserCF算法與ItemCF算法的異同點(diǎn) 總結(jié)
基于圖模型的方法(graph-based model)
主要分為兩大步:
1)將數(shù)據(jù)表格轉(zhuǎn)化為二分圖
2)基于兩個頂點(diǎn)的路徑數(shù)、路徑長度及經(jīng)過的節(jié)點(diǎn)出度判斷相關(guān)性。
例:“A——a——B——c”,路徑長度為3,A到c只有一條路徑,而A到e有兩條,A與e關(guān)聯(lián)性強(qiáng)于A與c。
A到e的兩條路徑哪個相關(guān)性更強(qiáng),比較出度(該頂點(diǎn)對外連接了幾個其他的頂點(diǎn)),出度越大,相關(guān)性越弱。
三、基于向量的召回
1. 隱語義模型
最經(jīng)典的應(yīng)用就是隱語義模型,或者稱為隱向量模型。
在現(xiàn)實(shí)中,用戶與物料間的矩陣是非常稀疏的,很難進(jìn)行預(yù)估,而隱語義模型的思想是挖掘用戶和物料間的特征屬性,將用戶和物料歸到相同的特征維度,一般為四象限維度,然后再進(jìn)行比較。
核心:將一個共現(xiàn)矩陣(用戶和物料的交互矩陣)分解成兩個小矩陣(用戶矩陣和物料矩陣),兩個矩陣在相同的向量維度上。
矩陣的常見分解方法有三種:
方法一:特征值分解
只能作用于NxN矩陣,大多數(shù)用戶x物料矩陣并非方矩陣,不具有適用性。
方法二:奇異值分解
適用于所有MxN矩陣,但是對于矩陣的稠密度要求高,應(yīng)用時必須把缺失值用近似值、平均值補(bǔ)全,計(jì)算復(fù)雜、資源要求高。
方法三:梯度下降法
Funk SVD,又稱LFM,將預(yù)測值與實(shí)際評分值比較,損失函數(shù)為均方差,利用梯度下降進(jìn)行迭代,直到模型收斂。
隱語義模型優(yōu)缺點(diǎn):
優(yōu)點(diǎn):
1)泛化能力強(qiáng)。一定程度上緩解矩陣稀疏問題
2)計(jì)算復(fù)雜度低。計(jì)算復(fù)雜度為(m+n)*k,而協(xié)同矩陣為m*m或者n*n
3)更好的靈活性和擴(kuò)展性??梢耘c其他特征組合或拼接,也可以和深度學(xué)習(xí)神經(jīng)網(wǎng)路哦結(jié)合
缺點(diǎn):
僅考慮用戶和物料各自的特征,不方便加入用戶、物料、上下文特征以及其他一些交互特征,模型本身具有一定局限性。
2. 雙塔模型
來源:源自DSSM模型(deep structured semantic model),最初為了解決NLP中語音相似度問題。
應(yīng)用方式:利用深度神經(jīng)網(wǎng)絡(luò)將文本表示為低緯度向量,將檢索詞、文檔分別嵌入兩個向量他,計(jì)算兩個向量間的余弦相似度,后歸一化可以得到其相關(guān)性。
例:DSSM模型在訓(xùn)練時,正樣本為該檢索詞下曾被點(diǎn)擊過的文檔集合D+,負(fù)樣本為用戶未點(diǎn)擊過的文檔集合。最終得到檢索詞和文檔的語義向量維度(128維),然后計(jì)算兩個向量間的余弦相似度,最后通過SoftMax函數(shù)進(jìn)行歸一化,得到檢索詞和每一個文檔的相關(guān)性。
雙塔模型為一種模型思想,而非一種具體的模型。主要分為輸入層、表示層、匹配層三層。
- 輸出層:用戶與物料各自獨(dú)立的特征,沒有交叉特征,進(jìn)行各自特征編碼和拼接。
- 表示層:DNN訓(xùn)練后得到收斂變量,用戶、物料的輸出特征維度必須相同。
- 匹配層:計(jì)算用戶向量與物料向量的相似度,主要用余弦相似度計(jì)算。cos越大越相似。
雙塔模型在實(shí)際應(yīng)用中主要作為召回模型來使用,召回模型的核心要素就是正負(fù)樣本的選擇。正樣本為用戶曾經(jīng)點(diǎn)擊過的物料,而負(fù)樣本的篩選很有藝術(shù)性,如果如同精排模型使用線上曝光但未點(diǎn)擊的物料作為負(fù)樣本,會導(dǎo)致樣本選擇偏差(SSB,sample selection bias)。因?yàn)榫拍P团c召回模型的候選集是不同的。
負(fù)樣本的選擇方式有很多,常規(guī)方式便是從整體物料庫中隨機(jī)抽取,選擇更多物料讓模型學(xué)習(xí)。
雙塔模型的實(shí)際應(yīng)用網(wǎng)上可以查詢些哦!流程:提前備好數(shù)據(jù)庫,用戶訪問讀取,更新用戶庫,檢索興趣推薦。
優(yōu)點(diǎn):
雙塔模型能對用戶塔和物料塔進(jìn)行解耦,離線訓(xùn)練好數(shù)據(jù)再進(jìn)行線上部署,線上讀取、計(jì)算速度很快,解決了推薦系統(tǒng)的工程性能問題,相比其他模型推薦的整體效果更好。
缺點(diǎn):
與隱語義模型相同,沒有用到用戶和物料的交叉特征。
四、召回策略的效果評估
線上效果評估:簡單直接的AB Test小實(shí)驗(yàn)。先通過離線評估確定新的召回策略,再進(jìn)行線上AB Test小流量試驗(yàn)。
離線效果評估:主要評估單個召回分支返回的物料和實(shí)際線上曝光與點(diǎn)擊物料之間的重合度,越高召回效果越好。
各路召回的貢獻(xiàn)度歸因:每一路召回產(chǎn)生的實(shí)際線上效果不一樣,基礎(chǔ)條件之一是點(diǎn)擊曝光埋點(diǎn)里有針對不同召回分支的埋點(diǎn)標(biāo)識。主要有三種方式:物料歸因計(jì)算相同貢獻(xiàn);歸一化分?jǐn)?shù)統(tǒng)一量綱歸因于召回分支分?jǐn)?shù)最高的一路;權(quán)重歸因,對各支路權(quán)重進(jìn)行分?jǐn)?shù)匯總,再按權(quán)重歸因。
召回模塊為整個推薦系統(tǒng)的基礎(chǔ),策略產(chǎn)品經(jīng)理只有明白每一種召回策略的底層邏輯才能深度參與到召回策略的設(shè)計(jì)中,為不同用戶、不同場景定制召回策略。
本文由 @策略產(chǎn)品經(jīng)理規(guī)劃 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!