推薦系統案例:小紅書的底層邏輯

0 評論 3970 瀏覽 15 收藏 8 分鐘

小紅書的內容推薦模型是怎樣的?這篇文章里,作者就對小紅書的推薦模型邏輯進行了拆解,感興趣的同學,可以來看一下。

一、小紅書用戶隱私政策

收集和使用的個人信息

根據收集的用戶個人信息,我們可以發現小紅書的業務模式始終是基于內容進行過濾、檢索的信息流生活平臺,在這一平臺上生活美妝是其主題。

二、小紅書內容推薦模型

工業界常見的推薦模型一般包括特征服務、索引、召回、粗排、精排、重排、樣式創意等環節,我將基于此對小紅書的推薦模型邏輯進行拆解。

1. 特征服務與物料索引

在“設置-我的內容偏好”中,我們可以發現“為我們推薦可能感興趣的內容”,其中如“狗狗日?!薄ⅰ八囆g繪畫”便是平臺所使用的用戶特征、物料特征、情景特征。

此外,平臺內部還有不對C端公開的細化標簽,比如“狗狗日?!钡摹熬┌汀迸c“藏獒”便會被推送到不同用戶界面處。平臺基于這些物料特征為物料進行預訓練、打標,以供后續召回、排序等環節的使用。

2. 召回模型:Item-CF算法與雙塔模型

小紅書主要采用Item-CF算法類似的邏輯,然而這一算法普遍存在以下表征:

  • 核心問題:如何計算物料與物料之間、用戶與用戶之間的相似度。
  • 優點:算法邏輯較簡單,容易實現,同時又有不錯的效果,具備一定的個性化。
  • 缺點:與規則召回缺點方向一致,冷啟動問題明顯,存在一定的馬太效應,頭部熱門問題易與其他產生關聯。

為解決用戶冷啟動問題,以小紅書為代表的內容消費平臺采用雙塔模型的思想,在召回階段中往往會增加一路使用內容多模態表征的i2i召回進行優化,這路召回由于只使用了純內容的特征,和老物品便可以公平比較,不會產生因為新物品后驗行為少而導致無法被召回的問題,近期引入了LLM對i2i召回進行優化。

在現有的多模態i2i召回方法,在文本側一般都是用一個BERT經過預訓練后生成embedding然后基于embedding的相似度來進行召回,但是這樣可能也會存在一些問題:

  • BERT表征能力不足。僅使用Bert生成的embedding只能代表文本的語義信息,和下游推薦任務的目標存在一定的不一致
  • 標簽類別信息重點程度不足。一篇圖文筆記的標簽和類別往往代表他的中心思想,對于確定兩個筆記是否相關至關重要,但現有的Bert方法只是將標簽和類別視為內容的一個組成部分。

小紅書發現使用筆記內容生成標簽和類別的過程和生成筆記的embedding十分類似,都是講筆記的關鍵信息壓縮成有限的內容,因此引入一個生成標簽和類別的任務可能會提升最終embedding的質量,因此設計了3個方法:

  1. 筆記壓縮prompt構建
  2. 生成式對比學習(Generative-Contrastive Learning)
  3. 協同監督微調(Collaborative Supervised Fine-Tuning)

筆記壓縮prompt構建用來定義模型在訓練時的輸入,生成式對比學習和協同監督微調分別對應兩個預訓練任務,前者引入了推薦中的協同過濾信號作為標簽進行對比學習來訓練更好的文本表征,后者其實就是根據筆記內容來生成對應的標簽和類別,以此強化embedding的可用性,結果表明將LLM引入i2i推薦任務可以提高推薦性能和用戶體驗。

此外,還觀察到單日對新筆記的評論數量顯著增加了3.58%。這表明LLM的引入有利于冷啟動。NoteLLM最終推全上線。

3. 排序策略

3.1. 粗排策略

行業內普遍采用基于模型的粗排策略。使用DNN模型構建CTR預估模型,并進行離線AUC指標評估與線上AB Test測試。

3.2. 精排策略

在內容推薦場景,對于內容推薦平臺如小紅書等來說其核心的業務指標是DAU、互動率。小紅書采用GBDT+Sparse D&W的模型算法通過構建click、hide、like、fav、comment、share、follow等模型特征來進行模型訓練,并輸出訓練結果,即CES評分=點贊數×1分+收藏數×1分+評論數×4分+轉發數×4分+關注數×8分。

3.3. 重排策略

3.3.1. 全局最優的排序策略

一個界面里有四個帖子,很明顯小紅書采用的是序列優化策略,會根據我點擊物料的行為進行排序,最終排出我最喜歡的東西,你會發現實習求職多數在上面,大多在左上角哦!

3.3.2. 基于用戶體驗的策略調整

一個界面里有四個帖子,很明顯小紅書采用的是全局最優策略,在這一策略中,我們發現圖片、品類、作者都是各不相同的,品類也各有不同。但是由于作者酷愛小貓與苦尋實習,所以每次的推薦頁面均有小貓與實習職業相關內容。

3.3.3. 適當的流量調控

流量調控策略只有一種,即直接在重排層針對這部分物料進行相應權重的調整,例如小紅書的蒲公英平臺、特定活動的流量扶持計劃便是流量調控的一種表現形式。

本文由 @策略產品經理規劃 原創發布于人人都是產品經理。未經作者許可,禁止轉載

題圖來自Unsplash,基于CC0協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!