推薦策略產品經理實操(一):內容庫游戲標簽特征
編輯導讀:本文作者依據工作中項目實踐的所思所想,結合案例等分享了推薦系統設計中內容庫游戲標簽的制作流程,并對過程中存在的一些問題進行了梳理分析,與大家分享。希望能給大家作為參考,并在工作中產生助益。
很幸運,剛畢業就做了推薦策略產品經理,更幸運的是,公司的推薦系統剛剛起步自己就參與了進去,算是一個從0-1的過程。以下實操項目中出現的數據都進行了處理,與實際項目數據不一樣。
(鑒于保密問題,以下所有數據均為處理過的數據,非真實數據)
01 項目背景
目前我們的內容庫中只有不到20%的游戲有相應的標簽,且均為爬蟲標簽,覆蓋率低且臟數據較多,重復標簽較多,同類型標簽有很多種名稱,沒有固定的標準和規范,需要盡快建立自己的標簽庫和標簽標準,進一步優化推薦;
02 項目過程
1. 標準制定與階段優化
之前的爬蟲標簽分為一級標簽和二級標簽,但因為游戲這一物品的特殊性,游戲的標簽不應該分級標記,需要多種標記方式,因此我們在進行游戲標簽標準制定的時候,去掉了分級標簽,而是通過游戲分類、玩法、題材、風格等標簽類對游戲進行標簽匹配,一個游戲對應1到多個標簽,且各個標簽之間沒有父級關系,屬于并存關系;
1)一個游戲至少N+1個標簽(也存在少數游戲不夠的情況),1個一級標簽,N個二級標簽,1個核心標簽;
- 一級標簽和二級標簽并不是父類標簽的關系,是相互補充的關系;
- 后期模型訓練增加1個核心標簽(基本上都是一級標簽);
2)標記標簽順序:80%是從游戲DAU降序在標記,20%是新游戲
2. 數據導入與字段新增
- 歷時3個月,運營標記標簽覆蓋率提升了65%左右,且均按照制定的標準執行;
- 從運營標記標簽達到一定量級時,就協助BI大數據的同學進行字段新增以及內容導入工作;
- 最后確定3個字段:游戲標簽/游戲類別/核心標簽;
3. 離線訓練與結果輸出
覆蓋率達到一定范圍后,可以著手進行離線模型訓練,驗證效果。目前進行效果驗證的主要方法就是對比離線AUC。
1)將測試集與訓練集經過一定比例進行隨機拆分獲得;
2)通過增加不同的字段進行訓練:
- 單獨添加三個特征時,游戲標簽的AUC提升最高,游戲類目提升次之,核心標簽沒有提升反而數據存在下降;
- 同時添加三個特征時,訓練效果最好,離線AUC增長3%左右;
- 去除爬蟲標簽特征時,數據都有微小的下降,但下降非常小,可以忽略;
4. AB測試與結果閉環
基于離線數據,進行線上AB測試,實驗人數30萬,實驗時間范圍2周。實驗結果:
- 人均游戲時長增加2.5%,次留增加1%;
- 推薦頁面人均點擊次數提升7%,人均新游戲個數提升6%,人均廣告次數提升2%,推薦列表長長尾游戲占比提升;
03 項目復盤
1. 多渠道問題解決
在制作自己的標簽時,我們也并沒有只使用現有的爬蟲標簽,而是對爬蟲標簽進行了策略優化,進行了爬蟲標簽的模糊匹配:
- 游戲包名會因為投放渠道的不同,包名存在后綴不同、一個游戲多個包名的情況,導致爬蟲標簽和游戲包名不能一一對應;
- 用游戲中文名進行模糊匹配,取頻率最高的前三個標簽;
- 進行匹配后,爬蟲標簽覆蓋率增長一倍多;
2. 基礎建設最重要
在最開始0-1的過程一定要多方面考慮,詳細進行計劃,制定的標準一定要全面、合理、精細、便于實施,我們前期標準的制定經歷了很長的時間,一直在打磨標準、不斷的優化完善,推翻重來;這個階段不能怕麻煩,否則后面的階段問題會越來越多;
3. 產品經理是接口
產品經理在項目的每個階段其實都不是最專業的,但卻是不可缺少的角色,需要時刻的注意業務的方向,并幫助各個專業同學厘清自己的業務方向,做一個合格的“接口”,順利連通每個環節,確保業務不斷前進;
以上就是該項目的一些過程記錄,如果有感興趣的同學,歡迎私聊;
加油,打工人!
本文由 @王珂 原創發布于人人都是產品經理,未經作者許可,禁止轉載。
題圖來自Unsplash,基于CC0協議。
離線AUC怎么理解呢
個人理解,上線之前要先明確離線收益,離線有了收益,才能再線上驗證AB效果
核心標簽和游戲標簽有什么區別呢?
我也想
我也想加個好友
作者你好,我也有做推薦相關的項目,想請問下,能不能加個好友一起交流學習下