四個步驟,構建個性推薦產品內容池
文章介紹了通過建大池、粗篩、細篩、精篩,四個步驟搭建內容池的一個過程,與大家分享,希望可以給大家帶來啟發。
個性化推薦產品有三個核心要素:用戶、內容和數據。今天專門分享一下構建內容池方面的一些心得。個性化推薦產品的算法是相似的,差別就在于內容上。視頻,商品,新聞,音樂,形態各異,消費方式各異,但構建內容池的思路是相通的。
對于一款個性化推薦產品來說,構建一個好的內容池一般分為四個步驟:大池->粗篩->細篩->精篩。構建過程和使用過程剛好互逆:優先召回精篩池,隨后才可能是細篩、粗篩、大池。
下面以構建一個視頻類個性化推薦產品為例,分別詳細說明。
建大池
首當其沖就是粗略規劃好自己的內容的原始來源。要干推薦這活,首先要問自己:內容哪里來?內容原始來源一般有三種:生,買,借。
第一種,生。
也就是自食其力,鼓勵用戶在自己產品平臺上創建內容,俗稱UGC,比如快手就屬于這種,以及自己組建編輯團隊創建內容,大多數媒體型網站都屬于這類,俗稱PGC。這一類內容都是自己的,算是站內資源。如果站內資源較為豐富的話,那就好辦了。當站內資源都足夠優質時,則可以直接作為內容池,但實際上大部分網站的內容都有不少雜質,尤其是UGC內容。
從站內資源中找到符合要求的內容,不外乎兩個思路。一個是做減法;一個是做加法。做減法就是找那少部分不入流的將其去掉,適合大部分內容都是優質的情況;做加法就是從雞群中找立鶴。什么樣的內容會是好內容?通常有幾種:
- 經得起時間檢驗的內容,通常是專業編輯們過目之后的內容,比如:各個網站的首頁、頻道首頁、專題等
- 數據效果好的內容,比如:推薦/搜索模塊點擊量、點擊率較高的(好壞的衡量指標根據產品目標而定,可以是點擊率、UP值等)
- 可信任的內容源產生的內容,比如:視頻網站的優質PGC
第二種,買。
通過公司之間的合作,得到好的內容,例如淘寶的商品被推薦在微博上。這個多是商業合作,此處不講。
第三種,借。
站外抓取這件事是一個風險極高的事。第一個就是版權問題,當然可以通過避風港原則來規避這一點;第二個就是技術問題,如一旦抓取目標網站頁面結構變化,就影響抓取的效果,頁面轉碼以統一成自己平臺的風格;第三個是基因問題,某個站的內容已有一定的基因,是否適合自己的平臺,一股腦放出去可能是有違和感。那為什么這么多風險,我們還是建議要“借”呢?高風險,高收益嘛,你懂的。
當拿到初始化的內容后,推薦的大池就完成了。
粗篩池
我們已經“警告”過,構建大池,勢必會引入一些雜質。雜質是沒有資格在一個應用內流轉的。我們所說的雜質包含:
- 背離產品價值觀的,如低俗擦邊球,色情的;
- 干擾用戶正常消費的,如騙點擊內容,垃圾內容;
- 威脅平臺存活的,如政治類內容。
構建粗篩池,就是從大池中將這些沒有資格的內容分揀出來扔掉,同時進行初步的質量評價。
識別這些雜質,一般是機器+人工的模式。我們可以根據內容本身、內容提供商、抓取源等維度進一步對內容池去噪。
對內容質量打分,主要就是構建一個打分模型,利用相關特征擬合一個分數。對于一個視頻網站,可以用到的特征有:內容的發布時間、視頻長度、視頻熱度、非廣告/政治敏感/色情/黑名單、標題質量,以及視頻的歷史表現,如點擊率、點擊量、停留時長等。
對內容提供者打分方法類似,主要區別在于特征,對于視頻應用來說,可能有:上傳者歷史視頻的播放量、點擊率、播放完成率、贊/踩等;上傳者的等級、活躍度、社會影響力等。
最終,根據內容質量分數和內容上傳者分數,就建立了一個內容池優選模型,對已有的視頻做一個排序,其中低質和劣質的內容可以直接過濾掉。
細篩池
細篩池是在粗篩池之上,結合具體的推薦場景和業務目標,進行一些人為干預:人工調權、調整多樣性等。
先說人工調權,需要首先增加一個字段,專門用于設置人工權重。大家不要覺得一提到人工調權就有點“拿不出手”,其實人工權重是必不可少的,某些信息無法通過自有產品數據及時反饋到當前內容上來,如上傳者是微博上的KOL,或是視頻網站的PGC,這些站外信息雖然人知道,但是沒有數據就無法讓機器知道,這樣就可以通過人工對其調權,以此將其反應到自己的內容池中。
再說多樣性。內容池在各個主體上分布一定是不均衡的,某些熱門的主題會內容較多,而某些冷門的主題會內容較少。這也需要人工干預多樣性,適當幫助補充一些冷門主題的內容池。
精篩池
內容池構建機制到目前,已經可以上線使用了。但是這其中無論是大池、粗篩池、細篩池,所依賴的模型還是離線構建的,調整起來有一定的延遲,在實時場景下我們應該考慮更及時的動態篩選。
因為我們要關心很多諸如這樣的問題:當內容池上線被用戶看到后,到底效果如何?低效的如何實時被淘汰?為了解決這些問題,所以最后設置了精篩池這個環節。
這需要采集實時的數據,具體流程如下:
結語
曾有大牛說過,推薦的影響要素中,產品形態(可以理解成UI/UE)占40%、數據30%、領域知識20%、算法10%。這里數據就包含內容池。
實戰當中,我發現內容池的重要性更是超過預期。在之前做視頻Feed的過程中,每一次播放量的跨越,幾乎都是內容池的功勞。如用CF方法對內容池進行擴量、內容池優選模型、內容池準入準出規則的調整等。所以推薦產品,尤其是內容產品,建議在內容池這塊花大力氣。
本文由 @吳迎賓 原創發布于人人都是產品經理。未經許可,禁止轉載。
怎么理解這一句:
「推薦的影響要素中,產品形態(可以理解成UI/UE)占40%、數據30%、領域知識20%、算法10%。」
感謝分享,想請教下,從細篩是怎么到精篩的呢?一個內容只會在一個池子里么?如果是從精篩開始用,為啥是在細篩環節補充內容呢?期待回答,感謝 ??
感覺文章沒有寫完,就文章講到的內容與”個性推薦”沒太大的關系。
請問內容池是干嘛的?用在什么階段?