關于內容分發feed流的思考與總結

2 評論 10656 瀏覽 138 收藏 8 分鐘

編輯導語:在現在這個內容為王的時代,傳統的內容信息流已經呈現出了很大的弊端,無法再滿足用戶高效獲取特定內容的需求了,這時feed流就應運而生。Feed流,作為一種個性化的內容推薦方式,也將在這個時代發揮出它更大的價值。本文作者關于內容分發feed流,分享了一些思考與總結。

過去一年一直在做內容分發,昨天看了張小龍關于微信十年的分享,里面提到了視頻號做分發的過程,結合自己的理解,對過去一年的分發思考做一個總結。

但凡做過分發的人都知道,分發是由候選集+排序兩部分構成。

一、候選集是你如何構建分發的內容池

候選集的范圍通常被產品的形態所限定,例如關注候選集,就是我所有關注用戶的內容的集合。推薦候選集,就是所有站內內容的集合(有的產品也可以突破站內,例如搜索引擎)。

當內容量級比較大的時候,如果進行全量計算,效率是很低的,所以如何通過科學的方式高效的構建和定義候選集范圍,是產品經理需要思考的問題,通常的做法有:

1. 時間聚類

只取一段時間內的作品(例如最近3個月)這樣可以極大的減少數據量,并且如果是社區型產品,限定時間還有利于作者的正向激勵,把更多的曝光機會留給近期的活躍用戶和新用戶,從而實現優質創作者的挖掘、激勵閉環。

2. 標簽聚類

通過人工或機器的方式,給內容打上標簽,通過同類標簽進行聚類。而標簽的顆粒度和結構設計(樹狀結構或網狀結構),決定了聚類的范圍和靈活度。

最簡單的結構就是類似新聞網站的層級分類結構,例如新浪網的體育、軍事、娛樂(韓娛、好萊塢、綜藝)、財經等。當用戶之前看過一個或多個分類的情況下,用當前分類的內容構建分發候選集。

3. 協同聚類

可以是人與人的協同(包括關系協同,例如我關注的人看過的內容)也可以是物物協同。例如很多電商網站,買了這個的人還買了xx,就是這種方式的應用。

二、排序是解決候選集內容的顯示順序問題

主要做法有:

1. 時間排序

按照發布內容先后順序排列。

2. 熱度排序

按照內容的熱度倒序排列,熱度的定義根據產品的不同而不同,但通常用內容的互動率來定義,同時還要兼顧新內容的曝光機會(通常用時間衰減來實現)。

主要熱度排序算法有hacker news的排序、Reddit的排序等,至于如何選擇,需要基于產品自身的特點判斷。例如新聞網站就需要強時間衰減的算法,知識類網站需要得票數超過一定閾值平滑過渡,讓更多新內容能夠被曝光,使用Reddit算法更合適。

3. 模型排序

抽象各個維度的factor,灌入模型自動計算一個內容對于各個factor的綜合權重,最后得出排序,模型排序通常是黑盒且不可解釋的,通常factor越多、可用數據行為越多,模型預測的準確度越高。

維度包括但不限于:

  • 用戶維度:用戶的性別、年齡、家鄉、學歷、興趣等;
  • 關系維度:好友關系、關注關系、臨時關系;
  • 內容維度:基礎標簽(例如音樂作品的歌曲名、藝術家等)、分類標簽(基于人工或算法打的標簽,例如曲風、節奏等);
  • 行為維度:互動(贊擴評)、點擊、完播等等。

三、一些具體的case舉例

1. Case1:某內容平臺日內容量1w,良品率0.1%

產品形態:日榜形式或單排時間流。

原因:可分發作品量級太少(日可分發作品=1w*0.1%=10),即使積累3個月也只有幾百量級且都是精品,無復雜計算的必要性。

2. Case2:關注流排序(人均關注人數*一段時間內內容發布率*人均發布條數? ≈?人均瀏覽條數)

時間排序即可,為降低個別用戶頻繁發布對于瀏覽者體驗的影響以及對于其他用戶曝光的影響,可以在時間流的基礎上追加合并的邏輯。

3. Case3:關注流排序(人均關注人數*一段時間內內容發布率*人均發布條數? >> 人均瀏覽條數)

出現了內容過載的情況,可以采用熱度或親密度等排序算法。

4. Case4:某內容采買平臺,日內容量10w

1)候選集準備

通過可以定義內容標準的程序化維度對內容進行初篩,篩掉40%的劣質內容減少人工工作量(以一個人30s審核一個內容為例,500-1000個/人),規則取決于內容本身,如果是音頻,可以是時長、有效人聲比例等。

利用現有的格式化信息構建基礎標簽,例如音頻歌曲名、演奏者、年代等。通過一些技術手段協助人工打一些非標準化標簽,例如人聲的性別識別、文本信息的nlp識別等。

2)排序

  1. 初期可采用熱度排序的方式保證feed流的質量(這么大數據量級作品,純時間序質量會很差),同時積累用戶行為數據;
  2. 用固定曝光位的方式或者賽馬的方式(主要取決于可用流量的測算)完成新內容的冷啟動,保證內容能夠循環起來;
  3. 用探索的方式完成用戶的興趣識別,避免蠶房效應;
  4. 隨著內容數據和行為數據的積累,逐步由熱度排序向模型排序過渡。

四、總結

以上的羅列可以囊獲大部分分發場景,但分發的核心并不是這一套邏輯框架,難點在于對產品本身內容(質量、數量)、資源(人力投入、采買成本投入)、價值主張(中心化、去中心化)等綜合評判的結果,這些因素都是動態變化的,所以分發的策略要隨之變化。

以上只粗糙的列舉了幾種case,具體的情況會復雜的多,需要結合產品的實際數據情況和實驗表現不斷調優,找到最適合的方式。

 

作者:產品經理與哲學三觀;微信公眾號:產品經理與哲學三觀

本文由 @產品經理與哲學三觀原創發布于人人都是產品經理 ,未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 優秀

    回復
    1. 感謝,有興趣可以搜索公眾號「產品經理與哲學三觀」,更多文章分享交流~

      回復