如何避免內容重復推薦?聊聊去重服務

4 評論 11086 瀏覽 54 收藏 8 分鐘

“請不要再給我推一樣的內容了,拜托?!痹诿鎸ζ脚_一直跟你推薦同樣的內容時,你是否是一樣的想法。這樣情況是否有改善的方法?本文作者從這一問題出發,對去重服務進行了分析探討。

如果一個APP一直給你推薦同樣的東西,就像一個人在你面前絮絮叨叨同一件事情,你的心情想必非常糟糕。

去重服務在資訊APP中是一項基礎服務,PUSH、圖文、視頻、直播等內容業務,甚至是作者編輯后臺都會需要使用。去重服務細拆開其實是很復雜的,也容易出現“眾口難調”的問題,因為重復的類型可能有:不同信息載體的重復(文章和文章、視頻和文章等)、不同場景的重復(feed流、正文頁等)、信息有無增量的重復(高度重復和一般相似等)……

  1. 無信息增量:包含的內容是同樣的,用戶從該內容中無法獲得差異化的信息和體驗。
  2. 有信息增量:包含的內容有部分相同或相似,即使之前已有相關的閱讀,但用戶從該內容中仍可以獲得差異化的信息和體驗。

對于第一種情況,是絕對去重,即將高度一致的內容過濾掉,“多選一”。關鍵點是“如何挑出原創或質量更高的內容”,文章質量、源質量、發布時間、原創度可以幫上忙。所謂“道高一丈魔高一尺”,上網搜關鍵詞“躲避消重教學”,你會發現你要做的工作還有很多。

(圖片來自網絡)

另外直播形式下的專題或機器批量生產的標題,不同內容的標題可能一模一樣,為了避免誤傷太多內容,需要細化去研究內容的特性。

對于去重服務,定義標準很重要,拿圖片重復來說:

(1)背景、人物動作完全相同的圖片

(2)同一現場/背景,同一機位截圖,人物相同(人物動作可能不同)


(3)某圖片的局部截圖(至少半圖及半圖以上)


以上三組圖片,在我們的認知里一般屬于重復,基于以上的定義,我們再看幾組圖片:

(娛樂類)同一綜藝節目,同一機位截圖,但人物不同:


(游戲類)同一款游戲,不同背景截圖:


(游戲類)同一游戲背景截圖,游戲人物不同:


(母嬰類)新生寶寶圖:


如果按先前三組的定義,以上圖片屬于重復,但從我們的日常體驗能知道,它們是不一樣的內容(只是同個系列),所以,區分分類(category)做細化的定義很有必要,只有這樣機器才能按照人的期望學習并輸出可用的結果。

除了內容,圖片重復的形式也要定義,如在feed流里:


對于有信息增量的情況,處理方式要精細得多,面對的是“怎么推”的問題??梢钥紤]“分層定義->分場景限制”的推薦策略。定義文章相似,能用來輔助判斷的元素有:

  1. 標題
  2. 摘要
  3. 圖片
  4. 正文
  5. 類別

視頻還有物理時長、音頻、字幕等。

我們先來看看標題相似(內容相似或體感相似)的case:標題主體或關鍵詞不同或模糊不清,強調的主旨相同,用詞或長或短;同一事件不同角度:


其中,容易被機器識別為相似從而產生badcase(會降低內容的分發效率),產品汪需要留意一下:

  1. 不同主體同一方面
  2. 同一主體的不同方面
  3. 強本地屬性的類似事件
  4. 同一領域中關聯度較高的事件
  5. 同一領域(如星座、育兒)實體或關鍵詞相似,但事件面不同
  6. 同屬一賽事(如世界杯),不同賽事
  7. 體育球星、會議與政策之間等不同面

當NLP能較準確識別相似內容時,分場景限制的策略可以從哪些維度入手?

  1. 時間間隔去重:如操作時間在12小時之內,做嚴格的相似過濾邏輯
  2. 刷數去重:如鄰近50刷,做嚴格的相似過濾邏輯
  3. 事件去重:如同一事件內容不得黏連
  4. POI(興趣點)/Keyword(關鍵詞)去重:如同一刷同一個POI不得超過3個,重排打散
  5. 源去重:如同一刷同一個源的文章不得超過1篇

還可以對不同用戶(如投訴過重復老舊的用戶、新老用戶)做不同程度的控制;也可以根據相似度將相似分層,做不同程度的控制;也可根據事件的熱度,做不同程度的控制;也可以根據用戶的興趣的濃度做不同程度的控制。

去重力度需要產品汪把控,而且去重工作中還有很多內容需要確認:比較的對象、信息載體、時間長短、數據來源等等。沒有最佳方案,本文旨在引發思考且補全思路,只有不斷測試,才能找到適合自己產品的組合方案。

 

本文由 @張小喵Miu 原創發布于人人都是產品經理,未經作者許可,禁止轉載。

題圖來自Unsplash,基于CC0協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 很受用 感謝

    來自北京 回復
  2. 沒信息量啊

    回復
    1. 還好呀,感覺挺有用的

      來自北京 回復
    2. 請問是推薦業務的小伙伴嗎?

      來自浙江 回復