淺析內容推薦體系如何構建

6 評論 22330 瀏覽 272 收藏 15 分鐘

所謂的“內容推薦”,把主語謂語賓語補充完整之后就是“系統把內容推薦給用戶”,那推薦系統如何構建,說白了就是要解決“什么樣的內容推薦給什么樣的用戶”的問題以及“如何推”的問題。

針對引文中的兩個問題,可以總結為以下三個點

  1. 我們推什么樣的內容——what
  2. 我們推給什么樣的用戶——who
  3. 內容如何推薦給用戶——how

一、內容篇

說到內容,先不著急解決“推什么”的問題,在這之前,我們首先要分析我們擁有什么內容,這些內容是如何產生的。

目前互聯網內容信息的載體主要分為以下幾種:文字、圖片、音頻、視頻。而生產這些內容的用戶大體又可分為兩種,一種是專業從事內容生產的PGC用戶,一個PGC用戶的背后往往由一個專業的團隊組成,他們分工明確,撰寫、拍攝、錄制、后期、包括后期的市場宣傳都有專門的人員從事,此類用戶的生產的內容質量往往比較高。另一種是普通的UGC生產用戶,此類用戶無固定生產內容的習慣,往往是三天打魚兩天曬網,其生產的內容質量也較低。

根據平臺定位不同,其擁有的內容資源也不同,生產內容的用戶構成也不盡相同。根據上述列出的幾種內容類型和生產用戶類型,可以組合出“圖片+PGC”、“文字、圖片+PGC”、“視頻+PGC”、“視頻+UGC”….等多種組合類型。結合自身平臺業務線,找出內容數量靠前的幾種組合,也就是我們所擁有的內容優勢所在。

當我們分析出我們擁有什么以后,接下來所要解決的問題就是如何篩選優質內容,以及如何進行內容信息識別和聚類,對于優質內容我們要在推薦策略里基于更多展現曝光

關于優質內容的篩選,主要分為“機器篩選”和“人工篩選”兩種方式,而實際操作中,往往是二者的結合,因為單純機器篩選其客觀性太強,部分優質內容機器無法識別(對于上述四種內容信息的載體,其展現形式的表現力:文本<圖片=音頻<視頻,其機器對內容識別難易度恰好相反:文本>圖片=音頻>視頻)而純人工篩選又會受審美差異等主觀因素的影響難易做到公平公正。

“人工篩選”的方式無需多說,而對于機器篩選優質內容,在篩選之前要做好充分的數據收集及上報,只有數據維度足夠充分,才能為篩選做保證。拿音樂app軟件舉例“如何評判一首普通歌曲的質量好壞”如下圖所示:

除了歌曲本身作為內容的形式之外,更是鏈接“內容生產者”和“內容消費者”之間的紐帶,所以數據的收集除了歌曲本身的屬性之外(例如:音頻長度、kpbs、格式、文件大小….等等)之外,也要從生產者的用戶屬性(PGC/UGC,年齡,地域,性別,個人愛好….等等)、發布行為(上傳歌曲的時間、上傳歌曲的頻次….等等)和消費者的用戶屬性(性別、年齡、職業、地域、注冊時間….等等)、瀏覽行為(點擊、播放、重復播放次數)等多維度評價一首歌曲的質量。不同app對于內容的質量評估數據指標不同,需結合實際情況具體分析,此處不再一一詳細列舉各個數據指標。對于歌曲而言,最終要的幾個指標無非是:曝光點擊比、播放完整度、評論、分享、收藏率…等等等等等等

此處對內容質量的動態評級,還可以利用對生產者評級和消費者評級的方式來判斷,各個等級之間有著嚴格的標準劃分(此處不詳述分級的方法,具體情況具體制定),用戶的評級隨自身行為動態調整(等級正反饋、負反饋機制)。不同等級的用戶生產和消費行為,對內容評級的影響不同,越優質的用戶其行為對內容質量的影響越大。

說完內容質量的評級,之后就是對內容的聚類。還拿音樂舉例,音樂本身并無任何分類,對于一首歌曲而言無非是多個音符的連續演奏。我們憑借自己的生活經驗和認知對歌曲進行分門別類:歐美音樂/港臺音樂/內地音樂…、搖滾/流行/藍調…、抒情/狂歡/悲傷….、鋼琴曲/小提琴/吉他曲。此處對內容聚類的方法應遵循“相互獨立、完全窮盡”的原則即不同劃分維度之間要相互獨立,互無交叉,而每個維度里劃分又要盡可能細化到最小的顆粒度。

除了內容聚類的方法,內容的聚類的流程,同樣的,可以采取人工和機器結合的方式,其大體流程如下圖所示:

內容生產者,在上傳內容時,對內容進行分類、設定內容標簽。其內容進入后臺首先按照用戶上傳時的分類進行篩選,之后由審核人員對其標簽進行走查,將無分類的內容進行分類,同時對錯誤分類進行修正(此時所有審核人員的操作結果,系統都應該給生產者發送信息提示其內容被修改,優化上傳流程)。所有人工審核后的內容庫里的內容作為最終對外分發的結果,在前端對外分發。

至此,我們已經完成了對優質內容的篩選和對內容的聚類。那誰來消費我們的內容呢,誰來為我們的內容買單,我們的用戶群是誰,他們來自哪?是男是女?年紀多大?他們是高、是矮,是胖,是瘦?從事什么工作?有什么愛好?他們收入如何?

二、用戶篇(who)

承接上文,說到用戶,繞不開的一個話題就是用戶畫像。要建立推薦系統的用戶畫像,我首先會問自己兩個問題:“我們的用戶是誰?”“他們都喜歡什么?”如果說用戶畫像是對一個人描述,那么第一個問題更像是描述一個人的外在,第二個問題更像是描述一個人的內在。外在對應用戶屬性,內在則對應用戶行為,行為連接內容,從而分析用戶喜好傾向,如下圖所示:

此處數據統計的維度和準確性的重要性不再贅述,左側是用戶屬性,右側是相關的用戶操作行為,所有的操作行為最終都能落地到具體一個內容上(我們在“內容篇”已經講過如何對內容進行分類標識)我們通過看內容分類標識,從而分析用戶的喜好傾向。

這種方法就好比我們寫日記,記流水賬,只要我們把足夠多的信息記錄下來,我們就能足以分析數這個人詳細用戶畫像

例如:2017年5月12日,家住北京,24歲,清華大學畢業的姑娘小倩穿上她的adidas的衣服,開著她的奔馳車,去王府井的一家人均價位在100/位的火鍋店吃火鍋….),只要我們記錄的信息足夠多,足夠精確,對用戶畫像的描述也就越清晰。

在推薦系統里,我們通過用戶畫像需要解決的是用戶喜好傾向的問題,但用戶的喜好傾向不是一成不變的,除了要做到數據的持續收集,在判定用戶興趣時,用戶的短期興趣傾向和長期興趣傾向需要做策略的融合。持續對兩種維度的權重調權,從而得到最優解。

舉例:我是一個喜歡搖滾音樂的用戶,不經意間聽了幾首純音樂,我們并不能一刀切的認為用戶的喜歡傾向由搖滾轉為輕音樂,而是應該記錄下這種行為,在策略里不斷試探嘗試用戶興趣,持續推薦不同內容,從而判定用戶真正興趣。

在推薦系統里,我們通過用戶畫像需要解決的是用戶喜好傾向的問題,但用戶的喜好傾向不是一成不變的,除了要做到數據的持續收集,在判定用戶興趣時,用戶的短期興趣傾向和長期興趣傾向需要做策略的融合。持續對兩種維度的權重調權,從而得到最優解。

舉例:我是一個喜歡搖滾音樂的用戶,不經意間聽了幾首純音樂,我們并不能一刀切的認為用戶的喜歡傾向由搖滾轉為輕音樂,而是應該記錄下這種行為,在策略里不斷試探嘗試用戶興趣,持續推薦不同內容,從而判定用戶真正興趣。

三、推薦篇(how)

解決了物的問題,又解決了人的問題,現在接下來的最后一步就是,我們如何把物交付到人的手中。

在做推薦之前,我們需要做的一件事就是:數據的收集、上報。不同于上述內容質量和用戶畫像的數據統計維度,應用于推薦的數據統計維度更多,是兩者的超集,除此以外,一些操作系統、app版本、網絡環境、用戶操作訪問路徑的分析,漏斗的模型的轉化….等等都與推薦行為息息相關。此處關于數據上報的維度需要針對不同平臺,不同推薦業務,不同場景做具體問題具體分析。

關于一心想求推薦系統算法公式的同學,可以去抱算法工程師大腿了,此處不做詳細羅列,只來聊聊我所理解的推薦的一些原理,畢竟產品經理的數學和算法工程師比起來,基本30分到40分水平….

我把每個用戶想象成一個獨立的點,每個用戶背后都帶有各種各樣的用戶屬性,我們把具有相同屬性的用戶之間建立一條連線,眾多的用戶其彼此間的連線也錯綜復雜,由此形成了一個獨立的用戶面。同樣的原理,把每條內容也想成一個獨立的點,每條內容背后也都帶有各種各樣的內容聚類標識,我們把具有相同類別的內容之間建立一條連線,眾多的內容間的連線也錯綜復雜,由此形成了一個獨立的內容面。

有了“用戶面”和“內容面”的概念以后,我們的每一個用戶之間都彼此產生著聯系,每個內容之間也都彼此產生著聯系,那如何把我們的“用戶面”和“內容面”打通,其實就是所謂的用戶行為。我把用戶行為比做“通道”通道用于連接“用戶面”和“內容面”,每一次用戶行為,都是兩個面之間一次數據的傳輸交流。至此,兩個面之間互相打通,形成了一個三維模型。這個三維模型建立在數據之上,每時每刻任意兩點之間都在進行著數據傳輸,因為彼此間相互聯系,一個用戶的行為可能最終影響周圍多個用戶的結果,類似蝴蝶效應。

說完推薦,還有一點不得不提的就是“a/btest”和“關于a/btest,適中要遵循一個原則,明確目的,保持變量唯一。所有的推薦都是持續的過程,不同的推薦算法需要時間學習矯正,a/btest就是很好的輔助工具和方法,關于如何構建a/btest系統,此處不做詳細說明,只闡述其重要性。

文章純屬個人觀點,只闡述了部分方法論,而沒具體到落地可執行的層面,老鳥可自行略過。

 

作者:黑白鍵,1歲產品經理

本文由 @黑白鍵?原創發布于人人都是產品經理。未經許可,禁止轉載。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 學習了,整體邏輯很棒

    來自北京 回復
  2. 有收獲,給力!

    回復
  3. 整體架子搭的特別好,推薦篇的細節少了點。
    推薦作為生產和消費的鏈接,如何從產品粘性、用戶體驗角度定義出理想態?

    來自北京 回復
  4. 還可以

    來自廣東 回復
  5. 由點到面到網,個人行為影響群體的行為,這個點挺有啟發的。

    來自江西 回復
  6. 學習了,謝謝作者分享

    來自廣東 回復