分析:基于機器學習的個性化推薦系統
本文主要跟講解的是基于機器學習的個性化推薦系統,一起來看看~
需求場景:
- 在獲知用戶潛在的若干個興趣點的情況下,如何快速的捕獲用戶的興趣點,并給予持續的滿足,并形成消費轉化。
- 讓用戶能夠快速的找到有價值的內容。
需求分類:
- 明確:延續性&周期性行為;
- 利用:圍繞用戶興趣點進行推薦;
- 探索:拓展用戶新興趣點進行推薦。
應用場景
電子商務的個性化推薦,個性化廣告、個性化推薦的APP。
業務目標
用戶消費行為的最大化。
衡量標準
- 整體衡量指標:整個產品的的留存時長;
- 局部衡量指標:推薦模塊人均的展現量、點擊量、消費時長、頻道留存率;
- 細節衡量指標:推薦內容的點擊率(CTR)、消費完成度、消費時長。
主要步驟-召回-排序-策略干預
在召回環節,通過召回策略,初選出用戶可能感興趣的內容候,形成一個召回的一個候選集。在排序環節,結合用戶特征,產品環境信息推薦內容特征,使用機器學習的模型算法,對召回后的內容進行經排序,以滿足核心的業務目標。
在策略干預環節,對機器學習形成的排序進行策略干預。例如需要去做多元打散來,以及兼顧其他特定的業務目標等等。
1. 召回環節
推薦模型計算開銷較大,完全依賴模型推薦成本過高,因此需要設計召回策略,從海量的數據中篩選出用于推薦的內容候選集。
- 簡單召回;
- 用戶歷史消費內容相似的內容。
歷史:用戶的興趣有長線的還有即時的興趣,長線興趣即用戶在平臺上過去的一周或者過去的一月一年在平臺上說表現的興趣,即時興趣用戶在今天突然對某個的內容產生了興趣。
相似:在我上一篇的文章中,我們可以通過基于內容的相似,或者基于協同過濾,從這兩面都出發,構成內容候選集。
基于以上的兩個維度,我們可以找到一個用戶歷史內容相似的內容的一個候選集。
(1)基于用戶畫像的匹配
通過用戶畫像對用戶進行細分,去收集每一個細分領域內的關注的熱點是什么,比如:IT行業、24歲、男性、本科、產品汪,你可以收集產品汪喜歡看的內容,也可以售后機24歲、男性這個畫像喜歡看的內容,
基于用戶畫像的推薦,有兩個實體:內容和用戶。需要有一個聯系這兩者的東西,即為標簽。內容轉換為標簽即為內容特征化,用戶則稱為用戶特征化。
(2)排序召回
最新、最熱、最近、最新光顧、人工精選。
(3)規則召回
天氣、近期搜索瀏覽、朋友的購買、同期過往習慣等業務性策略。
2. 排序環節
(1)模型簡介
機器學習本質上來說就是通過已有的數據,進行算法的選擇,并基于算法和數據構建模型,最終對未來進行預測,簡單的來說就是總結過去、預測未來。
什么是模型呢?
一般來說給定自變量的值,通過表達式計算就可達到因變量的值,而在機器學習中給定了自變量和因變量的值,通過機器學習,得到這表達式,也就是模型。
在CV領域,模型可以把一個自變量的輸入,也就是一張圖片,轉化成一個分類。在NLP領域,模型可以把一個自變量的輸入,一段語音,轉化成文字。
而模型當中參數會有無數種組合,而我們則需要從中找到一個最優的一組參數。
(2)模型的構建
確定輸出Y:
期望模型預估的什么,比如:在推薦領域我們想得到的輸出是用戶點擊這個推薦的內容的概率有多大;在預測腫瘤的性質中,希望得到是良性還是惡性;在NLP特征工程對文本進行處理中,我們期望的輸出是一段文本。
確定輸入X(特征):
哪些業務因素會影響我們的結果,比如:在推薦系統中影響用戶最后點擊的可能有 是否與用戶喜愛匹配,內容的整體熱度,當前所處的地理位置,等等;在預測腫瘤是結果,可能有腫瘤的面積、形狀、方向等等。
輸入輸出的關系X﹣Y(算法的選擇):
需要根據我們想要的結果確定相應的模型,一般的結果分為兩類:一類是離散型變量,一類是連續型變量。
- 輸出的如果是離散型變量則是分類問題;
- 輸出的如果是連續性變量則是回歸問題。
比如:預測用戶點擊推送的內容的概率是多大,則是回歸問題,而預測是否點擊,則是分類問題。
- 線性:邏輯回歸(LR)優點解釋性比較強,缺點在變量是非線性關系的時候表現很差;
- 非線性:隨機森林(RF)或梯度提升樹(GBM),優點適應性強,有很好的魯棒性,缺點可解釋性差;
- 深度學習DNN:非線性,優點技術牛逼,表現優異,缺點解釋性更差,對于數據的要求比較高。
(3)訓練模型
基于已知的X和Y,收集推薦的歷史數據,構建訓練集和測試集。為了使我們的訓練效果更好,我們需要根據內容消費行為的完成度進行有效的過濾,拋棄低完成度行為。
在訓練數據集上運行模型(算法)并在測試數據集中測試效果,迭代進行數據模型的修改,進而找到最優參數。
(4)模型的評估
分類算法的評估方式有:精確度、召回率、F1指標、混淆矩陣、ROC曲線、ROC曲線下面的面積。
回歸算法的評估方式有:一般使用的方法有平均方差、絕對誤差、R平方值,而一般產生的結果可能有過擬合、欠擬合。
- 過擬合:算法太符合樣本數據的特征,對于實際產生中的數據特征無法擬合
- 欠擬合:算法不太符合樣本的數據特征
3. 策略干預
平臺出于內容生態和社會責任的考量,像低俗內容的打壓,標題黨、低質內容打壓,重要新聞的置頂、加權、強插,低級別賬號內容降權都是算法本身無法完成,需要進一步對內容進行干預。
- 強插:對于重度投入的頭部內容,不管從運營的角度還是產品的角度都是有實際需求。
- 分類打散:保證多樣性,解決某種情況下,一個分類下的內容都被排在前面的問題。通過給每一個分類以一個合適的配比,進行展現。
- 內容配比:保證新內容在推薦結果很注重又一個占比,避免因馬太效應導致沒有用戶數據的內容,無法進行推薦。
本文由 @SincerityY 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
推薦產品踐行者,微信18271263932,希望與你溝通