用戶行為洞察,讓推薦算法精準到爆!
推薦算法”是目前比較火的個性化推薦,常用于互聯網電子商務、社交媒體、在線視頻和音樂服務等領域。這些算法通過分析用戶的歷史行為數據(如購買歷史、瀏覽記錄、評分和搜索習慣等),來預測用戶可能感興趣的產品或內容,并據此提供個性化推薦。
機器學習的一般思路“通過對一部分數據進行學習,對另外一些數據進行預測與判斷”。而推薦算法是推薦系統中的核心和關鍵,推薦算法的選擇決定了推薦場景、系統性能。
01 常見的推薦場景有三種
1) 個性化推薦。
例如,線上商城的“千人千面”、內容型App的信息流,push信息流等。
2) 熱門推薦。
例如,視頻App上的“熱播”、電商網站上的“熱榜”。
3) 相關推薦。
例如,線上商城的“看了又看”“買了還買”,視頻App上的“相關電影”。
“Better Algorithm or More Data(更好的算法還是更多的數據)?”很多時候,能夠快速改善模型性能的不是調優參數,而是糾正其使用的數據。
業界廣泛流傳著一句話:“數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已?!?
下圖是推薦算法建模的簡化流程。
簡單來說,推薦算法建模主要包括輸入、訓練、輸出三個階段。
- 輸入階段需要采集原始數據,通過特征工程處理成可供模型訓練的特征。
- 訓練階段需要選擇合適的推薦算法訓練特征。
- 輸出階段需要將用戶特征灌入模型,獲得用戶的推薦結果。
數據常被比作原材料,而推薦算法則是加工廠,原材料的質量、數量直接決定了訓練結果的質量。
數據的劃分一般有三種方式
1) 根據產生的數據源,可以劃分為用戶行為、用戶屬性、社會網絡、用戶即時場景(上下文)、標的物(物品)屬性5類;
2) 根據數據類型,可以劃分為數值類、文本類、時間類、圖片類、音視頻類等。
3) 根據數據結構,可以劃分為結構化數據、半結構化數據、非結構化數據等。
在推薦系統中,數據通常會根據產生的數據源來劃分
1) 用戶行為數據。
用戶在產品上的各種操作,如搜索、瀏覽、收藏、評論、分享、加購物車、支付等一切操作行為。行為數據真實還原了用戶的使用場景,反映了用戶在該場景下的興趣狀態,分析這類數據可以獲得關于用戶興趣偏好的深刻洞察。
根據用戶的行為是否直接表明了用戶對標的物的興趣偏好,用戶行為數據可以分為顯式行為和隱式行為。顯式行為是直接展示用戶興趣的行為,如評分。隱式行為則間接反映出用戶的興趣,包括瀏覽、點擊、收藏等。
2) 用戶屬性數據。
用戶人口統計學數據,即用戶自身的屬性,比如性別、年齡、學歷、地域、收入等。此類數據通常穩定不變,其中只有年齡會緩慢變化。
3) 社會網絡數據。
用戶社會關系數據,包含社會網絡數據,比如用戶的家庭朋友關系,聯系人,社交圈等等。此類數據在社交類產品的推薦場景中尤為重要,比如推薦好友閱讀書籍、推薦好友點贊視頻等。這部分數據通常需要收集用戶手機信息,或者聯通手機其它APP數據分析。
4) 用戶即時場景(上下文)數據。
用戶對標的物操作時所處的時間、空間、狀態的總稱。比如當前時間、當前天氣、當前地理位置等,反饋了用戶的決策環境。比如外賣平臺會基于時間、配送地址推薦,早上8點會推薦附近的早餐、晚上8點則推薦附近的晚餐。最常見是用在PUSH即時推送上,場景化提升用戶轉化率。
5) 標物(物品)屬性數據。
物品自身包含很多特征和屬性,物品屬性數據結合用戶行為數據后,可以將物品的屬性按照某種權重賦予用戶,構建用戶的興趣偏好,也就是給用戶打興趣標簽。
不難發現,用戶行為數據是最重要、最容易收集、最多數量的一類數據,通過和物品屬性數據結合可以構造興趣標簽,這在設計推薦系統中至關重要。
此外,隨著互聯網基礎建設的日趨成熟,基于“T+1”(指當天利用前天之前的數據,計算用戶的推薦結果,每天更新一次,或“離線計算”的推薦效率不能滿足企業需求,實時推薦成為主流。
如何利用洞察數據,影響核心用戶行為?
一是優化基于商品標簽的推薦規則,提升商品搭配度和商品相似度。
舉例,當我們發現用戶對水杯類商品的瀏覽次數大幅增加卻遲遲沒有下單時,就可以初步判斷該用戶有購買水杯類商品的需求卻沒有找到理想的款式。
于是,通過商品標簽的推送規則,我們就可以在用戶的瀏覽頁推送款式、功能、價格等商品標簽相近的水杯,以縮減用戶的搜索時間,提升商品成交率。
二是優化基于用戶標簽的推薦規則,提升對用戶偏好判斷的準確性。
通過埋點數據采集用戶瀏覽、收藏、加入購物車等用戶行為數據,更準確地理解用戶需求。再通過后臺集成的用戶標簽體系,為用戶推薦更加多樣化的商品。
舉例,一個用戶有“20~25歲”“女性”“白領階層”“單身”標簽,最近購買某品牌的連衣裙。
——那么具有相似標簽的用戶群體,就可以初步推斷她們也有很大的可能性在該時間段產生相似的需求,并基于此做出相應的推薦,以喚醒用戶潛在的消費需求,提升GMV。
在推薦系統中,數據和算法同樣重要。數據和特征決定了推薦系統的上限,高質量的數據和特征可以提升推薦系統的性能,而用戶行為數據更是起著舉足輕重的作用。
利用數據和算法進行的機器學習分類模型是應用特別廣泛的模型,且應用的場景也比較廣泛。
02 提升用戶價值,全面提升客單價,需要對客戶購物行為進行高潛預測
為了實現客單價值最大化,在預測客戶購買行為之前,我們需要分析三個問題:
1) 最好的客戶是誰?想判斷下一個階段最有可能購買商品的客戶,首先需要對這類客戶進行定義。
2) 最好的客戶有什么特征?進行客戶價值分層,識別高價值客戶的共性特征。
3) 如何獲得更多的這類客戶?提升銷售對高價值客戶的關注度,并通過用戶流轉地圖或者會員轉移矩陣,將黏性較差的低價值客戶轉化為中價值客戶,將中價值客戶培養成高價值客戶,以此推動GMV的提升,實現企業業績的提升。這是我們的最終目標。
——我們需要建立會員高潛預測模型(即高可能性到店消費),然后需要讓業務人員能夠理解預測模型的原理和意義。
建立高潛預測模型,會有如下三個步驟:
第一步:商業洞察驅動特征構造
利用商業洞察構建高價值客戶的初始特征體系。比如,RFM模型經常被用于該步驟的特征構造,分析客戶最近一次的購買時間(Recency)、購買頻率(Frequency)、消費金額(Monetary)。同時還可以從其他角度出發,比如在食品行業,通常會從會員是否為儲值會員、是否曾經退款、購買不同口味商品的數量、購買不同品類商品的數量、購買新品的數量等角度進行特征構造。
第二步:精準算法預測購買行為
我們有了明確的預測目標,將目標定為“預測下個季度全量會員購買的可能性”,基于歷史數據,運用算法對全量會員進行綜合打分。我們可以選擇LR(Logistic Regression,邏輯回歸)和LightGBM等分類模型進行比較,分析客戶未來的購買可能性與預測變量的相關性,分析重要變量的影響權重,構建出最終的預測模型。
第三步:刻畫用戶畫像和用戶行為預測模型
在上百個特征中,AI模型能幫助我們找到20多個核心特征,進而形成消費可能性高低分群。例如,高價值會員的核心特征:曾是或者現在仍是儲值會員、RFM、基礎特征(性別)、品類相關、促銷相關等特征。儲值會員特征對未來哪些客戶會到店消費的預測力最強,其次是最近購買間隔。
高價值客戶核心特征表(部分)
所以在上圖中建立預測模型的過程中,所需的數據有交易數據和會員數據兩大類。
1)我們基于原始數據,構建出一張大寬表,其中70%的數據作為模型的訓練數據集,剩余30%則作為模型的驗證數據集
2)模型訓練的歷史數據經過編碼、特征降維等數據預處理之后,植入智能算法進行訓練。獲得初始模型后,再將預留的30%驗證數據集代入模型,檢驗模型的準確性和有效性,同時生成驗證報告[ROC曲線(接受者操作特征曲線)]。
3)針對未來到店購買的人群,我們會使用最新的數據對會員下個季度的購買可能性進行預測打分,識別下個階段購買可能性最高的會員。
根據特征因子與模型,結合現有的用戶行為數據,我們可以對全量會員下個階段購買的可能性進行評級與打分。這樣每位會員對應一個預測概率,我們可以按照一定比例切割,進行用戶價值分層。
通過數據分析,我們將0.9分以上的會員雖然只占據全體會員的20%,但覆蓋了50%的GMV,那么我們可將此類會員判定為高價值人群;低于0.1分的會員可判定為低價值人群;而處于中間分值會員可判定為中價值人群
——最終以0.9分和0.1分作為切割點,我們能夠對全量客戶進行有效分群。
如何將數據運用到真實業務場景的用戶分層中呢?
比預測模型更重要的是,理解該模型并運用到實際業務場景中,通過模型對客戶進行評分然后對用戶進行分層,我們就可以得到相應的用戶分層組群。
用戶分層0~4組對應著由高到低的購買概率,0代表購買概率最高的用戶群組,4代表購買概率最低的用戶群組。觀察每個用戶群組的特征數據可知,上次消費距今間隔越短,未來一季度到店的可能性越高,消費頻次、消費金額也與未來到店概率成正相關關系。
同時,對特征因子之間的關聯性進行分析,還可以洞察用戶的其他特征。
例如,上次消費距今越近,購買概率越高;消費頻次越高,購買概率越高;消費的品類數越多,購買概率越高等規律。
通過機器學習預測客戶購買行為,能夠幫助業務人員更精準地識別和定位潛在客戶群體,從而進行個性化營銷,將中低價值人群轉化為高價值人群,為企業帶來更直接的增長!
本文由 @ Sherryyyyy 原創發布于人人都是產品經理。未經作者許可,禁止轉載
題圖來自 Unsplash,基于CC0協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務
基于商品標簽和用戶標簽推薦規則的圖,沒太看懂,求解,謝謝