用戶畫像如何從搭建到應用實戰?
用戶畫像是指根據用戶的基本屬性、用戶偏好、生活習慣、用戶行為等信息而抽象出來的標簽化用戶模型。那么,我們要怎么去應用這些用戶畫像呢?
一、用戶畫像是什么?
用戶畫像是指根據用戶的基本屬性、用戶偏好、生活習慣、用戶行為等信息而抽象出來的標簽化用戶模型。每一個標簽及標簽權重即為用戶的一個向量,一個用戶可以理解為超維空間的多個向量(標簽)的和。即通過數據方式來描述用戶,最終將一個用戶表達為計算機可識別的用戶,以此為基礎實現用戶畫像應用。
二、用戶畫像應用
當一個用戶可以被計算機全面識別理解后,我們就可以用來做精準營銷、個性化推薦等基礎性工作,其作用總體包括:
- 精準營銷:根據用戶特征,針對特定群體,利用短信、郵件、AppPush、App彈窗、微信公眾號、微信群等方式進行營銷。
- 用戶統計:根據用戶的屬性、行為特征對用戶進行分類后,統計不同特征下的用戶數量、分布;分析不同用戶畫像群體的分布特征。
- 個性推薦:以用戶畫像為基礎構建推薦系統、搜索引擎、廣告投放系統,提升轉化率。
- 行業研究:通過用戶畫像分析可以了解行業動態,比如人群消費習慣、消費偏好分析、不同地域品類消費差異分析。
三、用戶畫像如何提供以上能力
用戶畫像有以上應用,到底是怎么應用的呢?我們一個一個解釋一遍。
1. 精準營銷
根據用戶特征,針對特定群體,利用短信、郵件、AppPush、App彈窗、微信群、h5等方式進行營銷。如果沒有用戶畫像,也能完成 短信、郵件、App push、App彈窗的運營,但是不能保證資源有效利用。
為什么這么說呢?在平臺用戶量低的時候,我們很容易做運營,我們將運營內容全量推送,發現召回率、轉化率并不會很低。這是因為初期我們的用戶都很精準,所以召回率轉化率不會很低。但隨著用戶基數的逐漸增加,這種運營效果越來越差轉化率越來越低。
因為隨著用戶量的增加,推送的內容只能打動那一小撮人,為了提升轉化效率,運營位資源的有效利用,我們需要借助用戶畫像的能力。
(1)分群運營
分群運營是此問題很好的解決方案,通過用戶畫像的標簽篩選,篩選出不同的用戶群,篩選出的用戶群每個用戶群都有一個唯一id。通過push或彈窗配置平臺,輸入用戶群id實現精細化運營。
(2)自動化運營
我們讓用戶群的粒度無限小,最后會小到一個個體。我們針對每個個體去做push或者彈屏,運營效率還是太低了?;谟脩舢嬒竦淖詣踊\營就發揮了作用。我們一起看一下如何實現自動化運營。
- 粗略定向(城市:北京;屬性:新用戶)此類設置為滿足業務需求,比如暑假低價課的廣告彈屏只針對沒有購買過長期班的用戶。這是通過事實標簽來實現。
- 精細定向:設置偏好標簽及標簽值來確定精細用戶群。原理很簡單,給一個策略設定好偏好標簽及標簽權重后,相當于在空間中繪制出一個用戶向量,我們用真實用戶向量與此向量進行空間向量的余弦相似計算,或歐幾里得距離計算相似性,最相似的則優先顯示。如果相同相似則按創建時間倒敘展示。這樣設定權重好處:可以很好的避免不同業務部門App內流量的爭搶。只有設置的標簽才參與計算,不是全部標簽進行相似計算。
- 設定push文案
- push落地頁
- 設定開始結束機制(時間控件)
舉個例子:
背景:
- 暑期結束場景下的收心課;
- 針對沒有報名暑假長期班的學員;
- 目標100w。
配置:
- 設置人群;沒有購買2019暑期長期班的學員;
- 設置權重:數學:0.8,短期班:0.7,暑假:0.6,開學:0.5;
- 設置文案:親愛的斑馬家長你好,暑假愉快,學而思網校為您準備9.9元 10節暑假數學收心課;
- 設置落地頁:www.banma.com;
- 時間設置:2019/08/23-2019/08/24。
圖示:
2. 用戶統計
根據用戶的屬性、行為特征對用戶進行分類后,統計不同特征下的用戶數量、分布、走勢等。
這里不做多闡述,參考神策。截圖大家參考下,數據已脫敏。
北京的-完成加入購物車操作的用戶數的趨勢
3. 用戶組成
4. 個性推薦
個性推薦:以用戶畫像為基礎構建推薦系統、搜索引擎、廣告投放系統,提升轉化率。
這里重點介紹一下推薦系統,其他與推薦邏輯大同小異。
推薦系統一般都分為召回和排序兩個階段。因為全量物品(Item)通常數量非常大,無法為一個用戶(User)逐一計算每一個物品(Item)的評分,這時候就需要一個召回階段,其實就是預先篩選一部分物品(Item),從而降低計算量。
海量 Item——召回(粗排)——候選集合——排序(精排)——排序列表——規則(多樣化推薦)——推薦結果。用戶畫像除了用于最終匹配評分,還要用于在召回。
那用戶畫像是如何做召回?
我們先看一下用戶畫像的用戶偏好表存儲(用戶畫像有好多個表,文章畫像構建部分會 具體講解):
當我們購買完成一個帶有標簽id1,標簽id2,標簽id3的課程后,一般在購買完成頁會有交叉銷售場景,我們通過用戶偏好表的標簽及權重,基于用戶相似,或Item相似的協同過濾算法,召回一部分課程。這就是粗排的過程。簡單理解就是找到用戶喜歡的其他課程。
協同過濾:基于用戶相似推薦:歐幾里得距離公式 userid1 與 userid2 =√ [(標簽id1-標簽id1)^2+(標簽id2-標簽id2)^2+···(標簽idn-標簽idn)^2]
5. 行業研究
行業研究就很好理解了,我們經常聽到馬爸爸拿一些標簽,說明這個地方人喜歡買什么?為什么喜歡買?那個地方人喜歡買什么?為什么喜歡?
最經典的就是每年的年終總結H5,這里不多贅述此內容。
四、用戶畫像的搭建
1. 標簽管理系統搭建
(1)什么是標簽管理系統?
標簽與用戶畫像的關系,在介紹什么是用戶畫像時候就已經說過。
我們說一下什么是標簽管理系統:
一般來說,將能關聯到具體用戶數據的標簽,稱為葉子標簽。對葉子標簽進行分類匯總的標簽,稱為父標簽。父標簽和葉子標簽共同構成標簽體系,但兩者是相對概念。
用戶畫像的本質就是使用不同的標簽來描述表達用戶,那這些標簽是需要我們事先準備好的。每個用戶都有成千上萬的標簽,我們維護這么大量級的標簽,我們事先一定要構建健康的標簽體系。
所以標簽管理系統要支持對所有標簽查詢、修改、刪除、新增等功能,主要包括兩個模塊:標簽樹和標簽查詢。
- 標簽樹:以樹形結構呈現標簽之間的層級和邏輯關系,并且可以對任意層級的標簽名進行修改、新增和刪除;
- 標簽查詢:對某一時間段內的標簽進行查詢,可以實現自定義查詢及條件查詢,并實現標簽下的用戶數的統計功能。
(2)標簽管理系統功能列表
(3)標簽管理系統頁面
(4)標簽體系構建
1)偏好標簽
偏好標簽簡單理解就是用戶對不同標簽的喜愛程度,通過用戶與標簽的行為類型、行為權重、行為次數、時間衰減來計算。后續具體講解如何進行計算,偏好標簽是做推薦及策略方向最重要的標簽。
2)標簽梳理
該類標簽梳理很簡單,在我們數據倉庫中有不同的內容表。
比如課程數據庫表結構:上課地點、上課時間、老師、價格、大綱、評價……
比如教師表結構:教師名稱、有無教師資格證、年齡、學校、性別、評價……
這里每一個字段就是一個偏好標簽,當然字段值也是標簽。因為用戶與這些內容發生關系,間接是與這些標簽放生關系。
偏好標簽是固定的,不可編輯修改,數據來源于平臺內全部內容的表字段及值。
3)事實標簽
- 信息標簽:用戶的基本信息標簽(城市、年級、年齡、性別……)
- 業務標簽:來自業務的標簽(在讀、非在讀、長期班、短期班、語文、數學、英語……)
- 規則標簽:自定義的規則(低潛、中潛、高潛、核心)
4)標簽梳理
用戶基本信息,用戶業務信息,工作人員定的規則,比如:低潛用戶,中潛用戶……
5)預測標簽
這種標簽是根據機器學習預測的標簽,比如:流失預測,虎躍預測,轉化預測等等。
6)標簽梳理
很簡單,就那么幾個想預測啥就添加啥。標簽之間具有層級的邏輯關系,1級是2級標簽的父級,2級是1級標簽的子級,以此類推。
偏好標簽不可編輯,數據來源于不同內容的表字段。事實標簽與預測標簽當子級有內容則父級不可刪除,但可編輯。只有下一級沒有任何子級的情況下可以進行刪除操作。
2. 標簽權重計算
這里的標簽權重計算特指偏好標簽。
畫像的用戶偏好標簽存儲結構:
這里的每一個用戶每一個標簽下的值就是標簽的權重,這節講解的重點。
這個標簽權重影響著對用戶屬性的歸類,屬性歸類不準確,接下來給予畫像對用戶進行推薦,精細化運營也就無從談起。
(1)基于TF-IDF算法計算
1)算法思想
用戶標簽權重,是由該標簽對用戶本身的重要性與該標簽在業務上,對用戶的重要性共同決定的。
標簽本身對用戶重要性是通過TF-IDF計算得到的,業務權重是通過用戶對標簽的行為來決定的,即:
- 用戶標簽權重 = 業務權重* TF-IDF權重
- 用戶標簽權重 = 行為類型權重 * 行為次數 * 時間衰減* TF-IDF權重
2)簡單理解
就是用戶對一個標簽,會有不同行為觸達,不同的行為有不同的難度,比如:購買行為大于搜索行為,搜索行為大于瀏覽行為。所以不同行為就會有不同的權重,行為越難代表越喜歡,權重越高同理行為次數越多也代表越喜歡。
標簽對這個用戶來說越稀有代表越喜歡,喜歡程度會隨著時間的增加而逐漸降低,通過這個公式計算標簽權重。
3)行為類型權重
用戶瀏覽、點擊、搜索、收藏、分享、下單、購買等不同行為對用戶而且有不同重要性,一般使用層次分析法定義一個基本行為權重。
4)行為次數
這里的行為次數表示每一種行為的次數。
5)時間衰減
時間衰減是指用戶的行為會隨著時間的流逝,用戶偏好會不斷減弱。在建立與時間衰減相關的函數時,我們可套用牛頓冷卻定律數學模型。
牛頓冷卻定律:
較熱物體的溫度F(t)是隨著時間t的增長而呈現指數型衰減,其溫度衰減公式為:F(t)=T×exp(-α×t)。
- T:初始溫度
- α:衰減常數即冷卻系數,是自己定義的數值,一般通過回歸可計算得出
- t:時間間隔
冷卻系數如何計算呢?
冷卻系數是自己定義的數值,一般通過回歸可計算得出。例如:初始溫度100攝氏度,1小時后的溫度為85攝氏度,即 85=100×exp(-α×1),求得α=0.16。
在這里我們用R語言來模擬一下這個冷卻曲線:
wendu<-100*exp(-0.16*t) t<-c(1:100) plot(x)
t<-c(1:100)
plot(x)
6) TF-IDF
TF-IDF = TF*IDF
TF:
這里我們用 N(P,T)表示一個標簽T被用于標簽用戶P的次數。
TF(P,T)表示這個標記次數在用戶P所有標簽標記次數中所占的比例。
TF(P,T)= N(P,T)/Σ N(P,Ti)
N(P,T):打在某用戶身上某個標簽的個數
Σ N(P,Ti):該用戶身上全部標簽的個數
Ti 該用戶全部標簽個數
IDF:
IDF(P,T):表示標簽T在全部標簽中的稀缺程度
如果一個標簽出現的幾率很小,同時被用戶標記某個用戶,這就使得該用戶與該標簽T之間的關系更加緊密。
IDF(P,T)=Σ Σ N(Pi,Ti)/ΣN(Pi,T)
Σ Σ N(Pi,Ti):全部用戶的全部標簽之和
ΣN(Pi,T) :所有打T標簽的用戶之和
7)計算方式
舉例子:
用戶“斑馬”,對于標簽“語文”的標簽權重計算:假設我們之前定義 冷卻系數α=0.16。
行為表:
2019-08-22
2019-08-23
2019-08-24
用戶“斑馬”對標簽“語文”的權重:
2019-08-22:語文=2*0.1+2*0.2+3*0.6+1*0.5+1*0.9=3.8
2010-08-23:語文=3.8 *exp(-α*1)+1*0.1+1*0.2+2*0.6+1*0.5+0=5.067718
2010-08-23:語文= 5.067718*exp(-α*1)= 4.318424
3. 標簽存儲
(1)事實標簽
1)基礎信息表
2)事實標簽-在讀信息表
3)事實標簽-報名信息表
4)事實標簽-規則信息表
(2)偏好標簽&預測標簽
本文由 @斑馬 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
F(t)=T×exp(-α×t)這個公式里的“×”是乘號嗎?還是未知變量“x”???
學習了
想知道怎么找到合適的時間衰減系數
學習了,感謝分享!
vx:13126701193