構建用戶畫像系統解決方案
編輯導語:如今在這個大數據時代,很多時候我們會被打上“標簽”,比如我們在逛淘寶時,軟件會根據你的瀏覽和搜索喜好進行推薦,這就是對于用戶的精準投放,有效地提高轉化;本文作者分享了關于構建用戶畫像系統解決方案,我們一起來看一下。
一、認識用戶畫像
1. 什么是用戶畫像
用戶畫像是一個描述用戶的工具,刻畫出用戶個體或者用戶群體全方位的特征,為運營分析人員提供用戶的偏好、行為等信息進而優化運營策略,為產品提供準確的用戶角色信息以便進行針對性的產品設計。
用戶畫像系統集用戶畫像的生產與應用于一身,對外(如產品運營、推薦系統等)封裝提供用戶畫像信息,以便對產品更好的設計以及對用戶更好的運營。
2. 用戶畫像與數倉的關系
前面介紹了數據倉庫的搭建《數據產品經理如何推進數據倉庫的落地》,那么用戶畫像與數倉是一個什么樣的關系?
一般來說,數據倉庫存儲的是結構化的數據,而構建用戶畫像需要結構化數據,也有非結構化和半結構化數據,既擁有結構化數據又擁有半結構化數據和非結構化數據的系統稱之為數據湖。
相對來說,結構化的數據更容易構建用戶畫像,只需要對結構化的數據直接進行標簽化,而非結構化和半結構化數據需要通過算法進行處理后再進行標簽化。
用戶畫像與數倉的關系為數據源與數據應用的關系,兩者相輔相成,關系圖如下:
3. 用戶畫像(User Profile)與用戶角色(User Persona)區別
經常有人搞不清楚用戶畫像與用戶角色的區別,其實兩者本質上是不一樣的,先來看看兩者的對比圖表:
①性質:用戶角色為定性研究,只考慮用戶的特征性質不考慮程度,而用戶畫像是對用戶的精細刻畫,為定量研究。
②使用時機:一般來說,用戶角色的使用場景在產品上線之前,此時幾乎沒有任何數據,需要產品同學針對產品的使用方進行特征描繪,以便了解目標群體進行針對性的設計;用戶畫像的使用場景在產品上線后,此時已積累了一定的數據量,可以對用戶進行數據統計構建用戶畫像,獲得精細化運營的能力。
③描述程度:用戶角色是對某個用戶群體特征進行高度概括,用戶畫像是對用戶個體或者用戶群體的精細描述。
④用途:用戶角色用于輔助產品進行設計,研究用戶體驗,例如權限控制系統會分為以下幾個角色:分析師、產品、運營、數據科學家等角色,用戶畫像用于了解用戶特征以及偏好,以便提供個性化的服務和提高盈利。
二、用戶畫像規劃
在構建用戶畫像之前,需要產品同學進行一個規劃,說明下項目的背景以及做這個系統的必要性,最終要實現的目標是什么,即提供什么樣的功能,為了達成這個目標需要的人力以及物力資源。
1. 所需物力資源
這里需要計算一下需要什么硬件,如多大的磁盤、內存,需要哪些,具體可以將硬盤和內存分配到每個存儲及計算組件上,這個工作可與技術同學協商完成。
2. 所需人力資源
基于前面的介紹,設備的維護以及各存儲計算組件的運行保障這里需要運維工程師,數據的清洗需要ETL工程師。
數據的存儲、標簽生成、流式計算等需要用到多種的大數據組件,這就需要大數據開發工程師,同時存儲的數據庫各種備份維護等工作需要配備數據庫工程師。
非結構化和半結構化數據需要經過算法處理,所以算法工程師也是必需的;最后,用戶畫像需要進行可視化,還需要配備一個前端工程師。
根據以上分析,所需的工程師如下(具體需要人數視項目而定,有的全棧工程師可以身兼多職就不需要這么多):
三、怎么構建用戶畫像
1. 用戶畫像實施
在開始構建用戶畫像之前,需要數據產品出一個詳細的實施文檔,如果說用戶畫像規劃文檔是說做什么的話,那用戶畫像實施文檔就是說明具體要怎么做;這樣開發人員才知道具體的邏輯著手實施,如受多個因素影響的標簽每個因素的權重是多少,這樣才能計算出最終標簽的值。
以下各步驟均要在實施文檔里面詳細說明:
2. 數據建模
數據的如何從原始數據最終轉化成標簽數據,需要定義一個標準處理流程,這就是數據建模。
1)建模流程
以上圖片為使用多項 Logistic 回歸算法對電信業客戶進行分類的建模流程,從圖片上看,數據建??梢苑譃橐韵聨讉€步驟:
① 獲取原始數據,包含用戶訪問的行為日志、用戶基本屬性等,具體需要的數據視用途而定,這里預測客戶類別用到的信息有地區、年齡、婚姻狀況、地址、收入、教育程度、行業、退休、性別、居住地和客戶類別。
② 數據預處理,挖掘出事實標簽,對用戶數據進行過濾、清洗、簡化表示,例如:過濾掉表中的無關字段,指定字段類型,處理缺省值等。
③ 分析用戶行為及屬性,構建用戶畫像的模型標簽,通過用戶行為屬性分析,得到各類型用戶的行為規律及特征屬性,構建用戶行為屬性模型,訓練出最終模型。
④ 調優模型,對模型進行調優,使預測結果更準確。
⑤ 通過模型進行預測,完善用戶畫像,預測用戶的操作行為。
2)建模常用模型
以下列出常見的建模模型,以便了解熟悉各模型的常見用途。
① 文本挖掘模型(TF-IDF):常用于文本的特征提取,處理與清洗數據,匹配標識用戶數據,TF-IDF的主要思想是:如果某個詞或短語在一篇文章中出現的頻率越高,并且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,能更好的代表本篇文章,適合用來分類。
② 分類聚類模型(貝葉斯、KNN、K-Means):通過分析有相同特征的群體信息,對用戶進行劃分。
③ 機器學習:通過特征提取挖掘出標簽。
④ 相似度模型(余弦相似度、皮爾遜相似度):用于輔助分類、聚類。
⑤ 推薦算法(Apriori):根據用戶訪問情況推薦出興趣標簽,完善畫像。
3. 用戶畫像維度拆解
思考通過各種維度來全方位描述用戶畫像,根據產品是To B還是To C注重的方向又不一樣,To C類型產品會關注用戶的性別、年齡、興趣、職業等信息;而To B類產品不太關注這些,會更傾向于研究用戶的工作能力、行為習慣等。
產品所處的行業對用戶畫像側重點也有影響,社交類和金融類的產品關注點又不一樣;一般來說,可通過以下信息來基本構建用戶畫像,其余的維度視具體需求再進行定制化開發。
總之,用戶畫像的多維度刻畫需要遵循MECE法則進行全方位不重復的拆解,這里同時引出了一個問題,維度的細分是不是越細越好?
如果用戶畫像的顆粒度過于精細。意味著開發成本直線提升,同時,過細的拆分意味著每個類別對應的用戶量變少,造成服務目標單一化。
舉一個比較極端不存在的例子,將用戶ID作為標簽,則每個ID對應一個用戶,這樣的細分對精細化運營是沒有幫助的;在維度細化拆分的過程中也要不停關注標簽值覆蓋面來進行微調。
4. 用戶畫像標簽生成
由于用戶需求和用戶場景不斷更新,所以標簽體系需要持續完善。不同的用戶需求和業務場景,不同的業務標簽,用戶標簽系統就不同。
1)標簽的生成
標簽從生成邏輯上來區分主要有幾大類:統計標簽、規則標簽、模型標簽、算法標簽。
- 統計標簽:根據已有數據進行統計,如統計用戶近30天的消費金額;
- 規則標簽:根據一定的業務規則進行劃分,如根據用戶的歷史消費情況給用戶劃分對應的消費等級;
- 模型標簽:基于一些分析模型對用戶進行打標簽,如RFM模型;
- 算法標簽:此類標簽可用于預測,如預測用戶是否是潛在付費用戶。
下面在RFM模型基礎上,結合AHP分析法對用戶進行打標簽:
某產品有以下購買消費數據:
如果我們想知道每個用戶的價值是多少的話需要怎么評估,用戶價值有多個因素影響,這里的影響因素就是RFM三個因素,計算步驟如下:
構建層次結構模型:
構造判斷矩陣:
根據以上打分規則,由經驗豐富、判斷力強的專家對三個因素兩兩打分給出判斷矩陣。
上表意味著專家評判RFM三個因素的權重順序分別是M>F>R。
計算特征向量:
通過判斷矩陣計算特征向量(也就是權重)。
判斷矩陣一致性檢驗:
有了以上權重,還要進行一致性檢驗,判斷權重分配是否合理,避免出現類似M>F,F>R,R>M的情況;由于篇幅問題,就不進行詳細的計算,網上也提供了在線計算工具只需要輸入判斷矩陣即可得出一致性檢驗結果。
從以上計算,我們得出了RFM三個因素的權重,接下來就要根據這些權重以及各用戶的RFM具體的值來計算用戶價值。
RFM值標準化計算價值:
因為RFM值的量綱不一樣,需要進行標準化才有可比性,可通過以下兩個公式進行標準化。
兩個公式應用的場景不一樣,第一個公式適用于該因素對結果有正向影響時使用,第二個公式適用于該因素對結果有負向影響時使用。
RFM因素中,R值越小對用戶價值影響越大,因此使用第二個公式,F值和M值越大對用戶價值影響越大,因此使用第一個公式。
使用以上兩個公式進行標準化后,將得到標準化后的值分別乘以該因素對應的權重即可得到每個用戶的價值。
生成標簽:
根據上面計算出來的值生成各因素對應的標簽,可以用均值區分,均值以上的為1,均值以下的為0,最終生成的標簽如下:
以上有R、F、M、價值四個因素,每個因素有0或者1兩種情況,總共可以組合成16種情況,即可以將用戶分為16層,針對每層用戶特點進行個性化服務。
5. 標簽值映射規則
各類標簽在底層存儲中并不會儲存具有實際意義的值,為了節省存儲成本和提高查詢效率通常用0、1等簡單字符來表示;所以具體的映射規則需要數據產品進行定義并維護,業務人員咨詢某標簽里面的1代表什么意思的時候不至于一頭霧水。
6. 用戶畫像質量評估
經過以上步驟,用戶畫像的維度逐漸豐富,此時需要對用戶畫像的質量進行檢驗,主要從以下幾個方面:
用戶覆蓋率:用戶畫像具體能夠覆蓋到多少用戶,如年齡標簽有80萬人打上的具體的值,有20萬人沒打上,則年齡標簽的用戶覆蓋率是80%;覆蓋率是用戶畫像應用的一個評價,覆蓋率越高,對后續精準營銷的策略選擇越準確。
準確率:標簽有值但是打錯了標簽也是質量差的一個表現,,使用算法模型導致的用戶分群錯誤或者對用戶的購買意向預測錯誤,將直接影響購買率,影響GMV。此項指標可以通過灰度測試來驗證。
可拓展:用戶畫像系統在維度刻畫方面應該是可擴展的,支持后續方便的增加其他標簽維度。
及時性:標簽的實時更新對一些場景化推薦營銷起到至關重要的作用,需要對近10分鐘內做過某些行為的用戶進行針對性廣告推薦,如果用戶做了該行為但是標簽沒有及時更新的話那這個推薦系統將起不到任何作用。此項指標可以人工進行操作后觀察用戶畫像更新的時長。
7. 用戶畫像可視化
用戶畫像完成之后,需要對用戶畫像進行可視化以便只管感受,可通過Echarts、Tableau等可視化工具進行繪圖;對于用戶個體,可生成類似于簡歷的用戶信息描述,對于用戶群體,可展示該群體在各個維度的分布情況。
四、用戶畫像的應用
用戶畫像的應用場景十分廣泛,無論是用戶精細化運營還是系統個性化服務都能很好的支持,以下列舉一些用戶畫像常見的應用:
- 精準營銷,分析產品潛在用戶,針對特定群體利用短信郵件等方式進行營銷;
- 用戶統計,比如APP用戶的性別、年齡分布;
- 推薦系統,通過數據挖掘利用關聯規則計算,進行物品關聯推薦,利用聚類算法分析,上班一族使用APP的時間分布情況;
- 廣告推薦,其實也是推薦系統的一種;
- 提供種子用戶,篩選出與種子用戶類似的用戶群體或者相反的用戶群體,進行定制化的服務。
本文由 @不語 原創發布于人人都是產品經理,未經許可,禁止轉載
題圖來自?Unsplash,基于 CC0 協議
讀了三遍,第一次接觸數據模型算法的文章。我這里正在做一個煤礦公司(兩萬人)的B端項目,想通過對用戶的安全履職各類數據進行分析,然后用戶評價,給決策層提供重點關注人群,整好用得到。感謝作者分享!??!
您好看了您的文章,我們正在尋找課程開發的合作講師,不知道您是否有意愿,方便可以加V(www-627715182)詳細了解
很棒,感謝