如何建立用戶畫像和用戶體系?

2 評論 60499 瀏覽 281 收藏 12 分鐘

消費(fèi)品企業(yè)應(yīng)該如何使用內(nèi)部產(chǎn)生以及外部采集的數(shù)據(jù),像互聯(lián)網(wǎng)公司一樣建立用戶畫像與會(huì)員體系,以數(shù)據(jù)驅(qū)動(dòng)的方式進(jìn)行精細(xì)化的生產(chǎn),運(yùn)營和銷售?

傳統(tǒng)的管理咨詢公司,雖然有無數(shù)頂尖的大腦,但是他們的大腦只靠Excel的輔助,這樣的算力,能不能滿足上述的需求?

1. 如何建立用戶畫像和用戶體系

無論是提供商品還是服務(wù),用戶畫像都是數(shù)據(jù)挖掘工作的重要一環(huán)。一個(gè)準(zhǔn)確和完整的用戶畫像甚至可以說是許多互聯(lián)網(wǎng)公司賴以生存的寶貴財(cái)富。

我們也已經(jīng)聽過了無數(shù)用戶畫像的神奇功能和成功案例:

  • 比如亞馬遜,淘寶的機(jī)器學(xué)習(xí)團(tuán)隊(duì)使用用戶的瀏覽行為,購物車狀態(tài)和購買記錄開發(fā)關(guān)聯(lián)推薦系統(tǒng),使點(diǎn)擊率和銷量大幅提升;
  • 比如應(yīng)用市場根據(jù)過往APP安裝記錄記對每個(gè)使用者進(jìn)行精準(zhǔn)推薦;
  • 再比如音樂,圖書和新聞網(wǎng)站通過協(xié)同過濾的方式為用戶呈現(xiàn)個(gè)性化的定制內(nèi)容。

而管理咨詢公司只能通過人肉的市場調(diào)研和抽樣的方式,進(jìn)行粗糙的用戶畫像。

對于消費(fèi)品公司而言,雖說用戶行為數(shù)據(jù)的豐富程度和互聯(lián)網(wǎng)產(chǎn)品相比稍顯遜色,但也擁有龐大的用戶信息和交易數(shù)據(jù)沉淀散落在各個(gè)IT系統(tǒng)中,而且更真實(shí),噪音更少。只不過在傳統(tǒng)消費(fèi)品公司里會(huì)編程,會(huì)處理數(shù)據(jù)的人要比互聯(lián)網(wǎng)公司少太多太多。

在我們深入了解了這些用戶信息和交易數(shù)據(jù),并對它們進(jìn)行了清洗,匯總,打通之后,發(fā)現(xiàn)數(shù)據(jù)質(zhì)量要比我們想象的好很多,可以支撐許多有意思的用戶畫像的建立。在這里我會(huì)分享一些畫像的流程和思路,供大家參考。

2. 數(shù)據(jù)標(biāo)簽化

用戶畫像的底層是機(jī)器學(xué)習(xí),那么無論是要做客戶分群還是精準(zhǔn)營銷,都先要將用戶數(shù)據(jù)進(jìn)行規(guī)整處理,轉(zhuǎn)化為相同維度的特征向量,諸多華麗的算法才可以有用武之地,像是聚類,回歸,關(guān)聯(lián),各種分類器等等。

對于結(jié)構(gòu)化數(shù)據(jù)而言,特征提取工作往往都是從給數(shù)據(jù)打標(biāo)簽開始的,比如購買渠道,消費(fèi)頻率,年齡性別,家庭狀況等等。好的特征標(biāo)簽的選擇可以使對用戶刻畫變得更豐富,也能提升機(jī)器學(xué)習(xí)算法的效果(準(zhǔn)確度,收斂速度等)。

我們在項(xiàng)目中根據(jù)不同維度提取了數(shù)十個(gè)多個(gè)標(biāo)簽,圖7展示了其中的一部分。這些標(biāo)簽主要有三個(gè)來源:

  • 一個(gè)類是在IT系統(tǒng)中可以取得的信息,比如辦會(huì)員卡時(shí)留下的信息(性別,年齡,生日),購買渠道,積分情況等;
  • 第二類是可以通過計(jì)算或是統(tǒng)計(jì)所獲得的,比如用戶對某類促銷活動(dòng)的參與程度,對某種顏色/款式商品的偏好程度,是否進(jìn)行過跨品牌的購買等;
  • 第三類則是通過推測所得,比如送貨地址中出現(xiàn)“宿舍”,“學(xué)?!?,“大學(xué)”等字樣,則用戶身份可以推測為學(xué)生,出現(xiàn)“騰訊大廈”,“科技園”等信息時(shí),則可判斷是上班族,并有很大概率是技術(shù)從業(yè)者。

在標(biāo)簽的設(shè)計(jì)上也帶有較強(qiáng)的行業(yè)性,比如是否偏好購買當(dāng)季爆款或是新品多于經(jīng)典款(時(shí)尚度);是否更傾向購買低價(jià)或打折商品(價(jià)格敏感度);是否喜歡購買高價(jià)商品或限量版(反向價(jià)格敏感度)。

1

對于已經(jīng)打好的標(biāo)簽,根據(jù)不同的分析場景進(jìn)行離散化,或?qū)⒎诸愵愋偷臉?biāo)簽拆成多個(gè)0/1標(biāo)簽,就可以進(jìn)行一些機(jī)器學(xué)習(xí)的建模了,比如聚類,分類,預(yù)測,或者關(guān)聯(lián)性分析,最終生成的向量維度在數(shù)千個(gè)。

說到這里,咨詢公司里面的Excel是不是已經(jīng)開始快宕機(jī)了?

3. 關(guān)聯(lián)性分析

關(guān)聯(lián)性分析(Association rule learning)是在零售行業(yè)中應(yīng)用最廣泛的一種機(jī)器學(xué)習(xí)方法,營銷學(xué)里經(jīng)典的“啤酒/尿布”(超市里購買尿布的消費(fèi)者往往同時(shí)購買啤酒)案例也已經(jīng)是家喻戶曉。

雖然后來被證實(shí)這是一個(gè)為了教學(xué)目的而虛構(gòu)出來的案例,但從其上鏡率也可以看得出關(guān)聯(lián)性分析在零售領(lǐng)域的重要程度,或許這個(gè)例子在國內(nèi)改成“泡面/火腿腸”會(huì)更親切。
關(guān)聯(lián)性分析的相關(guān)文章有非常多,支持度(Support),置信度(Confidence)和增益(Lift)這些基本概念的介紹在這里就不贅述了,各位如果有興趣可以參見Wikipedia的Association rule learning頁面。

和購物籃關(guān)聯(lián)規(guī)則不同,我們數(shù)據(jù)挖掘過程中的基本單位是用戶,而特征向量則是基于提取出的用戶標(biāo)簽而構(gòu)建的,下表是一個(gè)簡單的示例。

第一個(gè)例子

2
我們獲得了一個(gè)NxM的特征矩陣,N為用戶數(shù),量級在百萬級,M為特征維度,約數(shù)千個(gè)的二元標(biāo)簽。

基于這個(gè)特征矩陣我們使用了最基礎(chǔ)的Apriori算法計(jì)算相關(guān)度,并在支持度,置信度和增益三個(gè)層面設(shè)置threshold,輸出符合要求的關(guān)聯(lián)規(guī)則。

由于輸出的關(guān)聯(lián)規(guī)則可能涉及到客戶隱私,在這里僅做一個(gè)示例。下表中的前項(xiàng)(antecedent)為用戶的所在地,后項(xiàng)(consequent)為最高的活動(dòng)敏感度, 結(jié)果如下:

3

可見上以及江浙地區(qū)對于促銷活動(dòng)的敏感度和參與度是最高的,增益均高于兩倍,而上海則是達(dá)到了3.3倍之多。

第二個(gè)例子

另一個(gè)例子是顏色的關(guān)聯(lián)規(guī)則,下表展示了用戶對于不同顏色的產(chǎn)品以及SKU之間的偏好特征,可見某些用戶是有較強(qiáng)的顏色偏向的,比如金色和銀色之間,咖啡色和綠色之間等等。

如果運(yùn)用到商業(yè)實(shí)踐,因?yàn)樵谫I過紫色和杏色的用戶中,接下來會(huì)比較會(huì)買金色;把這些數(shù)據(jù)給到地面團(tuán)隊(duì)或者線上團(tuán)隊(duì),這時(shí)候推薦顏色以及配貨就比較輕松一些。

11

值得注意的是,做關(guān)聯(lián)分析時(shí)要確保前后項(xiàng)以及的獨(dú)立性(independence)。由于在提取特征時(shí)有些維度本身就是從相同或相關(guān)的字段提取出來的,比如用戶的星座以及出生月份,如果不做控制的話就會(huì)得出“11月出生的天蝎座特別多”這樣讓人啼笑皆非的規(guī)則。

4. RFM Model

RFM模型是用戶價(jià)值研究中的經(jīng)典模型,基于近度(Recency),頻度(Frequency)和額度(Monetory)這3個(gè)指標(biāo)對用戶進(jìn)行聚類, 找出具有潛在價(jià)值的用戶, 從而輔助商業(yè)決策,提高營銷效率。如果對RFM模型的細(xì)節(jié)感興趣可以參見Wikipedia中有關(guān)RFM模型的頁面。

RFM建模所需要的數(shù)據(jù)源是相對簡單的,只用到了購買記錄中的時(shí)間和金額這兩個(gè)字段。我們基于交易數(shù)據(jù)中用戶的最后一次的購買時(shí)間,購買的次數(shù)以和頻率,以及平均/總消費(fèi)額對每個(gè)用戶計(jì)算了三個(gè)維度的標(biāo)準(zhǔn)分。

然后我們對于三個(gè)維度賦予了不同的權(quán)重,再基于加權(quán)后的分值應(yīng)用K-Means進(jìn)行聚類,根據(jù)每種人群三個(gè)維度與平均值之間的高低關(guān)系,確定哪些是需要保持用戶,哪些是需要挽留的用戶,哪些是需要發(fā)展的用戶等。

在將這些客戶圈出之后,便可以對不同客戶群使用不同針對性地營銷策略(引導(dǎo),喚醒等),提高復(fù)購率與轉(zhuǎn)化率。

值得注意的是,三個(gè)維度的權(quán)重制定并沒有統(tǒng)一的標(biāo)準(zhǔn),比較通用的方法是用層次分析法(AHP),再結(jié)合行業(yè)以及具體公司的特點(diǎn)進(jìn)行優(yōu)化。

圖8是通過RFM模型進(jìn)行用戶聚類后的結(jié)果,可以清楚看到幾個(gè)人群用戶的數(shù)量以及比例。同時(shí)這些分群也會(huì)作為標(biāo)簽重新輸入至用戶畫像以及CRM當(dāng)中,作為圈定特定用戶群以及營銷的入口。

4

圖9展示了用戶群之間在各個(gè)維度上的分布。消費(fèi),金額,頻率這些模型直接相關(guān)的標(biāo)簽上自然有非常顯著的差異,同時(shí)在一些垂直(orthogonal)的特征維度上也有很大的不同。

5

5. 用戶體系

最后,對消費(fèi)品公司而言,所有在數(shù)據(jù)挖掘和用戶畫像方面的投入,根本目的還是要提升業(yè)務(wù)表現(xiàn),所以如何將數(shù)據(jù)挖掘的結(jié)果進(jìn)行落地就變成了尤為關(guān)鍵的一環(huán)。對于用戶畫像所輸出的所有標(biāo)簽和關(guān)聯(lián)規(guī)則,都需要通過某種渠道抵達(dá)用戶群。

這種渠道可以是一個(gè)強(qiáng)大的CRM系統(tǒng),可以通過不同的標(biāo)簽圈定用戶群,定向發(fā)布營銷方案;也可以是一個(gè)會(huì)員客戶端,推送個(gè)性化的打折券或新品推薦;甚至是自營電商,實(shí)現(xiàn)像天貓京東一樣的數(shù)據(jù)自生產(chǎn)和自消費(fèi)的循環(huán)。

而如何構(gòu)建這種渠道,同時(shí)如何與現(xiàn)有的會(huì)員卡體系打通,如何高效地設(shè)計(jì)和使用積分系統(tǒng),在這里先賣個(gè)關(guān)子,我們會(huì)在稍后的時(shí)間里和大家分享。

 

作者:何明科

本文來源于人人都是產(chǎn)品經(jīng)理合作媒體@36大數(shù)據(jù),作者@何明科

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 謝謝,不過有個(gè)疑問這個(gè)用戶畫像,在做項(xiàng)目之初定的用戶畫像不同的話,是否證明需要調(diào)整產(chǎn)品的方向呢~

    來自廣東 回復(fù)
  2. 領(lǐng)導(dǎo),寫的真棒,層次清楚

    來自北京 回復(fù)