99久久精品午夜一区二区,最新欧美精品一区二区三区,亚洲卡一卡二卡三新区乱码

搜索

APP

起點課堂會員權益

職業(yè)體系課特權

線下行業(yè)大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

如何校驗用戶畫像的準確性？

sladesal

2017-07-26

8 評論 24702 瀏覽 106 收藏

7 分鐘

用戶畫像是數(shù)據(jù)運營的基礎，也是做深度挖掘的一個不可或缺的模塊。只有先打好畫像基礎，確保畫像質(zhì)量，后續(xù)的深挖行為才有突破的可能。

在用戶研究的課題中，用戶畫像是幾乎每個公司都會去做的，淺層的包括統(tǒng)計類的：上月購買量，上周活躍天數(shù)等；深層的包括洞察類的：潛在需求偏好，生命周期階段等；前者的校驗簡單，后者的校驗需要通過一些特別的方式。本文就洞察類畫像校驗做一系列的梳理。

省略掉預處理設計的過程，畫像校驗的步驟主要集中在畫像開發(fā)，畫像上線，畫像更新中，并且三個階段中，每個階段的校驗方式不盡不同

一. 用戶畫像開發(fā)中

當我們所開發(fā)的用戶畫像是類似于用戶的下單需求、用戶的購車意愿、用戶是否有注冊意愿這一類存在歷史的正負樣本的有監(jiān)督的問題，我們可以利用歷史確定的數(shù)據(jù)來校驗我們的畫像準確性。比如，銀行在設計用戶征信的畫像前，會有一批外部購買的壞樣本和好樣本，其實畫像問題就轉化為分類問題去解決評估了。

1. Recall、Pecision、K-S、F1曲線、Roc曲線、Confusion Matrix、AUC

針對這類問題，已經(jīng)有較為成熟的理論基礎，直接利用測試樣本判斷的準確程度判斷畫像是否準確

這張圖是一張非常常見也是有效的來總結Recall、Pecision、Lift曲線、Roc曲線、Confusion Matrix的圖。

FPR = FP/(FP + TN)

Recall=TPR=TP/(TP+FN)

Precision=TP/(TP+FP)

F1曲線:2*Precision*Recall/(Precision+Recall)

Roc曲線：TPR vs FPR，也就是Precision vs Recall

Auc：area under the roc curve ，也就是roc曲線下面的面積，積分或者投點法均可求解。

2. 交叉驗證

并不是所有畫像都是有監(jiān)督訓練的畫像，舉個例子，用戶的性別畫像，是一個無監(jiān)督的刻畫，當你無法通過app端資料填寫直接獲取到的時候，你只能夠通過其他數(shù)據(jù)特征的對用戶進行分群。

首先，我們在總的數(shù)據(jù)集中篩選出所有關鍵影響特征，每次將篩選出的特征分為兩塊，測試特征訓練特征，利用訓練特征建立模型，再利用測試特征去判斷模型是否合理（比如女鞋用戶群的女鞋購買次數(shù)小于男性用戶群，則次模型異常，刪除），最后集成所有合理模型。

這樣的邏輯中，我們將所有異常不合理的模型全部剔除，訓練過程中就校驗了用戶畫像的準確性。

二. 用戶畫像上線后

1. ABTest

不得不說，abtest是用戶畫像校驗最為直觀有效的校驗方式。

用戶分流模塊：

一句話解釋，就是A1=A2保證分配隨機，A3好于A1+A2的效果檢驗畫像是否準確？多準確？

三. 用戶畫像更新

用戶回訪

在畫像刻畫完成后，必然會存在畫像優(yōu)化迭代的過程，客服回訪是非常常見且有效的方式。

比如，我們定義了一波潛在流失用戶10萬人，隨機抽取1000人，進行回訪，根據(jù)回訪結果做文本挖掘，提取關鍵詞，看消極詞用戶的占比；

（來源網(wǎng)絡）

機制檢測

再比如，我們定義了一波忠誠用戶10萬人，隨機抽取100人，后臺隨機獲取用戶安裝app的列表，看用戶同類app的下載量數(shù)目的分布；

橫軸為用戶手機中同類競品安裝量的個數(shù)，縱軸為對應的隨機抽樣的100人中的個數(shù)。

人群1分布為忠誠用戶畫像最準確的，同類app下載量集中在1附近，定義的用戶極為準確
人群2分布雜亂
人群3分布在下降量異常高的數(shù)值附近，定義人群不準確

用戶畫像是數(shù)據(jù)運營的基礎，也是做深度挖掘的一個不可或缺的模塊。只有先打好畫像基礎，確保畫像質(zhì)量，后續(xù)的深挖行為才有突破的可能。

最后，謝謝大家閱讀。

作者：沙韜偉，蘇寧易購高級算法工程師，4年數(shù)據(jù)挖掘數(shù)據(jù)分析經(jīng)驗，前惠普中國算法研究員、滴滴租車用戶征信負責人、分布式R開發(fā)研究員貢獻者，Data學院特邀講師，當前為蘇寧易購全產(chǎn)業(yè)算法研究負責人。

本文由 @沙韜偉原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉載。

更多精彩內(nèi)容，請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

用戶畫像這事兒，產(chǎn)品經(jīng)理、運營人都應該懂！文章被收錄于該專欄

共 19 篇文章36418 人已學習

sladesal

https://sladesha.github.io

2篇作品 53464總閱讀量

你按下的這個按鈕，背后有哪些設計和學問？

10-264148 瀏覽

國慶節(jié)實體門店引流攻略：10種玩法套路直接用

09-282407 瀏覽

本地生活的吸引力有多大？玩家們苦戰(zhàn)在即

07-067401 瀏覽

歸因系統(tǒng)淺談

12-264239 瀏覽

領英不懂中國式招聘

05-137761 瀏覽

評論

krypton

好專業(yè)，繼續(xù)爬貼消化這些知識先

最近來自廣東回復
Icarus

請問蘇寧還招設計師嘛

最近回復
魏娜

最后一個圖同類app下載量1 用戶準確；
同類用戶不是應該有多個同類的app ?

最近來自北京回復
官人

這個6，只不過表示沒看懂~~~

最近來自北京回復
1. sladesal 作者回復官人
  
  哪里沒看懂啊，可能是我寫的不清楚，我解釋給你聽
  
  最近來自江蘇回復
Chopin灬舞曲

好專業(yè)，學習了~不過有一個點，“女性用戶群的女鞋購買次數(shù)小于男性用戶群，則次模型異常，刪除”，作者確定這些就是異常數(shù)據(jù)嘛 ??

最近來自浙江回復
1. sladesal 作者回復Chopin灬舞曲
  
  這只是舉個例子，但是實際上，瀏覽次數(shù)上看，還真的是55開
  
  最近來自江蘇回復
2. 絨毛球球兔回復Chopin灬舞曲
  
  其實我也懷疑。老婆喜歡給老公買衣服，自己卻很節(jié)儉
  
  最近回復