如何校驗用戶畫像的準確性?

8 評論 24702 瀏覽 106 收藏 7 分鐘

用戶畫像是數(shù)據(jù)運營的基礎,也是做深度挖掘的一個不可或缺的模塊。只有先打好畫像基礎,確保畫像質(zhì)量,后續(xù)的深挖行為才有突破的可能。

在用戶研究的課題中,用戶畫像是幾乎每個公司都會去做的,淺層的包括統(tǒng)計類的:上月購買量,上周活躍天數(shù)等;深層的包括洞察類的:潛在需求偏好,生命周期階段等;前者的校驗簡單,后者的校驗需要通過一些特別的方式。本文就洞察類畫像校驗做一系列的梳理。

省略掉預處理設計的過程,畫像校驗的步驟主要集中在畫像開發(fā),畫像上線,畫像更新中,并且三個階段中,每個階段的校驗方式不盡不同

一. 用戶畫像開發(fā)中

當我們所開發(fā)的用戶畫像是類似于用戶的下單需求、用戶的購車意愿、用戶是否有注冊意愿這一類存在歷史的正負樣本的有監(jiān)督的問題,我們可以利用歷史確定的數(shù)據(jù)來校驗我們的畫像準確性。比如,銀行在設計用戶征信的畫像前,會有一批外部購買的壞樣本和好樣本,其實畫像問題就轉化為分類問題去解決評估了。

1. Recall、Pecision、K-S、F1曲線、Roc曲線、Confusion Matrix、AUC

針對這類問題,已經(jīng)有較為成熟的理論基礎,直接利用測試樣本判斷的準確程度判斷畫像是否準確

這張圖是一張非常常見也是有效的來總結Recall、Pecision、Lift曲線、Roc曲線、Confusion Matrix的圖。

FPR = FP/(FP + TN)

Recall=TPR=TP/(TP+FN)

Precision=TP/(TP+FP)

F1曲線:2*Precision*Recall/(Precision+Recall)

Roc曲線:TPR vs FPR,也就是Precision vs Recall

Auc:area under the roc curve ,也就是roc曲線下面的面積,積分或者投點法均可求解。

2. 交叉驗證

并不是所有畫像都是有監(jiān)督訓練的畫像,舉個例子,用戶的性別畫像,是一個無監(jiān)督的刻畫,當你無法通過app端資料填寫直接獲取到的時候,你只能夠通過其他數(shù)據(jù)特征的對用戶進行分群。

首先,我們在總的數(shù)據(jù)集中篩選出所有關鍵影響特征,每次將篩選出的特征分為兩塊,測試特征訓練特征,利用訓練特征建立模型,再利用測試特征去判斷模型是否合理(比如女鞋用戶群的女鞋購買次數(shù)小于男性用戶群,則次模型異常,刪除),最后集成所有合理模型。

這樣的邏輯中,我們將所有異常不合理的模型全部剔除,訓練過程中就校驗了用戶畫像的準確性。

二. 用戶畫像上線后

1. ABTest

不得不說,abtest是用戶畫像校驗最為直觀有效的校驗方式。

用戶分流模塊:

一句話解釋,就是A1=A2保證分配隨機,A3好于A1+A2的效果檢驗畫像是否準確?多準確?

三. 用戶畫像更新

用戶回訪

在畫像刻畫完成后,必然會存在畫像優(yōu)化迭代的過程,客服回訪是非常常見且有效的方式。

比如,我們定義了一波潛在流失用戶10萬人,隨機抽取1000人,進行回訪,根據(jù)回訪結果做文本挖掘,提取關鍵詞,看消極詞用戶的占比;

(來源網(wǎng)絡)

機制檢測

再比如,我們定義了一波忠誠用戶10萬人,隨機抽取100人,后臺隨機獲取用戶安裝app的列表,看用戶同類app的下載量數(shù)目的分布;

橫軸為用戶手機中同類競品安裝量的個數(shù),縱軸為對應的隨機抽樣的100人中的個數(shù)。

  • 人群1分布為忠誠用戶畫像最準確的,同類app下載量集中在1附近,定義的用戶極為準確
  • 人群2分布雜亂
  • 人群3分布在下降量異常高的數(shù)值附近,定義人群不準確

用戶畫像是數(shù)據(jù)運營的基礎,也是做深度挖掘的一個不可或缺的模塊。只有先打好畫像基礎,確保畫像質(zhì)量,后續(xù)的深挖行為才有突破的可能。

最后,謝謝大家閱讀。

 

作者:沙韜偉,蘇寧易購高級算法工程師,4年數(shù)據(jù)挖掘數(shù)據(jù)分析經(jīng)驗,前惠普中國算法研究員、滴滴租車用戶征信負責人、分布式R開發(fā)研究員貢獻者,Data學院特邀講師,當前為蘇寧易購全產(chǎn)業(yè)算法研究負責人。

本文由 @沙韜偉 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉載。

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 好專業(yè),繼續(xù)爬貼消化這些知識先

    來自廣東 回復
  2. 請問蘇寧還招設計師嘛

    回復
  3. 最后一個圖 同類app下載量1 用戶準確 ;
    同類用戶 不是應該有 多個同類的app ?

    來自北京 回復
  4. 這個6,只不過表示沒看懂~~~

    來自北京 回復
    1. 哪里沒看懂啊,可能是我寫的不清楚,我解釋給你聽

      來自江蘇 回復
  5. 好專業(yè),學習了~不過有一個點,“女性用戶群的女鞋購買次數(shù)小于男性用戶群,則次模型異常,刪除”,作者確定這些就是異常數(shù)據(jù)嘛 ??

    來自浙江 回復
    1. 這只是舉個例子,但是實際上,瀏覽次數(shù)上看,還真的是55開

      來自江蘇 回復
    2. 其實我也懷疑。老婆喜歡給老公買衣服,自己卻很節(jié)儉

      回復