用戶(hù)畫(huà)像連載二:時(shí)尚全媒體用戶(hù)畫(huà)像建模

3 評(píng)論 37474 瀏覽 253 收藏 7 分鐘

文章分享的主要內(nèi)容為用戶(hù)畫(huà)像要如何建模,希望本文對(duì)你有所幫助。

?用戶(hù)畫(huà)像最終的結(jié)果是一張大寬表,一行為一個(gè)用戶(hù)的用戶(hù)畫(huà)像,存儲(chǔ)了用戶(hù)對(duì)應(yīng)的每個(gè)標(biāo)簽值。建模就是為每個(gè)標(biāo)簽制定合理的計(jì)算公式。

(請(qǐng)點(diǎn)擊查看大圖)

基礎(chǔ)模型

基礎(chǔ)數(shù)據(jù)一般有用戶(hù)數(shù)據(jù)、內(nèi)容實(shí)體數(shù)據(jù)、用戶(hù)行為數(shù)據(jù)三類(lèi),需要根據(jù)用戶(hù)行為構(gòu)建相應(yīng)的數(shù)據(jù)模型產(chǎn)出標(biāo)簽和權(quán)重。每一次的用戶(hù)行為,可以詳細(xì)描述為:什么用戶(hù),在什么時(shí)間,什么地點(diǎn),發(fā)生了什么事。

  • 什么用戶(hù):即用戶(hù)識(shí)別,其目的是為了區(qū)分用戶(hù)。用戶(hù)識(shí)別的方式包括Cookie,注冊(cè)ID,微信,微博,QQ,手機(jī)號(hào)等。
  • 什么時(shí)間:在用戶(hù)行為中,普遍認(rèn)為近期發(fā)生的行為更能反映用戶(hù)當(dāng)下的特征,因此過(guò)往行為將表現(xiàn)為在標(biāo)簽權(quán)重上的衰減。
  • 什么地點(diǎn):即用戶(hù)的接觸點(diǎn),,包含了兩個(gè)潛在信息:網(wǎng)址和內(nèi)容。內(nèi)容決定標(biāo)簽,網(wǎng)址決定權(quán)重。用戶(hù)在天貓瀏覽了iPhone6的信息和在蘋(píng)果官網(wǎng)瀏覽也將存在權(quán)重的差異,因此,網(wǎng)址的內(nèi)容反映了標(biāo)簽信息,網(wǎng)址本身則表征了標(biāo)簽的權(quán)重。本案例中的業(yè)務(wù)以閱讀型為主,把網(wǎng)址權(quán)重都簡(jiǎn)化為1。
  • 做了什么:用戶(hù)的行為類(lèi)型,例如訪(fǎng)問(wèn)、收藏、試用、分享、搜索等,同樣反映的是標(biāo)簽的權(quán)重。

從上述建模方法中,我們可以簡(jiǎn)單勾畫(huà)出一個(gè)用戶(hù)行為的標(biāo)簽權(quán)重公式:

標(biāo)簽權(quán)重=時(shí)間衰減(何時(shí))x網(wǎng)址權(quán)重(何地)x行為權(quán)重(做什么)

如果是訪(fǎng)問(wèn)行為,可以再增加訪(fǎng)問(wèn)時(shí)長(zhǎng)的權(quán)重,10S以?xún)?nèi)權(quán)重為1,10S-30S為2,30S以上為3

最后把用戶(hù)一段時(shí)間內(nèi)同一個(gè)標(biāo)簽的權(quán)重進(jìn)行累加,就獲得到用戶(hù)此標(biāo)簽的值。

根據(jù)行為的成本大小來(lái)判斷標(biāo)簽的權(quán)重,成本越高越是真愛(ài)。例如訪(fǎng)問(wèn)頁(yè)面是成本最小的,同時(shí)賦予標(biāo)簽的權(quán)重值就較低收藏能代表用戶(hù)的喜好,權(quán)重較高。

此外這里我們假設(shè)同一個(gè)頁(yè)面所附屬標(biāo)簽和頁(yè)面內(nèi)容的相關(guān)度都是一樣的,例如一篇文章《女人懂西裝是一件很性感的事 你的他穿對(duì)了嗎》附帶了男裝、高級(jí)定制、時(shí)尚、潮流、西裝?5個(gè)不同標(biāo)簽,其實(shí)內(nèi)容和標(biāo)簽的相關(guān)度會(huì)有差異,可以通過(guò)編輯人工或者機(jī)器學(xué)習(xí)的方式為標(biāo)簽賦予不同的相關(guān)度,這樣最終得出的標(biāo)簽權(quán)重可信度更高。

以上只是基礎(chǔ)模型,適用于內(nèi)容標(biāo)簽、產(chǎn)品分類(lèi)、產(chǎn)品標(biāo)簽、品牌標(biāo)簽。美妝總體偏好度、用戶(hù)活躍度、用戶(hù)價(jià)值等標(biāo)簽仍需要單獨(dú)建立模型。潛在需求的挖掘適用回歸預(yù)測(cè)等算法模型。

內(nèi)容偏好度(美妝、服飾)模型

用某分類(lèi)下所有標(biāo)簽的累加值來(lái)度量用戶(hù)對(duì)內(nèi)容的總體偏好度,例如:用戶(hù)A的美妝偏好度為其所有美妝類(lèi)標(biāo)簽值的加和。如果服飾總體偏好度大于美妝偏好度,說(shuō)明用戶(hù)訪(fǎng)問(wèn)的服飾內(nèi)容較多,在本站內(nèi)更偏向看服飾內(nèi)容。

活躍度模型

活躍度可以根據(jù)用戶(hù)來(lái)訪(fǎng)、互動(dòng)情況、核心功能使用頻率等綜合確定。例如:

  • 核心用戶(hù):每周有訪(fǎng)問(wèn)、近一個(gè)月互動(dòng)次數(shù)達(dá)到30次以上
  • 活躍用戶(hù):每周有訪(fǎng)問(wèn)、互動(dòng)次數(shù)10次以上
  • 一般用戶(hù):每月有訪(fǎng)問(wèn)
  • 流失用戶(hù):3月以上未訪(fǎng)問(wèn)

用戶(hù)價(jià)值模型

消費(fèi)領(lǐng)域最廣泛應(yīng)用的是RFM模型。

  • R是Recency,最近一次消費(fèi);R5最高,最近一周有消費(fèi),最近兩周,最近一個(gè)月,最近兩月,最近半年;
  • F是Frequency,消費(fèi)頻率; ?最近6個(gè)月消費(fèi)次數(shù),例如:五次以上為 F5,依次類(lèi)推;
  • M是Monetary,消費(fèi)金額;

計(jì)算結(jié)果為:543,代表R5F4M3級(jí)別對(duì)用戶(hù),根據(jù)產(chǎn)品類(lèi)型的不同,可以調(diào)整R、F、M的定義。

借鑒RFM模型的思想,我們可以把用戶(hù)行為也拆解為三個(gè)維度來(lái)衡量:最近訪(fǎng)問(wèn)時(shí)間、訪(fǎng)問(wèn)頻次 、互動(dòng)次數(shù);(只是一種想法,未經(jīng)實(shí)踐檢驗(yàn))

  • R替換成最近訪(fǎng)問(wèn)時(shí)間,R5最高,最近一周訪(fǎng)問(wèn)、最近兩周、最近一個(gè)月、最近兩個(gè)月、最近三個(gè)月;
  • F替換成訪(fǎng)問(wèn)頻次(UV),F(xiàn)5最高,30次以上為F5,依次類(lèi)推;
  • M替換成互動(dòng)次數(shù),R5最高,60次以上為R5,依次類(lèi)推;

最后簡(jiǎn)單說(shuō)下需要預(yù)測(cè)的標(biāo)簽?zāi)P停A(yù)測(cè)更多是推薦系統(tǒng)要做的事情,類(lèi)似潛在需求的標(biāo)簽需要用到機(jī)器學(xué)習(xí)算法,根據(jù)用戶(hù)標(biāo)簽權(quán)重、收藏了產(chǎn)品A、產(chǎn)品C、產(chǎn)品D的用戶(hù),挖掘還喜歡哪些產(chǎn)品和內(nèi)容。比較常見(jiàn)的有貝葉斯、回歸算法。

 

作者:百川,微信公眾號(hào):修煉大數(shù)據(jù)(studybigdata)

本文由 @百川 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自PEXELS,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 受益很大,跟鞋大佬,已關(guān)注微信和人人

    來(lái)自江蘇 回復(fù)
  2. 請(qǐng)問(wèn)個(gè)問(wèn)題,各模式里面定義的每個(gè)標(biāo)簽權(quán)重(如核心用戶(hù):每周有訪(fǎng)問(wèn)、近一個(gè)月互動(dòng)次數(shù)達(dá)到30次以上),每個(gè)產(chǎn)品可能不同的階段設(shè)置的值都不同,這個(gè)有通用的計(jì)算模式或制定思路么?

    來(lái)自四川 回復(fù)
    1. 確實(shí)很難有通用的計(jì)算模式,不同產(chǎn)品的產(chǎn)品特性是不一樣的,運(yùn)營(yíng)的關(guān)鍵點(diǎn)也是有差異的,可以先和運(yùn)營(yíng)共同商定一個(gè)版本,隨著運(yùn)營(yíng)在調(diào)整

      來(lái)自北京 回復(fù)