阿里/網(wǎng)易/汽車之家畫像標(biāo)簽體系
編輯導(dǎo)語:上一篇《阿里/網(wǎng)易/美團(tuán)/58用戶畫像中的ID體系建設(shè)》,筆者進(jìn)行了畫像體系中的地基建設(shè),ID-Mapping體系的打通;接下來一起探究阿里、網(wǎng)易、汽車之家標(biāo)簽體系搭建方法,我們一起來看一下。
一、阿里
為打破數(shù)據(jù)孤島,創(chuàng)造更大的數(shù)據(jù)價(jià)值,阿里設(shè)計(jì)了OneEntity來提供全域數(shù)據(jù)與服務(wù);OneEntity體系主要包含統(tǒng)一實(shí)體、全域標(biāo)簽、全域關(guān)系、全域行為4大類。
1.?標(biāo)簽分類
其中GProfile全域標(biāo)簽的分類,將“人”的立體刻畫劃分為“人的核心屬性”和“人的向往與需求”2大部分,具體包含4大類:
人的核心屬性,可分為自然屬性、社會屬性:
- 自然屬性:是指人的肉體存在及其特征,是人自出生后自然存在的,一般不會因人為因素發(fā)生較大的改變;例如“性別”“生肖”“年齡”“身高”“體重”等。
- 社會屬性:指人在實(shí)踐活動(dòng)基礎(chǔ)上產(chǎn)生的一切社會關(guān)系的總和。人一旦進(jìn)入社會就會產(chǎn)生社會屬性;例如經(jīng)濟(jì)狀況、家庭狀況、社會地位、政治宗教、地理位置、價(jià)值觀等。
人的向往與需求,可分為興趣偏好、行為消費(fèi)偏好:
- 興趣偏好:是人堆非物化對象的內(nèi)在心理向往與外在行為表達(dá),是一種法子內(nèi)心的本能喜好,與物質(zhì)無必然關(guān)系;例如渴望愛情、需要安全感、討厭臟亂環(huán)境等。
- 行為消費(fèi)偏好:是人對物化對象的需求與外在行為表達(dá),涉及各行業(yè),與物質(zhì)世界存在千絲萬縷的聯(lián)系;例如母嬰行業(yè)偏好、美妝行業(yè)偏好、洗護(hù)行業(yè)偏好、家裝行業(yè)偏好等。
在以上四大類的基礎(chǔ)上,我們又嘗試根據(jù)不同的業(yè)務(wù)形態(tài)進(jìn)一步細(xì)分二級、三級分類。
2. 標(biāo)簽萃取
標(biāo)簽的萃取工作包含:數(shù)據(jù)采集、清洗,去噪聲并統(tǒng)一、反復(fù)試用并確定最佳算法及模型、為模型選擇計(jì)算因子并對模型中的每一個(gè)計(jì)算因子調(diào)配權(quán)重、產(chǎn)出標(biāo)簽質(zhì)量評估報(bào)告以輔助驗(yàn)收。
我們隨機(jī)抽查了若干個(gè)在用的標(biāo)簽,預(yù)估工作量和工作周期,一個(gè)有價(jià)值的標(biāo)簽的萃取,平均耗時(shí)2周。
慢的主要原因:
- 由于萃取流程復(fù)雜,每個(gè)標(biāo)簽萃取都依賴底層的基礎(chǔ)數(shù)據(jù),而較少依賴上一層匯總的數(shù)據(jù)中間層數(shù)據(jù);
- 大量重復(fù)的人力,對應(yīng)的標(biāo)簽萃取邏輯時(shí)可以復(fù)用的,包含算法的選擇、模型訓(xùn)練和計(jì)算因子的加權(quán)等;但由于不同人來做,造成了很多重復(fù)工作。
標(biāo)簽萃取過程復(fù)雜,那有什么可以參考的流程呢?
- 首先,數(shù)據(jù)源層面:建設(shè)一套完整的數(shù)據(jù)源,以O(shè)neEntity體系為核心,將OneEntity相關(guān)實(shí)體及其行為全部串聯(lián)起來,與存量的標(biāo)簽一起作為數(shù)據(jù)源。
- 其次,標(biāo)簽計(jì)算層面:將標(biāo)簽萃取邏輯沉淀為2種,分別對應(yīng)到偏好類標(biāo)簽和分類預(yù)測類標(biāo)簽的工具型產(chǎn)品的生產(chǎn)過程中,包含計(jì)算因子、權(quán)重等業(yè)務(wù)規(guī)則、數(shù)據(jù)樣本選擇、模型與算法選擇等。
- 最后,標(biāo)簽監(jiān)測層面:沉淀質(zhì)量評估報(bào)告和生產(chǎn)監(jiān)測、上線等管理流程。
當(dāng)一整套工具型產(chǎn)品上線之后,批量生產(chǎn)十幾個(gè)同類型標(biāo)簽只需要2天左右,這是因?yàn)樵谘a(bǔ)足數(shù)據(jù)源、確定業(yè)務(wù)規(guī)則、選擇數(shù)據(jù)樣本、選擇算法與模型的過程中,減少了大量的代碼開發(fā)與模型訓(xùn)練的工作。
在這個(gè)過程中,參與的角色也發(fā)生了變化,從原本的以數(shù)據(jù)產(chǎn)品經(jīng)理、數(shù)倉工程師、數(shù)據(jù)科學(xué)家為主導(dǎo);轉(zhuǎn)變?yōu)閷I(yè)務(wù)更為熟悉的業(yè)務(wù)人員、數(shù)據(jù)分析師為主導(dǎo)。
GRelation全域關(guān)系、GBehavior全域行為在此不再贅述。
二、網(wǎng)易
網(wǎng)易大數(shù)據(jù)融合用戶娛樂、電商購物、教育、新聞資訊、通訊等多行業(yè)10+產(chǎn)品線,構(gòu)建起全域用戶畫像數(shù)據(jù),目前總標(biāo)簽1000+,ID量URS、phone、idfa、IMEI、oaid等均達(dá)到憶級。
1. 標(biāo)簽分類
1)基礎(chǔ)標(biāo)簽
性別、年齡、教育背景、生活習(xí)慣(早起晚起)、地理位置(POI信息)、職業(yè)狀況、經(jīng)濟(jì)情況(有車有房)、設(shè)備信息(手機(jī)、運(yùn)營商等)、會員信息(會員等級)、衍生信息。
其中衍生標(biāo)簽,如評估是否已婚,在原由標(biāo)簽體系下沒有此類標(biāo)簽;但可通過多個(gè)標(biāo)簽進(jìn)行組合生成新的標(biāo)簽,包含是否有小孩、30歲等條件組合。
2)行為標(biāo)簽
包含地域、廣告、搜過、播放、點(diǎn)擊、評論、關(guān)注、收藏、購買等維度。
3)偏好標(biāo)簽
包含出行購物、手機(jī)數(shù)碼、家裝家居、教育公益、文化娛樂、新聞資訊、金融理財(cái)、游戲競技、動(dòng)漫影視、明星藝人等維度
4)預(yù)測標(biāo)簽
包含利用算法進(jìn)行預(yù)測生成的標(biāo)簽,包含是否出行、是否買車等標(biāo)簽。
注意:
- 標(biāo)簽的枚舉值十分重要,業(yè)務(wù)分析過程中很容易出現(xiàn)枚舉值的偏差,不符合實(shí)際業(yè)務(wù)邏輯;
- 注意標(biāo)簽之間的沖突,如年齡15歲,學(xué)歷卻是博士或者有小孩。
2. 標(biāo)簽計(jì)算
預(yù)測類標(biāo)簽案例:性別,主要包含三種方案:
- 標(biāo)簽傳播:根據(jù)用戶在各個(gè)業(yè)務(wù)場景,如母嬰商品點(diǎn)擊行為,進(jìn)行item標(biāo)記,構(gòu)建user-item的興趣網(wǎng)絡(luò)進(jìn)行 Graph Embedding,最后進(jìn)行分類,預(yù)測用戶的性別。
- 語義分析:利用NLP算法對用戶昵稱進(jìn)行語義分析
- 自行填寫:利用業(yè)務(wù)屬性自行填寫的內(nèi)容進(jìn)行判斷,此處需對數(shù)據(jù)質(zhì)量進(jìn)行過濾,排除如生日為1990-01-01的參數(shù)異常值信息。
基于上述三類算法特征結(jié)果集,對模型進(jìn)行融合,然后對用戶的性別進(jìn)行預(yù)測,其準(zhǔn)確率在0.6以上。
注意:需要突破的地方在于特征的稀疏性,因?yàn)镮D-mapping打通后,數(shù)據(jù)覆蓋率僅20%左右,嚴(yán)重影響了模型的整體效果。
三、汽車之家
用戶畫像的構(gòu)建就是把用戶標(biāo)簽分列到不同的類里面,這些類都是什么,彼此之間的聯(lián)系,就構(gòu)成了標(biāo)簽體系。
1. 按用途分類
1)人口屬性
用戶自然屬性、用戶會員、用戶所屬年代、用戶價(jià)值登記、是否增換購用戶、用戶分群、UVN-B用戶分群、用戶分層、用戶流失預(yù)警。
2)網(wǎng)絡(luò)屬性
用戶APP設(shè)備信息、用戶PC設(shè)備信息、用戶活躍時(shí)段、用戶平臺偏好、用戶活躍類型。
3)內(nèi)容興趣偏好
業(yè)務(wù)類型偏好、內(nèi)容分類標(biāo)簽、用戶關(guān)注作者偏好、用戶產(chǎn)品偏好、用戶顯式負(fù)反饋、用戶論壇偏好、車友圈偏好、用戶興趣欄目。
4)車興趣偏好
用戶短期興趣車偏好、用戶興趣車偏好、配置偏好、用戶顏色偏好、用戶購車目的、用戶置換偏好、用戶推薦有車、二手車用戶偏好、用戶購車意向、用戶新舊偏好、用戶購車階段、用戶有車標(biāo)簽、用戶興趣集中度、用戶能源偏好、用戶生產(chǎn)方式偏好。
5)金融畫像
分期購車意向度、用戶購買力、二手車用戶購買力、用戶汽車價(jià)格偏好、用戶經(jīng)濟(jì)屬性、增換購用戶預(yù)測線索。
6)場景畫像
用戶地理位置。
2. 按統(tǒng)計(jì)方式分類
1)統(tǒng)計(jì)類標(biāo)簽
統(tǒng)計(jì)類標(biāo)簽,通過業(yè)務(wù)規(guī)則,將業(yè)務(wù)問題轉(zhuǎn)化為數(shù)據(jù)口徑實(shí)現(xiàn);如收藏列表、 搜索關(guān)鍵詞、保險(xiǎn)到期時(shí)間、是否下過線索、30天內(nèi)訪問xx次等。
2)興趣類標(biāo)簽
興趣類標(biāo)簽,基于興趣遷移模型構(gòu)建用戶標(biāo)簽。綜合考慮特征、特征權(quán)重、距今時(shí)間、行為次數(shù)等因素,用戶興趣標(biāo)簽構(gòu)建公式如下:
用戶興趣標(biāo)簽=行為類型權(quán)重*時(shí)間衰減*行為次數(shù)
- 特征:需要結(jié)合業(yè)務(wù)選擇,如瀏覽、搜索、線索、對比、互動(dòng)、點(diǎn)擊、有車等行為。
- 權(quán)重:用戶在平臺上發(fā)生的行為具體到用戶標(biāo)簽層面有著不同的行為權(quán)重,一般而言,行為發(fā)生的成本越高,權(quán)重越大;可以由業(yè)務(wù)人員確定,也可以采用TF-IDF技術(shù)分析得出。
- 時(shí)間衰減:用戶行為收時(shí)間的影響不斷衰減,距離現(xiàn)在越遠(yuǎn),對用戶興趣的影響越低,這里采用牛頓冷卻定律的思想擬合衰減系數(shù),衰減周期結(jié)合業(yè)務(wù)制定。
- 行為次數(shù):在固定時(shí)間周期內(nèi)行為發(fā)生的次數(shù)越多,興趣傾向越重。
3)模型類標(biāo)簽
基于機(jī)器學(xué)習(xí)方法進(jìn)行數(shù)據(jù)建模預(yù)測用戶的標(biāo)簽,這類標(biāo)簽在標(biāo)簽體系中占比較少,其實(shí)現(xiàn)難度高,開發(fā)成本高。
例如:
- 是否有車:基于RF+LR模型實(shí)現(xiàn)
- 常駐地:基于GPS聚類獲取,采用DBSCAN
- 購車轉(zhuǎn)化:GBDT
- 用戶分群:KMENAS聚類產(chǎn)生
3. 按時(shí)效分類
從數(shù)據(jù)時(shí)效上,可分為離線畫像和實(shí)時(shí)畫像。
離線與實(shí)時(shí)采用的構(gòu)建思想相同,不同之處在于:
- 離線畫像:描述用戶長期的習(xí)慣;
- 實(shí)時(shí)畫像:描述用戶當(dāng)下的興趣,會隨時(shí)間的改變而發(fā)生變更;
四、總結(jié)
各大公司的標(biāo)簽分類不同,現(xiàn)市面上有三種常用的標(biāo)簽分類方式:
- 按用途分類,可分為基礎(chǔ)信息、用戶行為、業(yè)務(wù)偏好、場景標(biāo)簽;
- 按統(tǒng)計(jì)方式分類,可分為事實(shí)類標(biāo)簽、規(guī)則類標(biāo)簽、預(yù)測類標(biāo)簽;
- 按時(shí)效分類,可分為靜態(tài)標(biāo)簽、動(dòng)態(tài)標(biāo)簽。
篇幅有限,接下來繼續(xù)開展標(biāo)簽體系建設(shè)實(shí)踐篇。
畫像系列文章:
數(shù)據(jù)產(chǎn)品索隆,坎坷的標(biāo)簽體系建設(shè)之路
數(shù)據(jù)產(chǎn)品索隆,標(biāo)簽體系建設(shè)流程
標(biāo)簽構(gòu)建過程中,如何快速盤點(diǎn)業(yè)務(wù)及數(shù)據(jù)需求?
阿里/網(wǎng)易/美團(tuán)/58用戶畫像中的ID體系建設(shè)
作者:草帽小子;公眾號:一個(gè)數(shù)據(jù)人的自留地,wx:luckily304
本文由 @草帽小子 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
我就是之家做內(nèi)容策略的,且不說你這個(gè)信息都多久之前的了,你這個(gè)標(biāo)簽的圖經(jīng)過之家的同意了么就公開?
汽車之家標(biāo)簽體系能分享一下嗎?謝謝
汽車之家標(biāo)簽體系導(dǎo)圖能分享一下嘛?謝謝
能加您個(gè)微信咨詢一下嗎?
設(shè)定權(quán)重有什么規(guī)則呢?
積分商城PRD
有用