Qunar用戶畫像構(gòu)建策略及應(yīng)用實(shí)踐
用戶畫像作為大數(shù)據(jù)的根基,它完美的描述了一個(gè)用戶的信息全貌,為進(jìn)一步精準(zhǔn)、快速的分析用戶行為、消費(fèi)等重要信息,用戶畫像倉庫同時(shí)也提供了足夠的數(shù)據(jù)基礎(chǔ),讓我們Qunar更好的為用戶提供高價(jià)值的服務(wù),滿足用戶智慧出行的需要。
1. 用戶畫像的構(gòu)建原則
我們做用戶畫像的目的有兩個(gè):
- 必須從業(yè)務(wù)場(chǎng)景出發(fā),解決實(shí)際的業(yè)務(wù)問題,之所以進(jìn)行用戶畫像要么是獲取新用戶,或者是提升用戶體驗(yàn),或者是挽回流失用戶等有明確的業(yè)務(wù)目標(biāo);
- 根據(jù)用戶畫像的信息做產(chǎn)品設(shè)計(jì),必須要清楚知道用戶長(zhǎng)什么樣子,有什么行為特征和屬性,這樣才能為用戶設(shè)計(jì)產(chǎn)品或開展?fàn)I銷活動(dòng)。一般常見的錯(cuò)誤想法是畫像維度的數(shù)據(jù)越多越好,畫像數(shù)據(jù)越豐富越好,費(fèi)了很大的力氣進(jìn)行畫像后,卻發(fā)現(xiàn)只剩下了用戶畫像,和業(yè)務(wù)相差甚遠(yuǎn),沒有辦法直接支持業(yè)務(wù)運(yùn)營,投入精力巨大但是回報(bào)微小,可以說得不償失。鑒于此,我們的畫像的維度和設(shè)計(jì)原則都是緊緊跟著業(yè)務(wù)需求去推動(dòng)。
2. 用戶畫像數(shù)據(jù)倉庫構(gòu)建
2.1 數(shù)據(jù)源的集成
目前Qunar用戶畫像數(shù)據(jù)倉庫中的數(shù)據(jù)源來自業(yè)務(wù)數(shù)據(jù)庫的數(shù)據(jù)和用戶行為日志數(shù)據(jù),目前數(shù)據(jù)倉庫中基本涵蓋了機(jī)票、酒店、火車票以及保險(xiǎn)等業(yè)務(wù)系統(tǒng)的數(shù)據(jù),可以從全方位的了解去哪兒的一個(gè)用戶的畫像。
2.2?數(shù)據(jù)維度:我們有哪些數(shù)據(jù)?
2.3?數(shù)據(jù)倉庫:我們有哪些數(shù)據(jù)?
目前我們畫像數(shù)據(jù)倉庫的構(gòu)建都是基于Qunar基礎(chǔ)數(shù)據(jù)倉庫進(jìn)行構(gòu)建,并按照維度進(jìn)行劃分。
目前數(shù)據(jù)倉庫中包括的信息如下:
(1)畫像數(shù)據(jù)倉庫表20個(gè)
(2)畫像數(shù)據(jù)倉庫
(3)國內(nèi)、國際 2年+數(shù)據(jù)
(4)標(biāo)簽數(shù)據(jù)
(5)每日增量
- 基本數(shù)據(jù)
- 業(yè)務(wù)數(shù)據(jù)
- 搜索
- Booking
2.4?用戶唯一標(biāo)識(shí)設(shè)計(jì)
用戶唯一標(biāo)識(shí)是整個(gè)用戶畫像的核心,它把從用戶開始使用app到下單到售后整個(gè)所有的用戶行為軌跡進(jìn)行關(guān)聯(lián),可以更好的去跟蹤和描繪一個(gè)用戶的特征。
2.5?調(diào)度系統(tǒng):ETL過程設(shè)計(jì)
- 依賴數(shù)據(jù)平臺(tái)調(diào)度系統(tǒng)
- 定時(shí)觸發(fā)和Job依賴觸發(fā)兩種模式
2.6?任務(wù)執(zhí)行:ETL過程設(shè)計(jì)
- ETL的過程主要是將數(shù)據(jù)源的清洗到數(shù)據(jù)倉庫表的過程(每天更新增量)
- Summary表的處理邏輯(每天更新全量)
- 標(biāo)簽庫的處理(每周更新,2年全量)
2.7?用戶主題分析及數(shù)據(jù)挖掘
有了豐富的畫像數(shù)據(jù)后,產(chǎn)品和運(yùn)營人員可以根據(jù)用戶主題進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)挖掘相關(guān)的工作。用戶主題Cube的定義如下:
(1)Measure
- 訂單數(shù)量
- 訂單金額
- 搜索次數(shù)
- Booking次數(shù)
(2)Dimension
- 下單時(shí)間
- 出發(fā)時(shí)間
- 航司信息
- 艙位信息
- 航班(出發(fā)地、目的地)
- 基本信息(年齡、性別等自然屬性)
3. 用戶畫像標(biāo)簽構(gòu)建策略
3.1 用戶標(biāo)簽特征屬性
用戶的特征屬性可以是事實(shí)的,也可以是抽象的;可以是自然屬性,比如性別,年齡,星座等,可以是社會(huì)屬性,比如職業(yè),社交,出生地等;還可以是財(cái)富狀況,比如是否高收入人群,是否有豪車豪宅等固定資產(chǎn),對(duì)于機(jī)票用戶來講位置特征也是比較重要的屬性,比常駐地,常出差地,老家等。這些屬性都可以清楚的描繪一個(gè)用戶的畫像特征。
- 畫像標(biāo)簽一般根據(jù)公司的業(yè)務(wù)體系來設(shè)計(jì),存儲(chǔ)有HDFS,HBASE,ES
- 標(biāo)簽的更新頻率:每日更新,每周、每月更新
- 標(biāo)簽的生命周期:有的數(shù)據(jù)隨時(shí)間衰減迭代
3.2?用戶標(biāo)簽分類及特征項(xiàng)
提到用戶畫像就不得不提到一個(gè)詞“標(biāo)簽”。標(biāo)簽是表達(dá)人的基本屬性、行為傾向、興趣偏好等某一個(gè)維度的數(shù)據(jù)標(biāo)識(shí),它是一種相關(guān)性很強(qiáng)的關(guān)鍵字,可以簡(jiǎn)潔的描述和分類人群。標(biāo)簽的定義來源于業(yè)務(wù)目標(biāo),基于不同的行業(yè),不同的應(yīng)用場(chǎng)景,同樣的標(biāo)簽名稱可能代表了不同的含義,也決定了不同的模型設(shè)計(jì)和數(shù)據(jù)處理方式。我們給機(jī)票用戶畫像打標(biāo)簽分類為兩大類,基礎(chǔ)類標(biāo)簽和個(gè)性化標(biāo)簽,這些標(biāo)簽可以有重復(fù),但是都是通過不同的角度去定義和刻畫一個(gè)用戶,來滿足不同的業(yè)務(wù)營銷需求。
3.3?用戶標(biāo)簽庫構(gòu)建流程
4. 用戶畫像技術(shù)架構(gòu)
4.1 技術(shù)架構(gòu)
4.2?實(shí)施方法論
5. 用戶畫像數(shù)據(jù)應(yīng)用實(shí)踐
5.1 用戶群體特征分析
(1)設(shè)計(jì)目標(biāo)
- 根據(jù)條件可選項(xiàng),輸出篩選用戶群體
- 圖形展示用戶群體屬性特征
(2)應(yīng)用場(chǎng)景
- 如果篩選的用戶群組滿足業(yè)務(wù)的要求,將篩選條件形成參數(shù)
- 根據(jù)參數(shù)提供接口查詢
5.2?客戶行為預(yù)測(cè)
客戶行為預(yù)測(cè)建立步驟:
- 建模數(shù)據(jù)準(zhǔn)備
- 客戶流失節(jié)點(diǎn)判斷
- 模型應(yīng)用變量確定
- 模型構(gòu)建
- 模型應(yīng)用
- 模型驗(yàn)證
可以對(duì)用戶流失做及時(shí)預(yù)測(cè)指導(dǎo)建議用戶維系運(yùn)營。
5.3?數(shù)據(jù)和業(yè)務(wù)在一起
用戶畫像與業(yè)務(wù)產(chǎn)品互相依賴,相輔相成。
- 用戶畫像標(biāo)簽庫豐富優(yōu)化
- 快速提供數(shù)據(jù)服務(wù)
- 數(shù)據(jù)分析+機(jī)器學(xué)習(xí)+模型訓(xùn)練
6. 總結(jié)
用戶畫像作為大數(shù)據(jù)的根基,它完美的描述了一個(gè)用戶的信息全貌,為進(jìn)一步精準(zhǔn)、快速的分析用戶行為、消費(fèi)等重要信息,用戶畫像倉庫同時(shí)也提供了足夠的數(shù)據(jù)基礎(chǔ),讓我們Qunar更好的為用戶提供高價(jià)值的服務(wù),滿足用戶智慧出行的需要。
作者:李國芳
來源:http://www.36dsj.com/archives/68574
本文來源于人人都是產(chǎn)品經(jīng)理合作媒體@36大數(shù)據(jù),作者@李國芳
寫的好棒,有些東西還需要消化一下,像流失預(yù)測(cè)這類的模型,除了運(yùn)營有想法外,還需要有給力的數(shù)據(jù)支撐能建立起模型;標(biāo)簽的建立也是,除了有用戶特征的埋點(diǎn),哪些特征組成標(biāo)簽,是否有方法論