【標簽畫像系列】標簽體系設計與加工
編輯導語: 標簽體系在企業的數字化進程中是經常需要用到的,也是數據建設過程中必不可少的環節。那么如何進行標簽的設計與加工呢?作者根據自身的一些項目交付經驗進行了總結,一起來看一下吧。
在企業的數字化進程中,標簽體系的創建與使用在業務場景需求中經常用到,也基本是數據建設過程中必不可少的環節。
一般有互聯網基因的大公司,有專業的數據技術人才儲備,會自己實現整個標簽加工使用流程、技術選型等,也存在不具備相應人才的公司需要標準產品幫他們快速實現這個過程,無需再自己探索,B端的標準產品可以幫客戶快速實現標簽體系的搭建與標準化管理,解決業務問題。
本次我們一些項目交付經驗,先來聊聊標簽的設計與加工。
標簽的建設與應用一般需要經過幾個步驟:
- 標簽體系設計
- 標簽模型設計
- 標簽加工與更新
- 標簽應用
一、標簽體系設計
標簽服務于業務應用場景,好的標簽體系設計能夠讓業務人員在使用時隨需隨取,及時查詢出需要的數據,就算不具備這個標簽時,業務人員也可以自己快速加工出來,無需尋求數據開發的幫助。那需要做到
- 標簽類目劃分合理
- 標簽涵蓋的數據源豐富,標簽完善
- 后續擴展性高,即基于基礎標簽加工出新的標簽時,方便快速
標簽體系的設計一般會按照以下步驟:
1. 數據梳理
根據現有業務背景,以及數據,梳理出大概的標簽體系。如企業一般數據大概來源于這幾部分:
1)用戶基礎數據
用戶ID、性別、年齡、手機號、郵箱、身份證號、會員等級等基礎信息。
2)業務交易數據
如在零售領域,用戶發生的每一筆交易都會有記錄,如下圖:
3)用戶行為數據
如用戶在APP、PC、小程序等的瀏覽、點擊、收藏、評論行為,可反映出用戶的行為特點。
4)活動/積分數據
會員商城的cha會員等級、積分兌換等數據。
5)售后投訴數據
客戶投訴、售后處理等數據。
基于對數據的梳理,可進行標簽基本體系的梳理,梳理出一部分有價值的標簽。
2. 基于OLP模型體系化梳理標簽
OLP模型是目前比較通用的建立標簽體系的模型,OLP指“實體-關系-屬性”模型,用下方場景舉例:
- 實體:指對象,如人、書籍、門店等,可針對每個實體建立一套標簽體系
- 屬性:實體帶的特征,如人有性別、年齡屬性,書籍有價格、內容屬性,門店有售賣渠道、地址位置等屬性,屬性是一種類型的標簽
- 關系:通過動作產生關系,如基于購買動作,人和書籍產生關系,基于這個動作可產生消費時段偏好、支付方式偏好等標簽
基于該模型,對標簽進行查漏補缺,梳理出標簽類目與標簽。
3. 定義標簽與加工口徑
- 標簽中文、英文名:標簽的中文名稱、英文名稱
- 標簽所屬類目:標簽所屬一級、二級、三級類目
- 標簽類型:根據不同維度的劃分,采用其中一種。比如統計類標簽、預測類標簽、自定義標簽等,亦或是原子標簽、衍生標簽、組合標簽、算法標簽等
- 標簽值定義:定義每個標簽的標簽值,如“近一個月買入金額區間”標簽,可根據購買金額的區間段定義“零/低端”、“普通”、“中端”、“準高端”、“高端”等標簽值
- 標簽含義(描述):描述該標簽業務含義,如“最近30天的購買商品的金額區間,對用戶消費力進行評估”
- 標簽業務口徑:標簽以哪個數據定義為準,如“用戶活躍城市”標簽,以用戶購買次數最多的城市為口徑加工,而不是瀏覽次數、評論次數等
- 標簽技術口徑:描述該標簽從哪個表的哪個字段取值,SQL取數邏輯是什么
- 業務方來源:該標簽的業務需求方是誰
- 標簽更新周期:描述標簽更新頻次,天(如T+1、T+2等)、周、月、小時、分鐘更新等
- 標簽更新優先級:同一時間端跑多個標簽時,若資源有限,先跑優先級高的標簽
基于以上工作,最終得出一份標簽體系表,以這份表和業務方最終確認標簽劃分、標簽與標簽值、標簽加工口徑是否有疑義,沒問題,便可進入標簽開發環節。
二、標簽模型設計
進入具體開發之前,需考慮標簽模型層設計,在數倉加工出來哪些數據,標簽產品加工哪些數據。標簽模型依舊遵循數倉建模的“ODS-DWD-DWS-ADS”分層設計,基于DWD、DWS層抽象一層標簽模型層,加工標簽基礎標簽,屆時在標簽產品上讓業務人員通過規則可加工生成新的標簽。
一般遵循“公共層數據”、“大數據量計算”的標簽放在數倉中數據開發寫SQL實現,“通過規則可定義”、“標簽規則經常修改”的標簽在標簽產品中配置。數倉一般實現:
1. 公共層數據
包含基礎屬性數據、基礎指標(指標也可以作為一種標簽,如最近30天購買金額、最近30天訪問次數等),這些數據不僅給標簽系統用,也可以給BI報表、數據門戶使用,所以放在數倉中加工表。
1)基礎信息類標簽
2)交易類標簽
3)行為類標簽
2. 大數據量計算的標簽
如計算歷史最高花費金額、商品的歷史最高庫存、累計消費金額、用戶排序等,這些標簽的計算基于的數據量大,最好放在hive中跑批上線。
在數倉中加工好標簽基礎表,這些表中的標簽一般稱之為原子標簽,再將該表對接標簽產品,在標簽產品中進行衍生類、組合類標簽加工。
三、標簽模型設計
基于標簽模型的設計,一部分基礎指標類的標簽在數倉已建設完成,一部分標簽需要在產品界面上實現。我們接下來看下業務人員如何在袋鼠云標簽產品中配置標簽。
1. 根據業務對象,創建實體、關系
假設一個電商類客戶,需要建立一套用戶標簽體系,則首先創建“用戶”實體對象,并在實體對象下可以接入標簽多張基礎表,如用戶基礎信息表、用戶行為事件的指標表等,這些表的字段可作為原子標簽直接使用,作為后續加工衍生、組合標簽的基礎。
同時,在后續加工衍生標簽時,在某些場景上會用到多個實體下的原子標簽加工,這時候可以用“關系”將2個實體關聯起來,如將“用戶”實體與“書籍”實體通過用戶表的“最近購買商品ID”、以及書籍表的“書籍ID”關聯起來,便可以用到2個表的字段進行某個標簽的加工,如下圖:
2. 讀入原子標簽
從標簽基礎表中讀入原子標簽,進行原子標簽的元數據管理。
讀入原子標簽時,有些字段可能存儲的是編號或一些枚舉值,但業務人員需要看到具有真實業務含義的值,此處可做一層字典值映射。比如將“省市編號”映射為具體的省市名稱。
3. 創建衍生標簽
基于接入的數據表的原始字段和原子標簽,通過“且、或”關系、“求和、去 重計數、計數、最大值、最小值、均值”聚合函數、“等于、不等于、小于、小于等于、大于、大于等于、包含、不包含等”操作符,對源表字段進行加工,生成衍生標簽。
如基于用戶訪問次數、交易次數,加工“用戶活躍度“衍生標簽,包含“高活躍”、“一般活躍”、“睡眠狀態”標簽值,對用戶活躍度進行衡量。
除通過可視化規則加工標簽外,也會開放SQL界面寫SQL加工標簽,因為在實際場景中,客戶場景不禁相同,有些復雜標簽需要SQL快速實現,在產品界面上也可直接操作。
同時,雖然產品上會開放基于函數計算的標簽加工、SQL類的標簽加工,但還是會建議客戶將公共層的指標類標簽、及復雜類標簽放在數倉中實現,以使標簽配置這層輕量,屆時進行數據跑批時快速。
4. 創建組合標簽
基于原子標簽和衍生標簽,可進行組合標簽的創建,如基于最近交易時間、最近1年交易次數,最近1年交易金額區間這3個標簽,加工“用戶綜合價值”組合標簽,將客戶分為“低價值用戶”、“一般保持用戶”、“重要發展用戶”等。
5. 創建實時、算法標簽
- 實時標簽:如基于用戶實時行為數據通過Flink引擎計算實時標簽,如用戶點擊APP上的一個商品廣告,且加入購物車,判斷該客戶屬于“某類型商品感興趣用戶”,作為客戶短期興趣標簽。
- 算法標簽:如基于用戶的基金交易行為,預測該用戶屬于追漲、殺跌、高拋等哪種類型的客戶,作為客戶的風險偏好標簽。
最終將這些實時與算法標簽的元數據可統一接入標簽平臺統一管理。
標簽邏輯創建好之后,同時配置標簽的更新周期、更新優先級,進行標簽的定時跑批、手動跑批等。
標簽體系設計與加工先講到這里,歡迎大家一起討論。
本文由 @木研 原創發布于人人都是產品經理,未經許可,禁止轉載
題圖來自 Unsplash,基于 CC0 協議
本文由 @木研 原創發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
能不能說一下做標簽的意義?這些數據如果都在數據庫的話,我要的時候再按條件去查詢就好了呀,為什么要生成標簽
標簽生成后,運營可以直接根據標簽運營,并不是查數據那么簡單
謝謝
用戶畫像解決的核心痛點問題有哪些呢?
1.信息互通的問題?
2.全局視角使用的問題?
3.效能的問題?
4.資料維度case by case處理技術處理天花板的問題?
我感覺有客訴的時候會用得著,其他場景沒想到很有用處的,作者怎么看?
群組畫像的用處會更大一些,做運營動作的時候,可以更有針對性,比如某個群組女性用戶多,那可以從女性維度考慮
有了標簽就可以回憶起一些用戶的特點,可以對癥下藥
標簽就像是給工作一個總結概括,作者寫的也好!
作者分享的全面!像標簽設計這種小細節就要做到恰到好處
學會了學會了,這種標簽設計在工作時真的很有幫助!