數據產品經理之標簽體系建設思路
在企業的許多業務上,標簽都有著廣泛的應用,那么,怎么做好標簽體系的設計搭建?這篇文章里,作者復盤了公司標簽體系應用中常出現的問題與原因,并梳理了標簽體系設計搭建的相關內容,一起來看一下。
一、標簽(tag)是什么
我們通常說打標簽的時候,多少帶有一點貶義的色彩。打標簽一般與刻板印象相連,僅憑某些行為/動作/狀態對人或事物下判斷,給人或事物增加了某種屬性。
在大數據的世界中,標簽應用非常廣泛。標簽是用戶畫像的基礎,可以通過標簽刻畫用戶特征??梢酝ㄟ^標簽進行客戶分群,實現精準化營銷和個性化投放。
按用途分類,一般常見的分類是基礎信息標簽、用戶行為標簽、業務偏好標簽。
- 基礎信息標簽指的是如年齡、性別等社會學信息;
- 用戶行為標簽指的是對用戶行為的描述,如近7天用戶購買、近30天用戶提款等;
- 業務偏好標簽指的是用戶對業務內容的偏好,如對某垂類視頻內容偏好等。
按時效分類,分為T+1標簽和準實時標簽。
按主體分類,標簽主體可以是人(用戶),也可以是企業(客戶)或其他主體,需要看不同公司的業務情況而定。
這里涉及到打標主體ID的識別,人和企業可能有多種ID,比如同樣是個體用戶,ID類型有phone手機號、openid、unionid、設備號、公司業務ID等。同樣是企業客戶,ID類型有統一社會信用代碼、企業名稱、納稅號、公司業務ID等。
在某些場景下,數據情況僅支持某一類型的ID打標,但使用場景可能會用到其他類型的ID。是否可以把不同類型的ID打通,實現全維度的打標?這就會用到ID-Mapping技術,有些公司也稱為One Entity。
二、標簽的用途
標簽在公司業務上有著非常廣泛的應用。
- 客戶畫像:作為打在用戶上的屬性,各種基礎信息標簽、用戶行為標簽、業務偏好標簽可以對客戶進行刻畫,幫助業務了解客戶情況,進行價值判斷和業務決策。
- 客戶分群:通過單標簽或多標簽的組合,進行客群的圈選。選中的客群滿足特定標簽的條件。常用作廣告投放、精準營銷的場景。
三、公司標簽應用中常出現的問題
在聊標簽體系設計搭建之前,我們先復盤看看公司標簽體系應用中常出現的一些問題和原因,思考下在后續標簽體系設計的過程中可以怎么避免。
a.標簽元數據維護不夠細致,業務通過標簽元數據文檔查找可用標簽時,無法確定是否滿足使用場景。【標簽是什么、怎么用】
原因是標簽元數據維護顆粒度較粗,即使標簽命名相同,不同業務對標簽口徑的理解也可能不一樣,此時如果業務口徑只有簡單一兩句話,業務無法判斷此標簽是否能用于其業務場景。沒有技術口徑,需要開發查看代碼確定業務的問題。這里的溝通成本很高,需要花費很多時間進行標簽邏輯的回看和確認。
在標簽體系設計過程中,元數據維護上應該有詳細的業務口徑和技術口徑,且統一標簽的命名規范。
b.標簽分類復雜且有近義,業務無法通過標簽目錄找到想用的標簽/找不到已存在的可用標簽,重復提已有標簽的加工需求?!緲撕炘谀睦铩?/strong>
原因一是標簽目錄設計沒做好,在標簽體系設計之初,就應該規劃好標簽的分級分類。二是在標簽需求實現過程中復核缺位,導致近義分類膨脹。
在標簽體系設計過程中,應該提供標簽目錄樹的功能,能查看目前標簽的分級分類并進行調整。由于標簽投產后,元數據也會被下游業務系統應用。調整標簽元數據需要考慮對下游的影響,標簽和分類需要解耦,標簽分類的調整不能影響標簽的正常使用。
另外是標簽管理辦法的細化和標簽管理員的職責。建設標簽全生命周期管理體系,按照需求評審——開發投產——標簽核驗——生產啟用——變更——下線的不同階段進行管理,在評審和核驗階段需要進行標簽需求方和管理員進行復核。定期review最新的標簽分類并進行梳理,對相近分類進行合并調整。
c.標簽加工后客群試算數量和業務手工跑的/預期不一致?!緲撕灁祿粚Α?/strong>
原因是標簽數據質量問題,在標簽投產后沒有進行核驗。需要查看標簽加工取數表的數據是否出現異常,比如沒有正常推送。需要復核標簽技術口徑是否和需求業務口徑一致。
d.標簽投產后業務沒有使用過,很多僵尸標簽?!緲撕灈]人用】
需要進行標簽生命周期管理,一定時間段內沒有業務使用過的標簽,進行標簽下線處理,減少計算和存儲資源的浪費。
除了以上列的常見問題,還有一些其他的情況。下面標簽體系設計搭建,嘗試回答上面的常見問題。
四、標簽體系設計搭建
這里把標簽體系設計分為:數據源層、元數據層、標簽加工層、標簽服務層、標簽全生命周期管理。
1. 數據源層
標簽加工的數據源包括業務數據、埋點數據、日志數據和第三方數據。
2. 元數據層
元數據是對標簽信息的刻畫,是對標簽對象的屬性描述,對業務是否能理解標簽口徑、正確使用和發揮標簽商業價值,具有重要作用。業務在提標簽需求的時候,最重要的就是明確標簽的元數據信息,這也是開發加工標簽的基礎。
標簽元數據需要涵蓋的字段包括:
- 標簽名稱:注意標簽的命名規范。
- 標簽一級/二級分類:分級分類的深度取決于公司規劃擴展的標簽范圍,如果只有一百以內的標簽,二級標簽分類能做到比較好的覆蓋,如果標簽數量成百上千,需要更深的分級分類進行管理。
- 標簽業務口徑:盡量完整且明確、無歧義,對后續其他業務使用此標簽有很大的幫助。
- 標簽技術口徑:有需要,盡可能詳細至取數的源表名和字段名。
- 標簽枚舉值
- 標簽更新周期:T+1/7/15/30,準實時
- 標簽數據類型:數值型:標簽取值為數字,細分為:整數型、比率型、金額型、浮點型;文本型:標簽取值為文本,如字符串型;日期型:標簽取值為時間,如datetime日期;枚舉型:enum
- 標簽創建時間、標簽更新時間
- 標簽需求提出人
3. 標簽加工層
開發按照業務需求上的標簽元數據信息進行標簽的加工處理。完成標簽加工作業后,會落到中間結果表,通過id-mapping進行融合,最終落到標簽結果查詢表中。
這里回到前文第一點標簽是什么,我們提到不同打標主體有不同的ID類型。用戶的ID類型就有phone手機號、openid、unionid、公司業務ID、設備號(設備號又分為IDFA、IMEI)等。企業(客戶)的ID類型有統一社會信用代碼、企業名稱、納稅號、公司業務ID等。
不同類型主體ID的數據如果無法識別為同一個對象/主體,就無法把不同ID的數據進行打通。如果沒有一個統一的ID進行關聯,不同類型孤立的ID之間的數據無法打通。需要建立一個公司內部的全局id。
以企業標簽舉例,標簽需求中取數源表是企業名稱,但打標主體需要為統一社會信用代碼,這時候需要通過id-mapping的技術把同一主體下的不同id進行串聯。需要一個公司內部的全局id,將完成業務認證的不同類型的id數據源進行收攏。
如通過不同的號碼底表獲取了全局id A 對應的phone數據,通過企業微信的底表獲取了全局id A對應的unionid數據,此時就可以通過全局id 進行關聯,觸達客戶A的方式有識別到的手機號和微信客戶信息,對于同一個客戶不同渠道的精準觸達很有幫助。獲得客戶一個渠道的ID,可以識別出其他渠道的ID進行觸客。
這里特別提一下設備號,設備號指的是智能設備如手機、平板電腦等的唯一標識符。一般廣告精準投放用的就是設備號包。一個客戶可能擁有多臺手機或者平板電腦,現在市面上沒有廠商會提供手機號和設備號之間的精準匹配,只會通過包對包的服務提供。也要關注設備號過期的問題,按照現在用戶手機和平板替換的速度,考慮以半年/年的頻率更新設備號信息的獲取。
4. 標簽服務層
這里回到前文第二點標簽用途,我們了解標簽有客戶畫像、客群管理、客群試算等不同的使用場景,在金融、零售等不同行業都有非常廣泛的應用。標簽需要配合服務組件才能大規模應用在業務場景中,通過標準的服務提供,降低重復開發的成本,最大程度復用現有組件,更好地發揮數據價值和保障服務穩定。
1)用戶畫像
用戶畫像是用戶標簽的聚合,單個標簽反映的是用戶部分的信息,多個標簽反映用戶整體全貌。用途是支持業務和運營人員進行用戶分析、價值判斷、策略制定。畫像服務可以支持下游業務應用系統送入單個/批量的客戶主體ID和需要查詢的標簽ID,返回對應客戶的具體畫像信息。
2)客群管理
一群客戶ID稱為客群。客群可以通過單個標簽或者多個標簽組合篩選得出。常與用戶畫像結合,用途是根據業務需求,篩選出滿足業務條件的客戶,用于廣告投放精準營銷、個性化推薦、線上運營等場景。
在通過標簽篩選客群的服務上,需要考慮是否支持不同主體類型標簽的交并,是否支持不同時效標簽的交并。如需支持業務在篩選客群后計算客群數量,需要支持客群試算的能力。如需支持業務判斷某個/批量的客戶是否屬于特定客群,需要支持判斷客戶是否屬于分群的能力。
3)標簽管理
標簽服務提供給下游業務系統使用時,需要提供標簽元數據查詢服務,包括標簽元數據列表,標簽目錄等。
五、標簽全生命周期管理
標簽生命周期管理也是標簽體系的一部分,更多是管理辦法和責任分工的內容。
標簽的全生命周期可以劃分為標簽需求提出及評審——標簽開發測試投產——標簽核驗——標簽啟用——標簽變更——標簽下線。
標簽作為一種數據資產,全生命周期的管理是數據資產的管理。需要關注的是全生命周期不同階段對應的標簽狀態、不同階段關聯方需要進行什么操作、從什么節點開始標簽正式啟用、往后節點狀態變更對業務使用的影響和處理方案、狀態之間的遞進和回退場景等。更多在之后數據資產管理的文章中進行展開。這里簡單提兩點。
標簽需求提出及評審:
a.提標簽需求之前,需要先查看標簽元數據,是否有同樣業務含義的標簽已經上線,當標簽數量達到一定程度的時候,尋找標簽就會出現困難。避免因為分類、叫法不一致,而讓業務發起重復的標簽需求。
b.明確標簽使用場景,用于客戶畫像點查,還是標簽客群篩選,還是其他用途。
c.標簽需求模板,制定工作的SOP,在標簽需求提出階段提供需求模板,關鍵字段包括標簽分類、標簽名稱、標簽業務含義、標簽更新頻率、枚舉值、數據類型等上述4.2元數據層提及的字段。
標簽下線:
標簽下線的情景分為兩種,一種是在標簽啟用一段時間后,發現數據質量有問題/口徑需要調整,進行臨時下線操作;二是標簽超過一段時間沒有任何使用,成為僵尸標簽,為了避免計算和存儲資源浪費進行永久標簽下線。第一種情景需要注意對標簽下游應用的影響,在畫像查詢返回和客群篩選管理中應該如何處理。
本文由 @RfSr 原創發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于CC0協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
Mark一下