解密OneEntity體系

0 評論 2705 瀏覽 1 收藏 10 分鐘

為打破數據孤島,創造更大的數據價值,阿里設計了OneEntity,來提供全域數據與服務。本文作者分析了創造OneEntity的原因和價值,解析了OneEntity體系。

前幾篇你跟草帽小子一起了解了阿里數據中臺的建設計劃,接下來我們一起來解密OneEntity體系。

一、數據孤島

阿里巴巴作為一家包含多條業務線的公司,如電商、金融、廣告、文化、教育、娛樂、設備和社交等領域,數據區域包含國內、國外;數據場景包含線上的人貨場錢、線下的人貨場錢位置等數據,以及物流、用餐、咨詢、影視、出行、閱讀、音樂和健康等相關數據。

僅是與人相關的數據就包含業務賬號信息、PC cookie、無線IMEI與IDFA等設備標志、身份屬性等。

而隨著人們互聯網行為的多樣化,如果每天都有數千億條實體數據產生,而這些數據都分屬于不同業務單元,那么數據就很容易孤立。

阿里巴巴云上數據中臺之道04——解密OneEntity體系

草帽小子思考:以前總是不理解數據孤島這一部分,明明已經建立了onedata體系,做好了各業務線數據接入,ODS層數據全面接管,明明數據都匯總到了一塊,為何還說數據孤島呢?

直到真正開始做用戶畫像這一工作才發現,底層的指標體系往往是直接面向各個業務線內,缺乏一個業務線間的關聯,這是由業務局限性導致的。比如說,你是淘寶的運營人員,那你會關注釘釘的指標體系是怎樣的嗎?

答案是顯然不會。

那這樣就產生了數據的斷層,單是從底層的指標層,用戶在釘釘的行為習慣,淘寶的人員是無法獲知的。那如果我作為淘寶的人員,既想知道他在淘寶上購物行為,也想知道他在釘釘、支付寶、優酷等地方的行為習慣,又該從何得知呢?

二、數據只有融通才能真正產生價值

為打破數據孤島,創造更大的數據價值,阿里設計了OneEntity來提供全域數據與服務。OneEntity體系主要包含統一實體、全域標簽、全域關系、全域行為4大類。

阿里巴巴云上數據中臺之道04——解密OneEntity體系

1. OneEntity統一實體

將若干個實體歸攏到一起,并命名為OneEntity,可分為一般質量、高質量、高價值OneEntity。

2. GProfile全域標簽

基于歸攏后的數據對OneEntity進行貼標簽的操作。在OneEntity體系中,如何為OneEntity貼上標簽并找出高質量、高價值的OneEntity是最常見的問題。

這幾離不開標簽的萃取能力,那阿里是怎么萃取標簽的呢?

阿里巴巴云上數據中臺之道04——解密OneEntity體系

(1)有效

一方面,主動去找人口學、社會學等學科的教授,學習與“人”相關的理論知識;

另一方面,調研了很多業界的標簽分類體系,取長補短。

最終,將“人”的立體刻畫劃分為“人的核心屬性”和“人的向往與需求”2大部分,具體包含4大類:

人的核心屬性,可分為自然屬性、社會屬性。

  • 自然屬性:是指人的肉體存在及其特征,是人自出生后自然存在的,一般不會因人為因素發生較大的改變。例如“性別”“生肖”“年齡”“身高”“體重”等。
  • 社會屬性:指人在實踐活動基礎上產生的一切社會關系的總和。人一旦進入社會就會產生社會屬性。例如經濟狀況、家庭狀況、社會地位、政治宗教、地理位置、價值觀等。

人的向往與需求,可分為興趣偏好、行為消費偏好。

  • 興趣偏好:是人堆非物化對象的內在心理向往與外在行為表達,是一種法子內心的本能喜好,與物質無必然關系。例如渴望愛情、需要安全感、討厭臟亂環境等。
  • 行為消費偏好:是人對物化對象的需求與外在行為表達,涉及各行業,與物質世界存在千絲萬縷的聯系。例如母嬰行業偏好、美妝行業偏好、洗護行業偏好、家裝行業偏好等。

在以上四大類的基礎上,我們又嘗試根據不同的業務形態進一步細分二級、三級分類。

(2)高速

標簽的萃取工作包含:數據采集;清洗,去噪聲并統一;反復試用并確定最佳算法及模型;為模型選擇計算因子并對模型中的每一個計算因子調配權重;產出標簽質量評估報告以輔助驗收。

我們隨機抽查了若干個在用的標簽,預估工作量和工作周期,一個有價值的標簽的萃取,平均耗時2周。

慢的主要原因,一是由于萃取流程復雜,每個標簽萃取都依賴底層的基礎數據,而較少依賴上一層匯總的數據中間層數據;二是大量重復的人力,對應的標簽萃取邏輯時可以復用的,包含算法的選擇、模型訓練和計算因子的加權等,但由于不同人來做,造成了很多重復工作。

標簽萃取過程復雜,那有什么可以參考的流程呢?

阿里巴巴云上數據中臺之道04——解密OneEntity體系

首先,數據源層面:建設一套完整的數據源,以OneEntity體系為核心,將OneEntity相關實體及其行為全部串聯起來,與存量的標簽一起作為數據源。

其次,標簽計算層面:將標簽萃取邏輯沉淀為2種,分別對應到偏好類標簽和分類預測類標簽的工具型產品的生產過程中,包含計算因子、權重等業務規則、數據樣本選擇、模型與算法選擇等。

最后,標簽監測層面:沉淀質量評估報告和生產監測、上線等管理流程。

當一整套工具型產品上線之后,批量生產十幾個同類型標簽只需要2天左右,這是因為在補足數據源、確定業務規則、選擇數據樣本、選擇算法與模型的過程中,減少了大量的代碼開發與模型訓練的工作。

在這個過程中,參與的角色也發生了變化,從原本的以數據產品經理、數倉工程師、數據科學家為主導,轉變為對業務更為熟悉的業務人員、數據分析師為主導。

3. GRelation全域關系

找到對象的關聯關系,當OneEntity代表人時,就可以找出他的親屬、朋友、校友和同事等;當OneEntity代表商品時,就可以找出他的上下游商品/貨等。

4. GBehavior全域行為

將與OneEntity相關的實習及行為關聯起來,形成一套用戶行為體系。如:

  • 姓名、郵箱、地址等,這是現實世界中的唯一標志,就像OneEntity代表著你在大數據世界里的唯一標志。
  • 籍貫、年齡、政治面貌、宗教信仰等,這是現實世界中的標簽畫像
  • 父母、子女、夫妻等,天生或后天產生的一系列關系,代表著GRelation在大數據世界中的關系
  • 何年何月讀大學、何年何月第一次參加工作、何年何月獲得某項獎勵以及證明人是誰等

在大數據的世界里,將孤島數據實現融通并加以萃取,可以圍繞一個主題展開全面剖析。

專欄作家

草帽小子,公眾號:一個數據人的自留地,人人都是產品經理專欄作家?!洞髷祿嵺`之路:數據中臺+數據分析+產品應用》書籍作者,專注用戶畫像領域。

本文原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!