實戰案例解析:如何參照阿里OneData構建數據指標體系?
隨著業務規模的擴大,各類相關的數據量增大、數據指標也越來越多,如果缺乏指標體系就會造成難以衡量產品/活動效果、難以判斷整體業務發展狀況等問題。而本文就通過拆解阿里制定指標的規范,來為我們建立數據指標體系做一些參考。
在建立OneData之前,阿里數據有30000多個指標,其中,即使是同樣的命名,但定義口徑卻不一致。即使是中等規模的公司,也是如此,隨著數據量的增大,數據指標也會越來越多,缺乏指標體系的管理會存在各種各樣的問題。
一、指標不規范帶來的問題
1. 在數據指標概念=0時,業務方按“我覺得”來辦事,難以衡量效果
產品設計、運營同學通常是:我覺得用戶會喜歡我們新推出的這個功能,我覺得新推的活動,活動效果會很好…..
那領導就要問了,這個“覺得”有什么依據么?怎樣衡量用戶喜歡這個新增的功能?怎樣判斷活動效果好,多少人參與或是多少轉化?
這樣一提問,其實設計者們也云里霧里的,一臉懵逼,別問設計原因,問就是回答其它競品也有這個功能,所以我們也做……
是不是覺得自己也中招了?
不過已經有大批產品人員已經意識到傳統的盲目設計、抄襲式設計時代已經過去,數字化產品時代已到來的現狀,開始嘗試用數據指標來輔助業務決策。于是開始進入下一階段…
2. 此時數據指標概念=0.5,有單點數據指標,但難以看出整體業務問題
這種情況下通常是想到什么業務指標,就用什么業務指標。
比方說看到神策、友盟數據分析類廠商通常會用GMV、日活用戶、月活用戶、PV、UV、頁面停留時長等數據,于是產品設計人員先將其照搬進來,再結合具體使用的時候,會想到一些指標,然后逐個往上加。
以網約車為例,今天的GMV降低50%,是什么原因導致呢?
分析人員回復說:受疫情影響,乘客下單量降低20%。
這是平臺當前已有指標,那還有30%呢?是什么問題導致的?
于是分析人員一查數,發現在線司機數、接單司機數降低30%,于是匆匆的又把臨時想到的這兩個指標,簡單的描述了一下業務含義,經過一系列的溝通協調,讓研發臨時添加。
這種方式會存在什么問題呢?
- 指標修改成本大。研發團隊需要重新進行數據采集、清洗、存儲工作。
- 取值定義不清晰,數據不準確。
- 指標缺乏定義規范,各部門理解難度大。會產生一些重復指標,如指標名稱相同,含義不同,例如都叫注冊司機,一種定義的是注冊手機號成功即為注冊司機;一種定義的是加盟成功了的是注冊司機。
- 存儲、計算、研發成本高:沒有統一的規范管理,造成了重復計算的資源浪費;數據的層次和粒度不清晰,使得重復存儲嚴重。
二、理解OneData指標規范
既然不提前設計指標體系會出現諸多問題,那指標體設計流程是什么?如何保證指標體系的規范設計呢?
下面我們先來看看阿里是如何制定指標規范的:
以維度建模作為理論基礎,構建總線矩陣,定義業務域、數據域、業務過程、度量/原子指標、維度、維度屬性、修飾詞、修飾類型、時間周期、派生指標等。
1. 業務域
比數據域更高維度的業務劃分方法,適用于特別龐大的業務系統,且業務板塊之間的指標或業務重疊性較小。例如用車業務板塊包含乘客端、司機端,電商業務板塊包含商城、返利模塊。
2. 業務過程
業務過程可以概括為一個個不可拆分的行為事件,如下單、支付、評價等業務過程/事件。
看到這一系列的名詞,很多人可能就開始懵逼了,業務域倒還能理解,簡單來說就是對不同業務的分類;業務過程也容易理解,相當于畫業務流程圖唄。
那數據域又是何方神圣?
3. 數據域
是聯系較為緊密的數據主題的集合,是對業務對象高度概括的概念層歸類,目的是便于數據管理與應用。
簡而言之,數據域就類似于我們電腦桌面要建立不同的文件夾來存儲數據,這些個文件夾名就是數據域。
維度、維度屬性、修飾這些怎么理解?有什么用途?
4. 維度
是度量的環境,用來反映業務的一類屬性,這類屬性的集合構成一個維度,可以從who-where-when-what層面來看。
5. 維度屬性
維度屬性隸屬于維度,相當于維度的具體說明,如用戶維度中性別為男、女。
6. 修飾詞
指除了統計維度以外指標的業務場景。
7. 修飾類型
對修飾詞的抽象劃分。
簡而言之,維度和修飾都可以理解為原子指標的一些限定條件,懂sql的會更好理解一些,一般是寫sql時,放在where語句后邊的。
8. 度量/原子指標
原子指標和度量含義相同,某一業務行為事件下的度量,是業務定義中不可拆分的指標,如注冊數。
9. 時間周期
用來明確數據統計的時間范圍或是時間點,如最近30天、自然周、截至當日等。
10. 指標類型
包含原子指標、派生指標。
- 原子指標 = 行為事件+度量
- 派生指標 = 一個原子指標+多個修飾詞+時間周期
例如:原子指標=完單量,派生指標=近一周iOS乘客完單量,包含時間周期=近一周,修飾詞=iOS,維度=乘客,原子指標=完單量。
三、制定自己的指標體系規范
接下來參考阿里的onedata數據標準,搭建網約車體系中的數據指標。
- 業務背景:用車業務是網約車整體業務中的一個核心,處于多次循環迭代中,存在指標定義不規范,業務方頻繁提出新增指標,技術修改難度大等問題,所以目前需要從業務整體角度重新構建指標體系。
- 業務目標:標準化指標體系,提升指標提取工作效率。
- 行動:在構建指標體系的過程中,首要動作要明確指標分類和約束指標命名方式,使各個指標能夠做到見名知意、減少溝通成本,這里我們參照阿里對指標的劃分,來規范建設指標體系。
1. 調研業務需求與分析業務流程
1)調研業務需求
充分的業務調研是指標體系構建的基礎,在數據指標體系搭建項目啟動前,需要與各業務方詳細了解具體業務、梳理清楚關鍵業務流程。
需求采集可分為定量、定性采集兩種類型,定量地發放調研問卷形式,廣泛采集業務需求;定性地進行用戶訪談,深度挖掘業務應用場景和核心需求。詳細的需求采集與分析方式之前《需求采集與需求分析》這篇文章有寫過,此處不再展開,可做參考。
2)分析業務流程
根據阿里巴巴onedata的最佳實踐,業務過程可以概括為一個個不可拆解的行為事件。為梳理數據之間的邏輯關系和流向,首先要理解用戶的業務過程,了解業務過程中涉及的數據系統。
下面以網約車體系為例,梳理司機端、乘客端的業務流程以及數據指標。
乘客端流程可劃分為:注冊/登陸、下單、服務、支付、評價/客服投訴。
核心流程中所產生的業務指標:
- 注冊/登陸階段:新用戶數、用戶數、不同渠道用戶數
- 下單階段:下單量、新用戶下單量、老用戶下單量、不同城市下單量數據、不同車型下單量數據、下單成功用戶數
- 決策階段:議價訂單數、非議價訂單數、決策階段用戶主動取消訂單數、決策階段超時取消數、數加價完成訂單數、減價完成訂單數
- 服務階段:下單成功用戶數、訂單時長、下單成功率、完單量、完單率、完單用戶數
- 支付階段:訂單金額、訂單平均金額、訂單優惠金額、計費差額
- 評價階段:好評率、差評率
司機端業務流程可劃分為:
業務流程中產生的核心業務指標:
- 注冊/登陸階段:注冊用戶數、新增用戶數
- 加盟階段:提交審核用戶數、審核通過用戶數、新注冊司機、累計注冊量、老司機量、新司機量
- 接單階段:在線司機數、聽單司機數、有效聽單司機數、中標司機數、中標率、日均中標司機數
- 決策階段:決策階段司機取消訂單數
- 服務:服務平均距離、平均時長、空駛平均距離、空駛平均時長
- 評價:司機好評率、司機差評率、平均星級
- 提現:司機余額、提現次數、提現金額
在明確用戶的業務過程后,需要根據分析決策的業務,劃分數據域,并在相應的數據域下拆解具體的業務過程。
2. 劃分數據域
數據域:是聯系較為緊密的數據主題的集合,是對業務對象高度概括的概念層歸類,目的是便于數據管理與應用。
這里相當于對數據進行分類,類似于我們電腦桌面要建立不同的文件夾來存儲數據。我們的數據是面向不同業務人員,比方說市場、運營、客服、風控等人員,而其關注的業務模塊大不相同。
而我們技術人員還要給他們提供各種不同的數據指標,找起來工作效率低,服務器計算成本高(你想想在電腦搜索框查某一文件名時,是不是很慢),業務人員也難以及時得到數據。沒辦法,那我就做個數據的分類吧,方便我們快速找數據,以及未來橫向擴展數據。
所以在劃分數據域時,我們也要注意:
- 能涵蓋當前所有的業務需求
- 能拓展新業務進入已有數據域,或者拓展新的數據域
這里就相當于電腦上的文件夾命名,要包含當前所有的文件(數據),產生新文件時,能夠放到已有文件或者是方便新建一個文件。
可以根據對業務需求、各個模塊的業務流程進行分析,進行數據域的劃分。通常數據域劃分可以根據企業部門劃分,如客服、運營、市場等;也可以按照業務過程或者業務板塊的功能模塊劃分。
例如網約車體系中用車業務域可劃分為如下表所示的數據域,依據實際業務過程進行歸納、抽象得出數據域。
3. 定義指標規范——總線矩陣構建
我們梳理了業務域、數據域、業務過程的整體框架,接下來針對指標規范進行設計。
簡單點理解,相當于我們設計了文件夾的一級、二級、三級目錄結構規范,現在要對該文件命名結構規范進行設計。
常用的指標基本是按照個人理解給予的命名,并沒有特別的規范,比如說日活/月活用戶量、近一個月下單量、完單金額等。但隨著數據指標的增多,出現了很多限定條件下的指標,比如近7天北京快車下單量這樣的指標,這個指標是如何設計得到的,有沒有一套指標規范設計呢?
如上圖所示,設計指標時需清晰定義業務域=用車業務、數據域=服務域、業務過程=下單、維度=城市、屬性=北京、時間周期=近7天、修飾詞=快車、度量/原子指標=下單量。通過增加對原子指標的約束條件,規范產生派生指標=近7天北京快車下單量,提供一套通用的指標定義標準,方便不同業務部門的人理解指標含義。
以網約車體系中的服務域為例,制定如下總線矩陣,劃分業務過程為下單、派單、決策、開始行程、完單。
總線矩陣是數倉架構師會用的比較多,對于產品人員會比較難理解,其實就類似于數學中矩陣和排列組合,一個原子指標的維度限制條件組合不同,可得到成千上萬個派生指標。
總結
本文主要從數據產品角度介紹,如何基于阿里OneData進行網約車指標體系建設。通過對業務分析、數據域劃分及總線矩陣構建,來建立一套指標設計規范。通過建立指標規范,可以提升研發和業務方的指標獲取效率,為后續自助式分析打下基礎。
在設計指標規范過程中發現會產生成千上萬個指標,那這些指標哪些是真正給業務方提供指導意義的呢?
專欄作家
草帽小子,公眾號:一個數據人的自留地,人人都是產品經理專欄作家?!洞髷祿嵺`之路:數據中臺+數據分析+產品應用》書籍作者,專注用戶畫像領域。
本文原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
寫的很好啊
大家期待已久的《數據產品經理實戰訓練營》終于在起點學院(人人都是產品經理旗下教育機構)上線啦!
本課程非常適合新手數據產品經理,或者想要轉崗的產品經理、數據分析師、研發、產品運營等人群。
課程會從基礎概念,到核心技能,再通過典型數據分析平臺的實戰,幫助大家構建完整的知識體系,掌握數據產品經理的基本功。
學完后你會掌握怎么建指標體系、指標字典,如何設計數據埋點、保證數據質量,規劃大數據分析平臺等實際工作技能~
現在就添加空空老師(微信id:anne012520),咨詢課程詳情并領取福利優惠吧!
請問,矩陣拿到后落地怎么執行? 是根據矩陣建立多個表嗎? 按照多個維度分為多個表?