原子、派生與復合:探索指標產品管理模型的核心思想
本文重點講解指標管理模型的核心思想,以及指標產品的建設經驗,包括公司在建設指標都會遇到什么問題,如何統一指標認知,指標管理模型的理解以及實際落地的困難和智能化的思考,希望對你有幫助。
即便在ChatGPT出現的今天,指標管理模型的思想依然受用,它是指標建設的基礎。文章約12000字,比較長,如果你遇到指標口徑管理混亂,怎么都對不齊,數據不一致,指標繁多不清晰,這篇文章或許對你有幫助。
在數據這行工作的都知道,簡單難做的兩件事:“埋點”+“指標”。簡單是因為不論是從技術方案、個人使用、產品使用每個單項來看都不是很復雜的。例如埋點,一個點擊事件、曝光事件,非常好理解;指標的話,DAU,銷售額,公司每個人都會關注使用,沒有理解成本。
但是我經歷過的公司中,這兩塊都普遍存在著很多的問題。一方面是“簡單”造成的,生產者的角度來講,浸在里面拔不出來,個人成長性不足。另一方面從度來看,有一種花費大量人力物力只是產出了這么一點點內容還做不好的感覺。
一、冗長凌亂的指標
我們先來看看指標從生產到使用參與的角色:
以大公司的標準來看,每個角色都有足夠的人力,全角色參與,那么一個指標從設計到生產到應用的過程(從無到有)大致是這樣的:
定義指標->數據采集->數據加工分析->開發指標->應用指標
其中又涉及的角色包括:【指標設計者】【數據產品】【業務研發】【數據研發】【數據分析師】5個角色
我們做兩個假設:
1)如果不考慮指標需求滿足的時長、并且長期有足夠的資源(人力資源、機器資源),指標的開發與使用或許也不會有什么太大的問題。我是用戶,我想看DAU,我去找研發幫我算個數,等1,2天沒什么問題。我是研發,需求也比較多,要DAU的人也很多,把珍藏許久的祖傳SQL跑一遍,工作量還好。
2)如果看指標的只有一個人,生產指標的也只有一個人,1對1定向服務。
以上這兩個假設如果成立,在指標建設和應用這里,不會出現什么問題。
但是現實情況不是這樣的。事實是:
- 需求很多,研發很少
- 各個部門或多或少都有人來開發指標
- 口徑對不齊是常態
- 數據不準確、叫同樣名字的指標數據不一樣
- 想看指標數據的時候,數據總是-
可以說,不論指標的使用方,還是開發方,都會感受到上面的問題,用戶覺得指標時常不準,同樣名稱的指標和別人手上的數據不一樣,緊急時刻需要查看指標的時候總是—顯示。生產方同樣面臨生產壓力與指標準確性的質疑等問題。
1. 就近索取
其實主要的原因,在于指標的設計、生產,絕大多數情況發生在局部范圍,并非一個指標從生產到使用都走上面的全流程,且各自所在的部門有自己的生產體系。在一個公司內,指標的生產建設就像是一個聯邦共和國,這樣做的原因是為了確保指標需要的時效性,用戶選擇最近距離索取原則,第一時間拿到指標數據。
例如深圳分公司的負責人想要深圳地區近一個月的銷售額,難不成還要去問北京總部的分析師嗎?另外就是在數據平臺、數據工具體系建設不是很完善的情況下,稍微大一點的部門或者業務,都會專門設有專職來為業務提供指標數據的開發,確保數據提供的及時性。再有,如果所有人的數據需求都統一到一個部門,部門的承接能力也會受到挑戰,一個需求動輒等上一周,這個對于業務、用戶來說是不可能接受的,所以長期下來,就近索取原則必然發生。
2. 對不齊的數據
我們經常會在同一場合下對一個指標的數據報出來兩個不同的值。最常見的場景:兩個人在茶余飯后聊天,聊到了公司的某個指標,發現數據對不上,例如我們公司到底有多少銷售?有多少門店?;經營大會上披露的數據和自己統計的數據不同,業績比自己的低5%;自己在郵件中看到的dau和手機中《北極星小程序》的dau不一樣,也和某個報表中的dau不一樣。
綜合來看,造成數據不一樣的情況有很多種,主要歸位以下5種情況:
- 自己粗心,沒看清,產品操作失誤,或者產品操作復雜
- 指標名字一樣,但其實是兩個指標
- 統計口徑就是不一樣,就沒必要對齊
- 口徑沒對齊
- 數據加工過程用了錯誤的數據源
綜合來看,前三個情況,是人們在使用指標過程遇到的絕大多數情況。指標的供給者太多,導致一個獨立的個人,在多處都可以收到各種指標體系。數據平臺工具、定制化的數據產品需要簡單的學習成本,導致用戶在使用的過程中容易造成“自我失誤”,可能一個老鳥在經過數月的時間里才會對數據的及時性、穩定性、波動了然于心。數據鏈路的穩定性、產品的易用性、需要一個復雜的體系和龐大的團隊維持才可以持續精進,稍有差池都會對數據的使用者造成一定的影響,“自我失誤”也就會經常出現了。
再有就是口徑對不齊了,時常是不同的部門不同的業務在對一個指標展開舌戰。有的時候大家都不知道為什么去核對指標口徑,以至于在這里浪費了大量的時間。
很多時候,指標口徑就不用對齊,因為不會產生對不齊的場景。為了對齊而對齊,減少很多不必要的解釋使我們多數核對口徑的出發點。
3. 沒有成本的提問
幾乎所有的問題提出是沒有成本的,你發現了數據有比較大的波動時,如果你明確這種問題可以去提問,并熟知提問方式,你一定會問問今天的數據是不是出錯了。之所以傾向于凡事遇到問題都去”oncall”,一是用戶沒有全方位的手段來排查判斷自己發現的問題,二是提問后可以直接等結果,相比自己來判斷,省去了很多麻煩和成本。
oncall在系統服務過程中本就是天經地義的存在,在這里想表達的是,沒有成本的提問會導致數據服務體系“敏感”。不論數據波動是真的業務導致,還是數據系統出錯,對雙方來說都會很敏感。
以我個人的歷史經歷來看,10次數據波動問題,10次數據團隊會介入排查,業務本身導致波動的情況有8次。8次業務波動帶來的問題實質上是反饋了業務對數據的信賴程度。可信賴的數據是數據團隊工作的底線,守住這個底線需要花費大量的精力,咨詢、服務、值班這些都是要做的。但是守住底線不是單向的,需要雙向達成共識。
4. 尋求共識
使用指標的用戶的直接體感是“指標數據對不齊”,“及時性不足”,“數據常出錯”,他們期望的是“準確可靠的數據”,“易于理解的數據”。同樣,數據團隊的直接體感是“做不完的指標”,“沒完沒了的對數”,“壓力山大”;他們期望的是“高效的數據開發”,“數據口徑明晰不混亂”,“自信”。雙方在指標數據的使用與提供上都有各自的期待。
我們時常寄希望于某一個系統、流程、或者規則努力來實現上面的期望。通過多年的指標建設,我發現指標建設是個體系、生態。組織,流程、產品通力合作才可以提升各自的體感。這里至關重要的是“統一思想”。一般我們用到的產品都不會把核心運行邏輯暴露給用戶,例如汽車、手機,很少有人知道cpu里面是如何運行的,發動機的核心原理是什么。但是指標的建設就需要設計與用戶“同心”了。生產者知道怎么生產,使用者也需要知道怎么使用。并且也需要知道怎么生產的。
“尋求共識”就變的非常有必要了。
二、指標管理模型的推導與理解
首先就需要共識的就是指標的管理模型與指標要素。
其實對于指標的管理與應用思想很早之前就已經出現了,例如olap聯機分析、多維立方體、cube等名詞絕大部分人也都耳熟能詳。我相信絕大部分人都是一知半解。去網上獲取這些名詞的解釋不難,能夠理解它并加以應用又是另一個情況。
今天我想通過解決上述指標問題、建設一個指標生態(建設方、使用方、平臺、流程、輻射的系統統稱為指標生態)需要的核心指導思想來解釋“指標管理模型”這個概念。它貫穿整個指標的建設、應用、與服務,是指標生態的底層基礎。需要讓指標生態的所有建設方與使用方都通透的理解這個概念。
1. 度量&維度
講指標這個概念必須要明確兩個最重要的概念,【度量】和【維度】。
一個正確的指標必須包括度量和維度。
“性別”是維度,“男性數量”,“女性數量”,“男性占比”,“女性占比”是度量。
“城市”是維度,“一線城市占比”,“省會城市數量”,“GDP大于1萬億的城市數量”是包含了維度和度量的指標。
指標都是匯總計算出來的,有聚合過程。
例如單筆訂單的金額不能是一個指標,統計一天的訂單金額才是指標。
指標需要維度進行多方面的描述分析,維度可以根據需要可以無限擴展。
例如,月汽車銷量,可以增加城市維度、品牌維度、是否貸款維度等等,就可以變成:城市月汽車銷量,大眾汽車城市月銷量、有貸款的大眾汽車城市月銷量。
2. 通過表格理解指標
1)一維表格
不存在單維表格,單一的值不能是指標,例如:
因為上面的表格沒有描述是誰的成交金額,單獨的一個值,無法描述這個值代表的什么事務、動作,以及在什么時間周期范圍內產生的這個聚合度量。如果真的出現了這樣的表,那么一定只有你自己知道是什么意思。
2)二維表格,時間周期
任何指標統計都離不開時間周期,可以說所有的指標都會涉及時間。對在一個時間段內發生的業務進行統計。例如過去24小時,一個自然日、自然周,這一年,從月初到現在,往前推30天等等,都是時間周期。
如果在表格中描述指標,則一定且必須最少是一個二維表格(至少有兩列),我們在表格中加入時間周期,就得到了這樣的結果:
上面這個表可以明確的表達了指標的兩個基本要素【度量+維度】,度量是成交金額、維度是時間。但是這里還缺少對于業務本身的描述,僅表達了在某個時間周期內發生的度量。如果表名稱是特斯拉股票成交金額,就可以用這種方式來表達了,因為數據內容已經限定在這個業務范圍【特斯拉股票】內了。
3)業務范圍
如果確定了業務范圍,例如業務范圍=【短視頻】,度量是播放次數,并且把播放VV這個度量的時間范圍確定在天這個范圍內。
那么該指標表的展示如下:
業務這一列用于描述這個度量的業務范圍,一般稱它為業務修飾詞,但通常在表格中,我們不會這么存放,第二列造成了冗余,一般都簡化掉這一列,收斂成兩列的形式,把業務范圍和度量合并:
業務范圍和維度的區別:
業務范圍也是維度,只不過我們在指標計算的過程中,會從最宏觀的一面開始,習慣性的會定義一個范圍,要統計哪個業務的數據?
你有4家水果店,別人要問你,你的日銷售額是什么?那你可能會問,是哪家門店?或者是我所有的門店?(相當于我自己的生意范圍)它本身就是一個維度(視角)來統計的。但我們把它抽離出來,是方便于我們對指標的管理與認知。公司大了,有很多分支業務的時候,你問DAU是多少,肯定會帶上業務前綴的。
4)業務范圍的收斂意義
業務范圍的核心意義在于確定范圍。
指標都是作用于某一個業務范圍的,業務范圍在公司內也有層級關系,例如視頻業務會劃分短視頻、長視頻;金融業務會劃分貸款業務、存款業務、證券業務;
它們代表了一個業務的父子板塊關系。可以看下圖來理解視頻業務的逐層縮減:
我們把指標體系限定在不同的業務域內,就是業務限定。業務限定很好的幫助我們對數據進行切割,把業務原子化,訪問次數、播放量、訂單金額這些原子指標都是在具體的業務限定內來完成的,先把數據進行業務劃分,能夠提高開發效率(因為要處理的數據變少了)
5)多維表格
業務對指標的使用會隨著需求逐步加深分析維度。
如果二維表格是最小集,那么加入更多的維度和度量,這個表格就變成多維表格。
例如,修飾詞=【短視頻】,加入維度=【終端】和【是否會員】則多維表格是這樣的:
也可以在此基礎之上,增加度量,例如增加度量【播放時長】。
多維表格的表頭樣式就是這樣的:【維度1】【維度2】【維度3】【維度n…】【度量1】【度量2】【度量3】【度量n…】。
6)每一行的維度+單一度量都是一個指標
這里有一個很重要的思想統一,上面的多維表中每一行都是一個指標,每一行形成了指標的基本要求【維度】+【度量】。
經常會有一種情況,用戶在相互溝通指標時,沒有按照每一行是一個獨立指標來看待。
例如,會員在ios端的播放vv和會員在安卓端播放的vv是兩個不同的指標,很多人會認為指標是播放vv,會員、終端都是描述指標的維度。這樣理解沒問題。因為視角不同?!敝笜耸遣シ舦v,會員、終端都是描述指標的維度“是典型的管理視角,我們下文會展開講到。一行一個指標是應用視角,我們在描述指標的時候,就是確定在這一行的這個數字上,如果按照管理視角來看,那么指標就會有很多行。
如果多個人有多個理解方式,就一定會產生溝通成本。
7)條件限定
上面的多維表是正確表達指標的一種理想狀態,每一行都是一個可以解釋的指標。但實際使用情況不單單是用【維度】+【時間周期】+【度量】就可以完成指標的描述的。
用戶會隨著業務的需求,有很多臨時分析需要,隨時對指標進行條件的設定。
例如上面的表中,指標【短視頻播放時長】,需要對用戶做分類,就會有一定的條件限制:播放時長大于1小時的用戶,非會員且播放時長大于1小時的用戶。
這個例子中,我們把指標【短視頻播放時長】以及維度【是否會員】做了條件限制,用于描述指標【短視頻用戶數】。
這種情況非常常見,例如大于18歲的用戶,本科及以上學歷,用戶登錄次數大于3等等。度量、維度值,都可以當做條件作用于其他指標。
以上情況統稱為條件限定,條件限定擴大了指標的靈活性,可以基于實際的業務需要對指標進行數據剪裁。
條件限定和維度值的區別:
例如像IOS端,是一個維度值,單獨來看IOS端的短視頻用戶數,IOS端可以表達維度,也可以用于條件限定,但是維度值是確定且單一的,它不能組合。
條件限定是靈活的,它可以用度量來限制、也可以組合各種維度值,例如渠道包括:1,系統直播 2,線下門店 3,淘寶 4、外部直播 5、分銷商,每一個數值都代表一個維度值,他是確定的觀察視角。條件限定可以是他們中任何數字的組合,比如 1和2,2和3,1或者2,2或者3,不是1和2 等等,它是靈活多變的。
用一張圖來總結上面的內容:
- 單獨存在的度量、維度都不是指標
- 用表格描述指標的最小集是二維表,單獨一列沒有任何意義,不具備可讀性
- 絕大多數指標都是多維表的形態:【維度1】【維度2】【維度3】【維度n…】【度量1】【度量2】【度量3】【度量n…】
- 業務范圍幫助我們縮小和明確了處理數據和理解指標的范圍
- 如果維度不斷增多,那么數據表就是一個很寬的表。也就是常說的“大寬表”
- 條件限定的加入,產生了更靈活的指標形式
三、指標管理模型、指標要素
1. 原子指標
原子指標是指數據分析中最小的可度量單元,通常是一個數值或一個計數。原子指標是數據分析的基礎,它們可以用來描述某個特定的事件、行為或狀態,如銷售額、訪問量、轉化率等。原子指標通常是不可再分的,因為它們已經是最小的可度量單元了。按照上面的例子來說,原子指標可以理解為是度量,例如【銷售金額】【播放VV】【播放時長】【訪問次數】等等,這些度量是不可拆解的。
原子指標用于明確業務的統計口徑及計算邏輯。具備以下特性:
- 原子指標是對指標統計口徑算法的一個抽象,等于業務過程(原子的業務動作)+ 統計方式。例如,支付(事件)金額(度量),曝光(事件)次數(度量)
- 原子指標不會獨立存在,一定是結合業務范圍,維度進行組合才有意義
- 原子指標加維度可以理解為一個度量在不同視角下的變化
- 原子指標通常是其他指標的基礎,可以通過對原子指標的分析來得出更高級別的指標。理解原子指標是整個指標管理模型中非常重要的一環。
2. 派生指標
派生指標在業務限定的范圍內,由原子指標、時間周期、維度三大要素構成,用于統計目標指標在具體時間、維度、業務條件下的數值表現,反映企業某一業務活動的業務狀況。
例如上面講到的多維表中的每一行都是一個派生指標,也就是說,業務中用到的指標都是派生指標。
不同的派生指標可能具有相同的原子指標,這樣派生指標就定義了一種等價關系,而屬于相同的原子指標就構成了一個對指標體系的劃分。在每一個劃分中,存在一個可以派生出其他指標的最小派生指標,即最細粒度。
3. 復合指標
派生指標的另一個類型是復合指標,如果把它單獨獨立出來也可以,如果把它歸類為原子指標也可以,取決于我們如何做數據的開發以及應用。先來看幾個復合指標的例子:
- 平均銷售價格:派生指標是通過銷售額和銷售量計算得出的,它反映了每個產品的平均售價。原子指標是銷售額和銷售量。
- 轉化率:派生指標是通過訪問量和轉化量計算得出的,它反映了每個渠道的轉化效果。原子指標是訪問量和轉化量。
- 客戶生命周期價值:派生指標是通過客戶平均購買金額、購買頻率和客戶保留率計算得出的,它反映了每個客戶對企業的貢獻價值。原子指標是客戶購買金額、購買頻率和客戶保留率。
上面三個例子都是在原子指標間進行計算的原子級復合指標。
也可以通過兩個派生指標來計算復合指標,例如派生指標是:近七天北京地區IPAD的平均銷售價格=近七天北京地區IPAD的銷售額/近七天北京地區IPAD的銷售量。
也就是說,可以通過結果來進行計算,平均銷售價格并不會在數據加工中直接計算。
4. 指標要素
上面介紹了很多的概念,其實核心思想是統一對指標的認知和理解,每一個概念單獨去理解可能無法有一個整體的感受??梢钥聪聢D,來完成對指標的整體理解:
我們把【原子指標】【時間周期】【業務范圍】【維度】【條件限定】統稱為指標要素,他們是指標的實體組織。
其中:
- 【原子指標】就是度量,它確定了統計目標和聚合方法
- 【時間周期】是一種特殊的維度,它確定了統計的時間范圍,從什么時間開始,從什么時間結束
- 【業務范圍】是一種特殊的維度,它確定了統計目標的范圍
- 【時間周期】和【業務范圍】單獨拿出來,是為了更好的表達指標的意義
- 【條件限定】是對統計數據進行自由剪裁的過程
- 【維度】是我們用于觀察統計目標的視角,可以有”無限個“維度
上圖列舉的三個指標:【長視頻當日下單人數】,【最近7天游戲大于18歲的客單價】,【最近1天電影老會員退款金額】都是基于這些指標要素組合起來的。
四、指標要素的SQL表達方式
基于指標要素,我們可以把它和SQL關聯起來理解。便于我們了解數據的加工和實現過程,有益于我們從技術的視角理解指標要素。
1)先了解SQL的大結構
SQL的核心作用就是從數據表中提取數據。操作對象是表,所以可以理解為:【去哪張表里,以什么樣的條件,取哪些數據,要以什么樣的方法進行數據計算】。
SQL的基本操作邏輯:
select “選取哪些字段” 在這里提供字段的各種計算方式,例如SUM,MIX,MIN,IF, ELSE等,對這一列數據進行操作。
FROM “從哪張表取” 在這里提供單表、多表關聯(JOIN,不同表提取多列合并成一張表)、多表合并UNION(不同表,但表結構相同,上下對齊成一張表)。
WHERE“以什么樣的條件” 在這里和SELECT 一樣提供字段的各種計算方式,來限制取值范圍。
GROUP BY,ORDER BY 組合與排序。
2)【原子指標】對應select
原子指標是度量,它確定了統計目標和聚合方法,在SQL中,它作用于SELECT范圍內??梢赃@么理解,SELECT范圍內的內容就是【原子指標】。
例如:
select count(order_ID)—>計算訂單數
select sum(order_amount)->計算訂單金額
3)【業務范圍】對應from
數據來源于哪張表,一定是確定了業務范圍,在數倉中,一般會對表進行分類,分類的規則會基于業務來進行,便于管理。
例如:
selectcount(order_ID) from dwd.orderlist 在訂單明細表中計算訂單數
4)【條件限定】對應where
條件限定,一般體現在where條件語句中,表達以什么樣的條件來看指標。
例如:
select
count(order_ID)
from dwd.orderlist
where order_amount>100
在訂單明細表中計算訂單金額大于100的訂單數
【時間周期】也會當做限定條件出現在where條件中。
select
count(order_ID)
from dwd.orderlist
where order_amount>100 AND order_date=‘2023-05-20′
在訂單明細表中計算2023年5月20日訂單金額大于100的訂單數
【維度值】也會當做條件出現在where條件中
select
count(order_ID)
from dwd.orderlist
whereorder_amount>100 AND order_date=‘2023-05-20’ AND CITY_NAME=“北京“
在訂單明細表中計算2023年5月20日訂單金額大于100且在北京發生的訂單數。
5)【維度】對應group by
維度會參與select過程和group by過程。groupby 的目的是分組,分組就是為了以不同的視角去看數據。
例如:
select
count(order_ID),city_name
from dwd.orderlist
where order_amount>100 AND order_date=‘2023-05-20’ groupby city_name
在訂單明細表中計算2023年5月20日訂單金額大于100的訂單數,按城市分組
6)綜合來看:
知曉指標要素與SQL語句的對應關系,能夠對指標的實現過程有更深層次的理解。這里最重要的意義在于用戶對指標的定義能夠映射到技術方案上。能夠基于這層關系,對數據進行合理的建模、開發與使用。
五、基于指標要素的管理思維
上面把指標抽象成指標要素便于我們統一對指標的理解,其實更重要的目的是便于使用與管理。管理上的意義在于能夠做到指標開發使用從無邊界到有邊界的過程,逐步收斂覆蓋,另一層面能夠做好統一的標準,最后由此做基礎,向上放射到不同的系統、環境中去,形成整體的生態。
1. 覆蓋與收斂
先看這張圖:
根據派生指標的概念,通過【原子指標】+【維度】+【時間周期】+【條件限定】組成了一個派生指標,當每一個指標元素出現大于1的情況時,就會出現多個派生指標,計算方法是它們的乘積。
例如上面的情況,3個【原子指標】*4個【維度值】*3個【時間周期】*2個【條件限定】=72個派生指標。
指標在使用的過程中,不論是口頭交談還是系統展示,都會以上圖右邊的形式來體現,【視頻業務日銷售額】誰都可以讀懂。沒有哪個用戶去把指標拆解成這些要素來溝通,除非出現數據問題。所以我們在報表、匯報、業務溝通的過程中,都是如【視頻業務日銷售額】的指標形式體現出來的。
這樣對于管理有一個非常大的好處,可以基于指標要素的組合進行最大可能的使用覆蓋。
根據業務的實際訴求,完成分析體系的建設:確定分析框架,確定分析類別,確定分析場景等等,例如用戶行為分析、業績分析、經營分析、安全性分析、競對分析、財務分析..等多個場景?;谶@些分析框架,可以逐步的抽象出指標要素,確定有多少個【原子指標】+【維度】,然后就可以大致的得出,我們能夠覆蓋”多少個“指標了。
這樣做的好處在于,業務用到的絕大多數指標,都是可以覆蓋在指標要素組成的這些結果之內的,指標管理者、開發者只需要關注指標要素的增減即可,不用根據具體的需求CASE BY CASE 的去完成任務,大大減少了管理和開發成本,從而實現了“收斂” 。
2. 及時性的提升
如果已經確定好指標要素【原子指標】+【維度】+【時間周期】+【條件限定】,這些指標就可以提前進行計算:
把指標要素組合的指標,提前進行預算,因為是結果集,即便是組合再多,也能控制在百萬、千萬級別,或者是分塊、分組來存儲,這樣就有數據量級小的特性,我們可以把結果存入到響應速度更快的內存數據庫中,完成“空間換時間”,解決大多數人無法等待超長時間的計算過程。
即便大數據技術發展到今天,如SPARK、clickhouse等大規模秒級響應的查詢技術已經很成熟了,這種空間換時間的方式依然非常受用。從成本的角度來講,非常劃算。
3. 命名的統一性
如果使用指標要素的管理理念來生產、管理指標,在用戶使用指標的時候,可以做到指標名稱的統一性。
回顧來看,所有應用的指標都可以認為是派生指標,派生指標的指標元素中,有哪些可以參與命名,哪些不用參與命名:
指標的命名規范性,直接影響使用者對指標的理解,并能夠影響到整個指標使用的效果,如果命名不規范,會導致大家認知出現偏差,經常會出現不同名稱同一指標,甚至還有同一指標不同名稱的情況,增加大家的溝通對齊成本。
指標命名的基本原則:簡短易懂,便于傳播,不易出現理解偏差。
【時間周期】必須參與命名,累計、昨日、月度、周;時間周期最直接的圈定了統計的范圍,需要明確的展示在指標名稱上,簡單直接,避免不同人的理解歧義,減少錯誤發生的幾率。
【原子指標】必須參與命名,指標的核心。
【業務范圍】可參與命名,如果在系統、使用場景流程做的比較的情況下,可不用參與命名。
例如,進入到”視頻業務“的專屬分析系統中,系統對業務有明確的劃分板塊,例如進入”電影“板塊,指標名稱就無需帶上【電影】這個業務范圍了,比如昨日電影播放量就可以直接寫成播放量即可。
【條件限定】不參與命名。條件限定有量個非常重要的特性,就是很容易變長,二是它出現在指標建立之后的靈活應用上,是臨時性效果。
例如【昨日播放量】這個條件是:大于18歲,中國地區,IOS端,會員,近30天未登錄的,如果參與命名的話就是:
【會員IOS端中國區大于18歲其近30天未登錄的昨日播放量】這樣讀起來就非常別扭。而且組合條件還需要考慮語言的通順性,例如這樣組合
【大于18歲中國區IOS端近30天未登錄會員昨日播放量】讀起來就會拗口。
另外,很多條件限定都是臨時性提出的,例如年齡大于18歲,但是有可能隨時調整到16歲,如果按照人的年齡分布來講,我們可以從1歲到100歲這100個數字都當做限定條件,這樣指標就會無限增多膨脹,增大開發、管理、使用成本。
【維度】不參與指標命名,維度與條件限定相同,它具有無限擴展的情況,并且無法從語言上讓指標變得易于理解。
例如【昨日播放量】支持維度:銷售渠道、城市、端、業務類型,加入維度后的命名是【昨日播放量銷售渠道城市端業務類型】這樣指標就變的不可讀。
實際情況是維度在分析過程中參與GROUP BY 過程,例如表格中的分組,報表中的下鉆過程,實際上指標命名帶上維度沒有意義,可以在應用的過程中,告知用戶支持什么維度。
4. 一致性與生態
運用指標要素的指標管理模型,本質上是抽象+收斂的過程,確定少量的指標要素,覆蓋大多數的使用指標,減少開發、運維、管理和認知成本。一致性問題同樣可以在這個模型中被解決。
業務基于這個模型思路,去構建自己的指標模型,并用系統加以管理,當做整個生態的底層基礎。
建立在這個模型之上,可以對接更上層的應用系統,例如報表工具,業務分析系統,用戶管理系統,經營分析系統等設計到指標應用的場景中,從而讓整個業務、數據分析系統生態中都利用起這個模型的思想。
六、智能化應用與 ChatGPT
NLPto指標:
指標數據最理想的使用場景就是,想要就有,數據準確,可視化展示。用戶期望能夠隨時查看自己想要的業務指標數據,絕大多數人都有自己的使用指標的渠道和方法,我們現在一般都會提供幾種方式例如:
- 翻開手機,去專門的APP或者小程序中瀏覽指標數據,需要一些操作,需要權限
- 登錄報表平臺查看報表,需要一些操作
- 翻看一些帶有數據的郵件,需要一些操作
- 找人要,需要等
以上的指標使用場景,需要用戶熟悉系統的操作、數據內容可能會根據需求提前預設好,如果是問指標的話,就依賴被詢問者的時間了。雖然每個人都各顯其通能夠拿到數據,但于用戶體驗來說,還是需要有操作和時間成本。
智能化的指標應用可以大幅提高數據指標的用戶體驗和效率。我們希望的場景是,用戶對著手機:“告訴我昨天的DAU、用戶客單價和銷售額”,系統就能快速的反饋給用戶這三個指標的結果,并且是準確的。
指標的加工處理到使用中間有很多過程,從數據采集->數倉加工->口徑定義->報表->系統->用戶,中間流程最直接的方式就是自然語言直接對接到數據。
在ChatGPT出現之前,我們的做法是基于指標要素生產出指標的模型(提前預算好所有的可能),通過NLP技術,將自然語言轉譯成SQL,直接讀取指標模型,大概的技術思路如下:
這里不展開講解技術細節,總之我們希望通過技術的加持,打造用戶在靈活搜索指標的時候能夠快速反饋給用戶正確的指標的體驗。
用戶的需求是靈活多變的,如果想完成上面對著手機說話就能反饋指標結果的場景,我們核心要做的事情就聚焦在兩點:
- 讓系統盡可能的去理解自然語言,并準確的把它轉換成可執行的SQL。
- 盡最大的可能的覆蓋用戶的靈活需求,提高指標要素組合成指標的組合數量。
ChatGPT的出現,讓這個事情變得更容易。
ChatGPT生成式AI非常符合上面的理解自然語言,并準確的把它轉換成可執行的SQL這個能力的需要,現在我們可以把指標管理模型的定義、指標要素等元數據信息送給ChatGPT當做prompt進行指標搜索與生成。
這里做的比較的一家國外產品:thoughtspot,建立在用戶搜索、找數據的場景中,去建立智能化分析搜索引擎。感興趣的可以去看看。
七、理想與現實
上面講方案是理想的,真正能不能應用起來,是另一回事,現實是,一個小小的指標,可能經歷多個團隊,多年,多次治理,都達不到好的效果。我認為,核心原因有幾點:
- 沒有強權的部門和人統領、缺少頂層設計
- 組織的頻繁變化導致經驗、流程沉淀變的困難
- 對用戶來講,指標體系建設以及使用需要一定的學習、理解成本
- 沒有獨立的運營團隊負責指標服務,缺失運營環節
上面4點是相互關聯的。主要是組織的設定與運轉,業務部門在數據、指標的建設上是門外漢,他們最希望的是想要的時候有,不希望要個數據特別困難,還有部門墻的存在,所以最適應于這種訴求的組織方式就是自給自足,逐步的指標就變成了開頭說的那種情況。
數據、指標是一個需要認準一個解決方案(流程、標準、組織)就需要長期持續做下去的事情。如果出現中斷或者反復,沉淀的經驗不能繼承,則很難達到指標準確、及時好用的狀態。
學習成本以及運營同樣是一個非常重要的因素。再簡單的指標,也需要讀懂口徑、也需要明確指標在哪里看到的最準,數據出現了問題要找誰,用戶處于這個系統的時候,腦子里是沒有明確的說明書的,需要他逐步的探索,探索的過程因司而異。不同的公司有不同的組織協同和方法以及平臺系統來支持。所以一個完善的指標(數據)服務團隊是非常有必要的,這個團隊與平臺、產品、數據團隊合力完成整體服務體系的建設。
但現實是上面4點難以有公司能夠做到。我認為核心的問題在于,這套體系在公司的決策層沒有概念,或者是ROI很低。
上面第一點說到,需要強權部門或者人來統領建設,一般公司決定權的人很少有數據建設科班出身的人,這個ROI評估,是需要對上面的內容非常懂的情況下才能評估。公司老板想看到數據非常容易,他們的體感會特別好,有專人服務,很多有“北極星”的數據產品,能夠達到快速、準確的數據使用標準。
基層人員就不同了,需要看到的數據顆粒度更細,分析整合的細節更多,并且服務的團隊更公共化。所以,在公司內產生了兩極現象,決策者使用數據舒服,但是他們總能聽到數據不好用的投訴或者聲音,感覺非常詫異。
基層使用者就沒那么幸運,上述種種讓數據服務、指標體系建設變得很難。直白點說,服務老板的資源和服務基層一線人員的資源完全不對等。所以,從體感上來講,決策層是沒有”怎么連個DAU“都算不清楚的感受的。
方案容易,理解思想簡單,但是能不能真正落地,真的是看公司是否有決心能夠下決心去做這個事情。還有一點最不能忽視的是,我們是否真正有足夠的時間和耐心等待這個體系的成長帶來的收獲。
作者:勍爺小箴,微信公眾賬號:數據產品設計 datadesign
本文由 @勍爺小箴 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自Unsplash,基于CC0協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
剛剛轉崗數據產品經理的萌新一枚~以前做業務的時候也有數據、指標方面的認知,但是很片面,作者梳理的很體系,簡單易懂。尤其是第一節內容【冗長凌亂的指標】,不能認同更多,現在就承擔了梳理整個公司指標體系的重任
很有干貨
很好的,學習了