企業(yè)數(shù)據(jù)平臺(tái)的定義和建設(shè)方法論
最近在公司內(nèi)給同事們講了企業(yè)數(shù)據(jù)平臺(tái)建設(shè)歷程,在這里和大家分享下。
1、什么是企業(yè)數(shù)據(jù)平臺(tái)產(chǎn)品
個(gè)人定義「數(shù)據(jù)產(chǎn)品」為:數(shù)據(jù)產(chǎn)品是指利用數(shù)據(jù)輔助用戶(hù)了解客觀(guān)世界,做出決策甚至行動(dòng)的一種產(chǎn)品形式。
首先從整體數(shù)據(jù)產(chǎn)品的分類(lèi)講起,劃分的依據(jù)是使用者所屬群體,分為 ToC,ToB 和企業(yè)內(nèi)部三種。而在企業(yè)內(nèi)部,又可細(xì)分為:「業(yè)務(wù)型」和「平臺(tái)型」。
業(yè)務(wù)型的企業(yè)數(shù)據(jù)產(chǎn)品,更加專(zhuān)注于解決某個(gè)具體的業(yè)務(wù)問(wèn)題或者部門(mén)問(wèn)題,如客服數(shù)據(jù)監(jiān)控系統(tǒng)和建立在集團(tuán)平臺(tái)的事業(yè)部決策分析系統(tǒng)。而平臺(tái)型的目的,就是為前者提供更好的支撐。
在明確了宏觀(guān)的定義后,我們?cè)偌?xì)拆下「企業(yè)數(shù)據(jù)平臺(tái)」六個(gè)字。竊以為,重要性應(yīng)按「數(shù)據(jù)」、「平臺(tái)」和「企業(yè)」三個(gè)排列。
(1)數(shù)據(jù),界定了產(chǎn)品的邊界
我們思考的是怎么利用數(shù)據(jù)去優(yōu)化業(yè)務(wù),去推動(dòng)業(yè)務(wù),數(shù)據(jù)組不產(chǎn)生數(shù)據(jù),只是數(shù)據(jù)的搬運(yùn)工,要和非常底層的業(yè)務(wù)邏輯保持適當(dāng)距離。對(duì)于日志的打印,業(yè)務(wù)庫(kù)的設(shè)計(jì)等這些數(shù)據(jù)原料,我們可以根據(jù)經(jīng)驗(yàn)提出更優(yōu)的方案,但不適合去做具體的落地和執(zhí)行。
很多數(shù)據(jù) PM 在一些業(yè)務(wù)需求的實(shí)現(xiàn)過(guò)程中會(huì)覺(jué)得非常低效和別扭,部分原因就是參與業(yè)務(wù)需求太深,導(dǎo)致在數(shù)據(jù)聚合層次摻雜了太多業(yè)務(wù)邏輯,業(yè)務(wù)方稍微更改下 PM 就會(huì)非常痛苦。
(2)平臺(tái),強(qiáng)調(diào)的是面向各個(gè)業(yè)務(wù)提供服務(wù),這要求產(chǎn)品具備較高的標(biāo)準(zhǔn)化和抽象化
標(biāo)準(zhǔn)化指的是主動(dòng)出擊,定下一些關(guān)鍵的數(shù)據(jù)資產(chǎn)規(guī)范,方便在企業(yè)中流通使用,如:埋點(diǎn)管理、指標(biāo)管理和數(shù)據(jù)庫(kù)表管理等等。
抽象化則指的是不能只關(guān)注于解決一兩個(gè)具體的需求點(diǎn),而是關(guān)注整個(gè)面的抽象和滿(mǎn)足,是一個(gè)由點(diǎn)及面的過(guò)程。
(3)企業(yè),在企業(yè)內(nèi)部,會(huì)決定了反饋回路短,種類(lèi)繁多,相對(duì)瑣碎的需求特征
很多需求,可能就是業(yè)務(wù)方走到你工位旁說(shuō)一句話(huà)的事情。
另外一方面,企業(yè)內(nèi)用戶(hù)層級(jí)價(jià)值明顯,越到高層越能體現(xiàn)數(shù)據(jù)的價(jià)值,即以前我介紹過(guò)數(shù)據(jù)產(chǎn)品兩大原則之一:「數(shù)據(jù)價(jià)值體現(xiàn)在數(shù)據(jù)使用者手中」。
最后,市場(chǎng)競(jìng)爭(zhēng)激烈,數(shù)據(jù)安全及權(quán)限也是頭等大事。常見(jiàn)的權(quán)限模型為 RBAC(Role-Based Access Control,基于角色的訪(fǎng)問(wèn)控制),它抽象出「用戶(hù)-角色-權(quán)限」三個(gè)概念,通過(guò)角色控制菜單權(quán)限,再為用戶(hù)賦予相應(yīng)角色,角色一般根據(jù)業(yè)務(wù)部門(mén)和領(lǐng)導(dǎo)層級(jí)綜合劃定。
2、企業(yè)數(shù)據(jù)平臺(tái)的目標(biāo)
借用 GrowingIO CEO Simon 的理念,企業(yè)如同人類(lèi)建立的水資源使用系統(tǒng),而數(shù)據(jù)如水。企業(yè)數(shù)據(jù)平臺(tái)的建設(shè)目標(biāo),應(yīng)當(dāng)是讓數(shù)據(jù)像水資源一樣在企業(yè)中流動(dòng)。
這意味著數(shù)據(jù)要像水一樣做到:
- 干凈無(wú)毒
- 隨用隨取
- 場(chǎng)景豐富
這恰好對(duì)應(yīng)數(shù)據(jù)準(zhǔn)確、全面、及時(shí)、易用四個(gè)衡量維度。
進(jìn)入人類(lèi)資源使用系統(tǒng)的水資源需要經(jīng)過(guò)一定的清洗和沉淀,確?!父蓛魺o(wú)毒」,然后根據(jù)不同的水用途存儲(chǔ),進(jìn)入不同的管道,這對(duì)應(yīng)于數(shù)據(jù)的「準(zhǔn)確」。而「隨用隨取」對(duì)應(yīng)著在人類(lèi)社會(huì)中,擰開(kāi)水龍頭就能來(lái)水,及時(shí),易用。
「場(chǎng)景豐富」則意味著在不同場(chǎng)景里,水會(huì)有不同用途,飲用水、清潔用水、灌溉用水各取所需。即使飲用水,也分城市用水、礦泉水、純凈水等不同使用方式,通過(guò)挖掘和豐富數(shù)據(jù)的使用場(chǎng)景,深化數(shù)據(jù)本身的「全面」涵義。
達(dá)成這個(gè)目標(biāo)的企業(yè)數(shù)據(jù)平臺(tái),便能通過(guò)豐富場(chǎng)景,賦能業(yè)務(wù),提升整個(gè)企業(yè)使用數(shù)據(jù)的意愿和效率,賦予業(yè)務(wù)方高效使用和挖掘數(shù)據(jù)的能力。
在使用場(chǎng)景上,個(gè)人歸結(jié)為以下主要場(chǎng)景,其他還待繼續(xù)補(bǔ)充:
建立數(shù)據(jù)流程,從產(chǎn)品上,是幫助業(yè)務(wù)方更好地完成使用數(shù)據(jù)的流程,包括采集存儲(chǔ),展示分析到最后的挖掘落地三個(gè)層次。
從需求上,即建立一個(gè)比較完善的需求分流解決機(jī)制,將零散需求、常規(guī)需求、業(yè)務(wù)需求等等分類(lèi)處理完畢,并能將進(jìn)展和結(jié)果及時(shí)反饋給需求方。優(yōu)化用戶(hù)體驗(yàn),是通過(guò)掌握用戶(hù)數(shù)據(jù),為用戶(hù)提供更加順暢的使用體驗(yàn),更加精準(zhǔn)的營(yíng)銷(xiāo)等等。
挖掘數(shù)據(jù)資產(chǎn),包括標(biāo)準(zhǔn)化數(shù)據(jù)資產(chǎn),以及不斷挖掘回饋原有數(shù)據(jù),豐富數(shù)據(jù)維度,即車(chē)?yán)蠋熢凇稕Q戰(zhàn)大數(shù)據(jù)》中提到的「養(yǎng)數(shù)據(jù)」概念。
在轉(zhuǎn)轉(zhuǎn)的發(fā)展過(guò)程中,我們?cè)?jīng)利用各種數(shù)據(jù)猜測(cè)出用戶(hù)的身份后進(jìn)行定向業(yè)務(wù)推廣,通過(guò)推廣活動(dòng)的反饋再回過(guò)頭來(lái)修正用戶(hù)身份,也是「挖掘數(shù)據(jù)資產(chǎn)」的一個(gè)例子。
3、如何搭建企業(yè)數(shù)據(jù)平臺(tái)
一個(gè)完善的平臺(tái)應(yīng)該由以上三個(gè)框架組成,其中技術(shù)框架非我所長(zhǎng),暫且略過(guò)。數(shù)據(jù)框架主要是在數(shù)據(jù)模型,安全及質(zhì)量模塊。其中,數(shù)據(jù)模型主要是先對(duì)所屬業(yè)務(wù)出現(xiàn)出對(duì)應(yīng)的領(lǐng)域模型,然后定下來(lái)對(duì)應(yīng)的主題域劃分和維度模型。
產(chǎn)品框架上,依然遵循 What-Why-How 的劃分方式,最先解決的是采集存儲(chǔ),「是什么」的問(wèn)題,先把數(shù)據(jù)采集后清洗存儲(chǔ)下來(lái)。其次解決「為什么」的問(wèn)題,利用分析架構(gòu)和數(shù)據(jù)可視化展示,幫助用戶(hù)尋找原因。
最后解決「怎么做」,通過(guò)價(jià)值的深入挖掘,和業(yè)務(wù)緊密結(jié)合等方式,來(lái)確定具體的內(nèi)容和方向。
接下來(lái)簡(jiǎn)單介紹下產(chǎn)品框架中的每個(gè)步驟要解決的問(wèn)題和對(duì)應(yīng)的方案。
3.1 采集存儲(chǔ)
相應(yīng)以上問(wèn)題很多做數(shù)據(jù)的同學(xué)都遇到過(guò),在此不一一贅述。元數(shù)據(jù)即數(shù)據(jù)的數(shù)據(jù),意在管理企業(yè)的數(shù)據(jù)資產(chǎn)。實(shí)踐的過(guò)程比較復(fù)雜,足以單獨(dú)寫(xiě)一本書(shū),這里挑一兩個(gè)轉(zhuǎn)轉(zhuǎn)用得較多的功能給大家介紹下。
- 數(shù)據(jù)字典,即存儲(chǔ)和顯示每個(gè)指標(biāo)的定義,算法及對(duì)應(yīng)的創(chuàng)建人及更新人,解決企業(yè)內(nèi)指標(biāo)定義不一致的問(wèn)題。每次上線(xiàn)新指標(biāo)就會(huì)定期更新該字典,確保內(nèi)容及時(shí)性。
- 數(shù)據(jù)血緣,即以數(shù)據(jù)表為點(diǎn),以任務(wù)為線(xiàn)來(lái)顯示表間關(guān)系,便于追蹤數(shù)據(jù)來(lái)源和判斷問(wèn)題。
- 數(shù)據(jù)地圖,則是為了更方便尋找對(duì)應(yīng)的數(shù)據(jù)表,每張表都有清晰的說(shuō)明,注釋及來(lái)源,仿佛一張地圖幫你定位某個(gè)具體的「地點(diǎn)」和「路徑」。
此外,還有數(shù)據(jù)生命周期管理等等話(huà)題,在此就不一一展開(kāi)。
3.2 分析展示
需求分散主要體現(xiàn)在時(shí)間分散和空間分散,時(shí)間分散指的是可能今天提了一次,可能隔個(gè)十天半個(gè)月再次出現(xiàn)類(lèi)似的需求??臻g分散是指類(lèi)似的需求可能由不同的部門(mén)提出來(lái)。
需求量彈性大指的是如果沒(méi)有一個(gè)合理的框架或思路去引導(dǎo)用戶(hù),可能會(huì)導(dǎo)致需求量變得非常龐雜。但有了引導(dǎo)之后,可能一個(gè)現(xiàn)有的工具就能滿(mǎn)足了。需求實(shí)現(xiàn)也是一樣的道理,用 A 和 B 方案可能都可以滿(mǎn)足,但可能工作量會(huì)差別很大。
因此根據(jù)不同層次的需求,我們通過(guò)三種遞進(jìn)的方案來(lái)解決。
- 自定義分析:基本不需要數(shù)據(jù)和分析部門(mén)介入,提供工具就能滿(mǎn)足也業(yè)務(wù)需求。面對(duì)這種需求,轉(zhuǎn)轉(zhuǎn)內(nèi)部有三個(gè)解決方案:一是采用開(kāi)源方案 HUE 搭建的 SQL 查詢(xún)功能,解決非常零碎且無(wú)法產(chǎn)品化的臨時(shí)需求。二是埋點(diǎn)的自動(dòng)分析功能,只要按照數(shù)據(jù)規(guī)范進(jìn)行的埋點(diǎn),都可以在頁(yè)面查詢(xún)并分析數(shù)據(jù)。三是自定義報(bào)表分析界面,支持業(yè)務(wù)方導(dǎo)入數(shù)據(jù)表后進(jìn)行可視化展示。這三種方案解決三種不同層次的需求,幫我們節(jié)省了大量人力。
- 事件分析:需要數(shù)據(jù)部門(mén)一定程度的抽象,常見(jiàn)的就是留存/漏斗分析,這些需求特征是「套路明顯」,有一定的培訓(xùn)成本,適用特定場(chǎng)景。
- 多維交叉分析:需要數(shù)據(jù)部門(mén)根據(jù)業(yè)務(wù)進(jìn)行規(guī)劃和設(shè)計(jì)對(duì)應(yīng)的分析體系,包含合理的維度和指標(biāo)。一般來(lái)說(shuō)這會(huì)是一個(gè)部門(mén)的基準(zhǔn)需求,使用頻次高,用于每天監(jiān)控及分析業(yè)務(wù)異常原因。
3.3 挖掘落地
挖掘落地一般著眼于數(shù)據(jù)和業(yè)務(wù)更緊密的結(jié)合,業(yè)務(wù)方能夠在日常工作中直接使用,這里舉我們的畫(huà)像檔案(天樞)和實(shí)時(shí)報(bào)警監(jiān)測(cè)(獬豸)舉例。
畫(huà)像檔案,本質(zhì)上是根據(jù)用戶(hù)/商品/訂單等客體的各種屬性進(jìn)行組合篩選,分析和運(yùn)營(yíng),它匯集了整個(gè)轉(zhuǎn)轉(zhuǎn)各個(gè)業(yè)務(wù)產(chǎn)生的用戶(hù)標(biāo)簽和用戶(hù)行為數(shù)據(jù)。
這些篩選出來(lái)的用戶(hù)可以進(jìn)行定向 push 消息推送和活動(dòng)展示,甚至可以和 APP 的千人千面聯(lián)系起來(lái),定制某些標(biāo)簽的用戶(hù)才能看到的入口。同時(shí),該功能也方便了業(yè)務(wù)方導(dǎo)出具體的清單做分析,為數(shù)據(jù)組節(jié)省了大量人力。
實(shí)時(shí)報(bào)警預(yù)測(cè),則是我們通過(guò)時(shí)間序列預(yù)測(cè)算法(Hot-Winters)兼異常維度分析算法(主要是改良版的基尼系數(shù)算法),實(shí)時(shí)監(jiān)控核心數(shù)據(jù)。當(dāng)發(fā)生異常時(shí),便能將報(bào)警信息通過(guò)通訊工具發(fā)出來(lái),以及自動(dòng)分析出可能存在原因。
比如:某天訂單異常升高,自動(dòng)分析出來(lái)是手機(jī)品類(lèi)異常升高導(dǎo)致的,直接詢(xún)問(wèn)手機(jī)品類(lèi)的負(fù)責(zé)人,得知他們開(kāi)展了一場(chǎng)活動(dòng)。數(shù)據(jù)異常監(jiān)測(cè)和定位變得非常迅速。
4、后記
企業(yè)數(shù)據(jù)平臺(tái)是個(gè)比較復(fù)雜的數(shù)據(jù)產(chǎn)品,而且隨著公司體量上升復(fù)雜度會(huì)進(jìn)一步提升。它的復(fù)雜一方面是承接了非常多的業(yè)務(wù)需求,如何抽象和管理就是一個(gè)問(wèn)題。稍一不慎,不僅部門(mén)兄弟事倍功半疲于奔命,而且會(huì)產(chǎn)生大量無(wú)用的「報(bào)表尸體」,整個(gè) BI 平臺(tái)就變成數(shù)據(jù)的垃圾場(chǎng),焚尸堆。
第二方面是數(shù)據(jù)長(zhǎng)期來(lái)看是個(gè)細(xì)活、臟活、累活。如何保證數(shù)據(jù)安全、質(zhì)量、規(guī)范,需要不斷地設(shè)計(jì)各種機(jī)制來(lái)監(jiān)測(cè)和優(yōu)化,這無(wú)疑又衍生了另外一套系統(tǒng)。
最后,如果這個(gè)平臺(tái)還希望能夠和業(yè)務(wù)產(chǎn)生一些互動(dòng)和助力,更得不斷豐富場(chǎng)景,開(kāi)發(fā)工具。但它作為企業(yè)管理和挖掘數(shù)據(jù)資產(chǎn)的抓手,在未來(lái)企業(yè)競(jìng)爭(zhēng)中又會(huì)顯得無(wú)比重要。
長(zhǎng)路漫漫,砥礪前行。
參考文獻(xiàn):
- 《 數(shù)據(jù)產(chǎn)品的前世今生》-老讀悟
- 《阿里巴巴的大數(shù)據(jù)實(shí)踐之路》- 阿里巴巴數(shù)據(jù)技術(shù)及產(chǎn)品部
- 《元數(shù)據(jù)?: 用數(shù)據(jù)的數(shù)據(jù)管理你的世界》— Jeffrey Pomerantz
- 《決戰(zhàn)大數(shù)據(jù)》- 車(chē)品覺(jué)
- 《數(shù)據(jù)倉(cāng)庫(kù)工具箱 — 維度建模權(quán)威指南》
作者:陳新濤,現(xiàn)任轉(zhuǎn)轉(zhuǎn)數(shù)據(jù)負(fù)責(zé)人,曾任美團(tuán)外賣(mài)首任數(shù)據(jù)產(chǎn)品經(jīng)理。公眾號(hào):ourStone
本文由 @陳新濤 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自 Pexels,基于 CC0 協(xié)議
專(zhuān)業(yè)