數(shù)據(jù)產(chǎn)品經(jīng)理:6大數(shù)據(jù)分析平臺的“世界觀”
本文從一個不太常見有十分重要的角度切入——數(shù)據(jù)模型,也就是講解一些知名的數(shù)據(jù)分析平臺究竟收集了哪些數(shù)據(jù),以及為什么要收集它們。將這類內(nèi)容成為:數(shù)據(jù)分析平臺的世界觀。
GrowingIO、神策、諸葛IO、TalkingData、友盟、Google Analytics for Firebase是數(shù)據(jù)分析領(lǐng)域廣為人知的幾家綜合性平臺,他們在用戶行為研究與驅(qū)動業(yè)務(wù)增長等多個方面,都提供了豐富的分析工具和技術(shù)支持,成為許多知名企業(yè)的數(shù)據(jù)平臺首選。
另一個特點是,我們都將移動場景下的用戶行為分析作為重點之一,而非Web時代的行為分析(這也是Google Analytics for Firebase入選了,而沒有選擇Google Analytics 360的原因)。
在數(shù)據(jù)分析領(lǐng)域,“巧婦難為無米之炊”這句古話常被提起,用來比喻沒有高質(zhì)量的數(shù)據(jù),就無法進行高質(zhì)量的分析、得出高質(zhì)量的結(jié)論。而這6家平臺與單純的數(shù)據(jù)可視化平臺相比,其服務(wù)都覆蓋了數(shù)據(jù)采集的部分,也就是從源頭開始支撐整個數(shù)據(jù)分析。
因此,這個系列就從一個不太常見有十分重要的角度切入——數(shù)據(jù)模型,也就是講解一些知名的數(shù)據(jù)分析平臺究竟收集了哪些數(shù)據(jù),以及為什么要收集它們。我將這類內(nèi)容成為:數(shù)據(jù)分析平臺的世界觀。
至于數(shù)據(jù)分析“出彩”部分,各家也都有自己的側(cè)重點——有偏重用戶行為與畫像的、有偏重廣告與商業(yè)變現(xiàn)的、也有偏重營銷工具的,各不相同。那么廢話不多說,加下來我們就來探討這幾個數(shù)據(jù)平臺的“世界觀”。
本文中介紹的所有內(nèi)容,都來自于這幾家平臺的幫助文檔整理,鏈接如下:
- GrowingIO:https://docs.growingio.com/docs/
- 神策:https://www.sensorsdata.cn/manual/
- 諸葛IO:https://docs.zhugeio.com/
- TalkingData:http://doc.talkingdata.com/
- 友盟:https://developer.umeng.com/docs
- Google Firebase Analytics:https://firebase.google.com/docs/analytics/
如果你對其他平臺感興趣,也歡迎在評論里告訴我,它會加入我的to-do list。
一、這個世界是怎樣的 for 數(shù)據(jù)分析平臺
這是一個根本性的問題,直接決定了后續(xù)的所有內(nèi)容。就像咱們中國古人,認(rèn)為世界的基本就是陰和陽而已。陰陽的組合與生化,產(chǎn)生了世界萬物。對于數(shù)據(jù)分析平臺來說,也會有一些構(gòu)成世界的基本元素。這些元素之間相互影響、相互作用,演化出了千變?nèi)f化的數(shù)據(jù)分析。
首先,要對GrowingIO、神策和諸葛IO這三位同學(xué)加粗標(biāo)紅地提出表揚?。?!
是因為他們仨都很貼心地在文檔中提供了一個叫做“數(shù)據(jù)模型”的部分,極大的減少了爬API文檔了解邏輯的時間。文檔地址如下:
- GrowingIO:https://docs.growingio.com/docs/data-model/
- 神策:https://www.sensorsdata.cn/manual/data_model.html
- 諸葛IO:https://docs.zhugeio.com/datamanager/data_model.html
另外三家就提供的比較隱晦了,不過多多少少還是能找到相關(guān)信息的——這6家平臺都采用了“事件模型”來收集數(shù)據(jù)。(部分?jǐn)?shù)據(jù)是自動收集的,沒有特別明確的數(shù)據(jù)模型,后邊會詳細(xì)列舉。)
在這幾家平臺看來,這個世界就是一大堆錯綜復(fù)雜“事件”(Event)而已。用戶是事件的施動者,而每個事件有自己的一些獨有的信息。用一句話概括:有人搞了一些事情,我們來分析一下吧。
這三層之間的關(guān)系,是這樣定義的:
- 統(tǒng)計模型基于事件模型
- 事件模型基于用戶模型
其中事件和用戶,我們可以稱之為兩個“實體”(Entity)。他們之間的關(guān)系可以用E-R表示為:
二、事件(Event)
對于事件模型,理解事件(Event)這個概念當(dāng)然是最重要的。那么什么叫一個事件呢?
那些在數(shù)據(jù)分析中耳熟能詳?shù)挠脩粜袨?,都可以叫做一個事件。比如,啟動App、注冊、登陸、瀏覽、轉(zhuǎn)化(創(chuàng)建訂單、完成支付、發(fā)布內(nèi)容等)、留存、分享、訂閱、收藏等等。
當(dāng)然,這就存在一個問題了——不同的業(yè)務(wù)形態(tài),會產(chǎn)生不同的用戶行為。有的關(guān)注交易,有的關(guān)注UGC內(nèi)容,有的則只是看用戶的點點劃劃。那么對于這幾家第三方平臺來說,如何給出一套模型能覆蓋所有事件呢?
其實每家平臺會把這些事件分為兩類:那些已經(jīng)確定的、不管什么業(yè)務(wù)類型都會需要的事件,當(dāng)做了“預(yù)留事件”(每家的叫法略有差別,比如:在TalkingData指的就是“靈動分析”部分的數(shù)據(jù))。比如:打開App、注冊、登陸、瀏覽(PV/UV)等。也就是說,只要接入了這個平臺(并將SDK進行了正確的初始化),就可以收集到這些事件的數(shù)據(jù),進行監(jiān)控和分析。
另一類,就是“自定義事件”(同樣每家的叫法略有差別)。這一類涵蓋的就是與不同的業(yè)務(wù)類型高度相關(guān)的那些事件了,比如:單純的UGC內(nèi)容平臺,就沒有訂單和支付這些事件;而對于純粹的電商平臺,其關(guān)注的核心也不會是超大篇幅的內(nèi)容產(chǎn)出。這些就應(yīng)當(dāng)作為自定義事件。
其中自定義事件是需要在收集之前,先在平臺上“注冊”這些事件的,這也是為了方便對事件進行管理。
但不管是預(yù)留事件還是自定義事件,都保留了基本的事件數(shù)據(jù)結(jié)構(gòu),一個事件主要包含四部分信息,稱作事件的屬性(E-R圖中與事件連線的橢圓形):
- 時間信息:這將是時間序列分析中的關(guān)鍵,這個信息代表了這個事件是什么時候發(fā)生的;
- 用戶信息:這部分主要是為了關(guān)聯(lián)事情的發(fā)動者是誰,以便支持后續(xù)從用戶角度開展的分析;
- 事件類型:這也是每個事件的一個基本屬性,比如:App啟動是一個類型,用戶登陸也是一個類型。
- 事件屬性:這部分的定義比較寬泛,所以也留了較大的自由度。比如:我們前面講到的兩個例子,如果是創(chuàng)建訂單的事件,則會包括訂單號、訂單金額、商品編號等等;如果是UGC類型的事件,則可能包括內(nèi)容發(fā)布的板塊、是否原創(chuàng)、引用鏈接等等。
至此,我們可以簡單的理解,所謂“事件”,其實可以就按表面意思理解,就是發(fā)生了一些事的概念。而后續(xù)在進行分析的時候,就得根據(jù)分析的需要,重新整理事件的數(shù)據(jù)。
三、用戶模型
用戶模型是第二大概念,也是最愛分析的第二大主體。上一段說到在數(shù)據(jù)收集之后,進行分析的時候,需要重新對數(shù)據(jù)進行整理,面向用戶的數(shù)據(jù)匯總就是主要方式之一。通過這樣的匯總,我們得到的是用戶畫像、用戶偏好等這些初步的結(jié)論,再進行深入分析。
下面先搞清楚兩類用戶:訪問用戶與登錄用戶。
在用戶模型中,用戶分為兩類:登錄用戶與訪問用戶。
所謂登錄用戶,就是已經(jīng)注冊并取得了注冊賬號的用戶,比如:我們注冊了QQ就有QQ號,注冊了淘寶有淘寶賬號等等。對于這樣的用戶,正因為他們已經(jīng)有了一個幾乎不可能改變的賬號,之后所有的行為和屬性信息,都會盡可能地與這個不變的賬號關(guān)聯(lián)起來。
這引出一個題外話——賬戶體系的重要性。在互聯(lián)網(wǎng)社交剛崛起的階段,有很多平臺致力于做統(tǒng)一賬戶。關(guān)鍵在于這個跨平臺的賬戶ID關(guān)聯(lián)了用戶的所有行為,這種方式對于渴望降低CAC、實現(xiàn)交叉引流的平臺有很大幫助。
但對于那些大平臺,就是流量的“凈輸出”方,而且那些初期需要引流的平臺,一定是把第三方賬號關(guān)聯(lián)到自己的賬戶體系上,這就凸顯了同一賬號的信息中介作用。在大廠開始外推自己的賬戶體系、信息逐漸開始“對稱”起來的時候,統(tǒng)一賬號就沒有存在空間了。
說到用戶注冊和登錄,這就產(chǎn)生了另一個問題:當(dāng)用戶沒有登陸,甚至還未注冊,那怎么辦呢?
這個時候,ta就是一位訪問用戶了。
那么訪問用戶又是誰呢?
問題就在這——我們不知道TA是誰,TA沒有登陸,我們已經(jīng)掌握的歷史數(shù)據(jù)卻都是與注冊賬號相關(guān)的。也就是說,這些數(shù)據(jù)都無法跟這個訪問用戶對應(yīng)上。
在應(yīng)用中主要是這兩方面具體問題:
- 歷史數(shù)據(jù)關(guān)聯(lián)問題,特別是與業(yè)務(wù)有關(guān)的數(shù)據(jù)(比如:訂單),一般都是與注冊賬號ID關(guān)聯(lián)的,而這個訪問用戶的ID很不穩(wěn)定,會頻繁變動。
- 訪問用戶ID的產(chǎn)生依賴于平臺。也就是說,用戶使用同一家的App,在沒登錄的情況下,在iOS、Android和其他平臺上上會被當(dāng)做是兩個人,這對于數(shù)據(jù)分析顯然是個災(zāi)難。
這就好像,我們用身份證買了一張機票,如果你不出示身份證,人家自然不會給你辦理手續(xù),即使用護照或者其他證件也不行。(慘痛的真實經(jīng)歷…)
當(dāng)然,在互聯(lián)網(wǎng)的領(lǐng)域中從不會“坐以待斃”。對于這樣的“無名氏”用戶,許多平臺已經(jīng)開始支持記錄和管理歷史訪問設(shè)備,也就是你用的手機、平板電腦等設(shè)備有自己的ID(比如網(wǎng)卡的MAC地址)。如果某位訪問用戶使用同一部手機打開了App,我們也可以通過手機的設(shè)備號近似的關(guān)聯(lián)到登錄用戶身上。
這種從設(shè)備到人的映射關(guān)系,有些是在賬號體系中“強管理”的——關(guān)聯(lián)設(shè)備數(shù)量有限制,而且需要明確授權(quán)。比如:Apple ID。也有“弱管理”的,只是在App中展示一下。更低效的做法,是把關(guān)聯(lián)的工作放到數(shù)據(jù)分析階段,再耗費大量計算資源做這個層次的關(guān)聯(lián)。
至此,簡單理解,登錄用戶=認(rèn)識,訪問用戶=不認(rèn)識。
用戶也會有自己的屬性,這些是人們喜聞樂見,喜歡分析的內(nèi)容。對于一位用戶,屬性包括以下兩種:
- 基本固定不變的屬性,典型是人口統(tǒng)計學(xué)屬性,如性別、年齡段、地理位置等。
- 通過一定的業(yè)務(wù)含義加工出來的用戶屬性,典型是用戶分群、用戶標(biāo)簽屬性。
四、分析
上邊還剩一個“端”的實體,但是其自身的分析價值更偏向技術(shù)層面,我們暫時忽略。
分析這部分可能是整篇文章比較吸引人的地方,但其實,說完了前面幾方面的內(nèi)容,才可以開始將分析。這個時候,能分析什么、怎么分析這類問題,才能落到具體的東西上。
我們回到前面的這張E-R圖:
圖中的實體(用矩形表示)和實體關(guān)系(用連線表示)概括了我們要分析的內(nèi)容。這張圖里有三個主體:端、用戶和事件。這也就意味著,我們的分析過程有三個切入點:產(chǎn)品(內(nèi)容)自身、用戶自身以及用戶行為。
當(dāng)然,我們最常分析的,還是產(chǎn)品與用戶關(guān)系,以及用戶自身的行為這兩個大主題。而這兩個行為的數(shù)據(jù),主要來源于“用戶觸發(fā)事件”這個過程。(下邊那些就不是正統(tǒng)的E-R圖了哈,能傳達含義就行。)
1. 統(tǒng)計分析
統(tǒng)計分析是最基本的分析手法了。
要做的基本就是指定一些屬性的值,然后對實體進行計數(shù)。比如:我們要求用戶的性別=男性,然后對滿足要求的實體計數(shù)。再或者,我們要求事件類型=新增,然后統(tǒng)計事件實體的數(shù)量,算出來的就是今日的新增用戶數(shù)DNU(隱含一個去重的過程)。
另一類統(tǒng)計分析是分析用戶的行為路徑,比如:用戶從打開App,到最終支付成功,經(jīng)理的怎樣的路徑呢?
這就是通過關(guān)聯(lián)事件實體,并對事件進行統(tǒng)計而得出的,比如下圖這個關(guān)系:
2. 歸因分析
?歸因分析需要給發(fā)生的事情找到原因,一般的最終目的是通過這種挖掘出來的因果關(guān)系,對未來進行預(yù)測。比如:如果我們發(fā)現(xiàn)了女性用戶更可能購買我們的產(chǎn)品,那么在資源有限的情況下,我們就應(yīng)當(dāng)著重向平臺上的女性用戶推廣我們的產(chǎn)品。
另一類例子,就是關(guān)于事件和事件之間的,比如經(jīng)典的“LinkedIn 魔法數(shù)字”案例——1周內(nèi)增加5個社交好友的用戶更容易留存。
針對第一類案例,我們實際上是通過關(guān)聯(lián)事件實體和用戶實體來實現(xiàn)的:
而對于第二類行為之間的歸因分析,使用過行為之間的交叉來過濾用戶,最終仍舊是通過統(tǒng)計用戶數(shù)量來得出結(jié)論的:
如果你經(jīng)手過大數(shù)據(jù)量,可能已經(jīng)想到了,這樣的事件統(tǒng)計計算量會非常非常大!在實戰(zhàn)中,更多情況是將這種行為的數(shù)量當(dāng)做用戶的一種屬性,這也就是前面提到的第二類用戶屬性。
修改之后的邏輯如下圖:
但不管哪種分析,都會面臨一個問題——用戶屬性很不穩(wěn)定,會改變的。比如:用戶的年齡段。在用戶第一次加好友的時候,其年齡段屬性為“21-25歲”,真實年齡為25歲,正處在年齡段交替的時間點;當(dāng)再次加好友的時候,真實年齡已經(jīng)變成了26歲,其年齡段屬性也隨之變成了“26-30歲”。
這就產(chǎn)生問題了:當(dāng)用戶完成了5次社交好友之后,這5次的社交好友應(yīng)當(dāng)歸因到“21-25歲”呢?還是歸因到“26-30歲”年齡段呢?
這會直接對我們的分析結(jié)論產(chǎn)生影響。
類似的問題也出現(xiàn)在一些其他分析上,比如:用戶的瀏覽行為。當(dāng)用戶啟動App之后,可能在所有內(nèi)容之間穿梭很久,最終才決定購買或者其他轉(zhuǎn)化。
那么,這次轉(zhuǎn)化究竟應(yīng)當(dāng)歸屬于哪些頁面或按鈕呢?
為了避免這種問題,有些平臺(如:GrowingIO)在配置自定義事件時提供了明顯的配置項(稱為“埋點事件”的“歸因方式”);也有的平臺講這件事的決定權(quán)交給了使用者,可以在代碼或者事件定義的過程中給出;更有如Google Analytics for Firebase這樣的平臺,會提供一套專門的“歸因模型”,來處理這類轉(zhuǎn)化歸因的問題。
關(guān)于歸因的問題會單獨整理一部分內(nèi)容。這部分整理還會衍生出一些其它的思考,比如:你的業(yè)務(wù)增長,真的應(yīng)該歸因給社群裂變嗎?
——–[UPDATE 2018-11-21]——–
經(jīng)評論的同學(xué)提醒,關(guān)于 GrowingIO 平臺的歸因,這里補充一些詳細(xì)信息:
登錄用戶的歸因模型:
【歸因目的】隨著用戶行為的產(chǎn)生,用戶自身的屬性也會跟著改變(比如年齡、地域等),兩個時間段是無法嚴(yán)格對齊的,導(dǎo)致一個行為可能對應(yīng)了多個屬性值(隨時間延續(xù)而產(chǎn)生),所以才需要用歸因模型來約定,每個行為具體對應(yīng)哪個屬性值。官方例子是用戶從銀卡升級為金卡,那么從現(xiàn)在看,用戶在銀卡階段的交易應(yīng)當(dāng)歸屬銀卡階段還是金卡階段呢?
【備選方案】兩種方案:最近(只時間間隔最小,歸銀卡);最終(歸金卡);
【參考文檔】https://docs.growingio.com/docs/data-definition/user-variable/loginuserid#gui-yin-mo-xing
轉(zhuǎn)化歸因方式:
【歸因目的】當(dāng)用戶實際轉(zhuǎn)化之后,我們會追溯促成轉(zhuǎn)化的原因。在這個分析過程中,用戶可能歷經(jīng)了多個活動、多個按鈕和頁面、反復(fù)搜索了多個商品等。應(yīng)當(dāng)如何認(rèn)定是哪個事物促成了用戶轉(zhuǎn)化呢?因此這里還有歸因的邏輯。一個重要的區(qū)別在于,“轉(zhuǎn)化”與單純的“事件”不同,“轉(zhuǎn)化”通常會對應(yīng)價值的產(chǎn)生,比如用戶支付。所以這種歸因,不僅僅是建立關(guān)系,還要將這種產(chǎn)生的價值,按照一定的分配方式分給所有相關(guān)方。
【備選方案】最近(依然是時間間隔最小的含義)、最終和線性(平均分)歸因。同時,官方給出了三種備選方案的應(yīng)用場景:
- 使用最初歸因模型,某個內(nèi)部活動帶來了多少注冊,多少訂單。
- 使用線性歸因模型,內(nèi)部搜索的效果怎樣,某個具體的搜索詞帶來了多少訂單,營業(yè)收入。
- 使用最近歸因模型,同一個內(nèi)部活動的不同入口分別帶來了多少內(nèi)部活動詳情頁面的瀏覽。
【參考文檔】https://docs.growingio.com/docs/data-definition/custom-event/convert-variable#gui-yin-fang-shi
廣告監(jiān)測中的歸因邏輯:
【歸因目的】廣告投放與利益綁定的更緊密,但同樣面臨如前所屬的“1對多”的困境,而且同樣需要有一定的規(guī)則來分配產(chǎn)生的價值。從GrowingIO平臺提供歸因方式判定,更偏重于比較獨立的純粹廣告,而不適用于與業(yè)務(wù)流程或產(chǎn)品形態(tài)深度結(jié)合的類推薦流程。如果是深度結(jié)合的流程,可以想象Last Click會直接忽略在轉(zhuǎn)化路徑上的其他影響因素,把轉(zhuǎn)化歸功于“立即支付”這樣的按鈕。
【備選方案】Last Click(最近點擊)規(guī)則 + 反作弊 + 15天時間窗
【參考文檔】https://docs.growingio.com/docs/ads-tracking/app-marketing#4-gui-yin-luo-ji
歸因是什么?在這篇中我們繼續(xù)探討《數(shù)據(jù)產(chǎn)品經(jīng)理:從歸因模型延伸到轉(zhuǎn)化漏斗》?。
本文由 @御豪同學(xué) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
特別好
好文章
非常好
總結(jié)的很清楚,贊??
謝謝老板~
M
我們公司準(zhǔn)備搭建基于行業(yè)的Saas服務(wù)平臺,我想問的是針對這篇文章,我們是否可以使用類似谷歌這樣的數(shù)據(jù)采集與分析平臺,先進行試錯迭代,業(yè)務(wù)發(fā)展起來再組建團隊自己開發(fā)數(shù)據(jù)采集與分析系統(tǒng)?可行不,這樣做
我覺得是可以的。ROI的平衡點,是搭建自己的數(shù)據(jù)采集平臺的成本投入,與SaaS平臺產(chǎn)生的效益持平。如果這個SaaS還沒被證明可以產(chǎn)生足夠的價值,那么數(shù)據(jù)采集這塊可以盡量降低成本。