數(shù)據(jù)產(chǎn)品經(jīng)理,要如何快速搭建公司數(shù)據(jù)體系?
很多特別是創(chuàng)業(yè)公司產(chǎn)品都會(huì)遇到數(shù)據(jù)體系的問(wèn)題,當(dāng)然可以找第三方公司來(lái)解決,但數(shù)據(jù)安全又是個(gè)問(wèn)題。如果全部本地化部署那費(fèi)用也真的是不菲,所以自己干吧。那我們要如何快速搭建公司數(shù)據(jù)體系?
BOSS:對(duì)了,盒子,我這兩天看你們電商的訂單量好像有點(diǎn)波動(dòng)呀。
盒子:emmm…老板您真委婉,最近訂單量的確下降了很多。
盒子:我覺(jué)得有可能是我們最近新上的品太貴了,另外感覺(jué)現(xiàn)在這個(gè)UI還是沒(méi)有能讓人有購(gòu)買(mǎi)的欲望。而且這里產(chǎn)品設(shè)計(jì)上有很大的問(wèn)題,不過(guò)我這里已經(jīng)做好了七夕大促活動(dòng)方案。準(zhǔn)備發(fā)他1000張優(yōu)惠券,然后活動(dòng)商品全場(chǎng)8折,在加上全量PUSH,您放心訂單量不漲我現(xiàn)場(chǎng)表演吃翔。
BOSS:別別別,我還是很看好你的,加油。
小的時(shí)候家里經(jīng)營(yíng)了一家花店,每到情人節(jié)之際總能看到無(wú)數(shù)的男主花重金求購(gòu)玫瑰,自然那一天玫瑰的價(jià)格,至少要比平常翻個(gè)5倍左右吧。所以在情人節(jié)前幾日,總能見(jiàn)到我爸媽盤(pán)算著今年該采購(gòu)多少玫瑰,才能既保證情人節(jié)當(dāng)天的需求量,又能最大程度降低花枝損耗及庫(kù)存風(fēng)險(xiǎn),從而實(shí)現(xiàn)利益最大化。
當(dāng)然,當(dāng)時(shí)他們?cè)跊Q定具體采購(gòu)數(shù)量憑借的更多還是過(guò)往的經(jīng)驗(yàn),所以大部分情況并沒(méi)有實(shí)現(xiàn)利益最大化。我們知道影響一個(gè)指標(biāo)可能有很多因素,比如說(shuō):周?chē)ǖ甑臄?shù)量,周?chē)巳嚎土髁?,人群?duì)鮮花的喜好程度,以及是否有固定老客戶(hù)等等。
那么我們姑且將這些因素都看成一個(gè)個(gè)變量X,將最終采購(gòu)數(shù)看成變量Y。那實(shí)際采購(gòu)數(shù)量Y就等于X1*k+X2*k+X3*k,即為一個(gè)多元線(xiàn)性方程。這樣如果我們有足夠的歷史數(shù)據(jù),利用最小二乘等方法就可以逐步優(yōu)化得出K值。
這樣我們就有可能得出了一個(gè)公式:
y=x1*0.23+x2*0.38+x3*0.53
那么利用這個(gè)公式我們將今年有關(guān)周邊花店、客流量、偏好程度等數(shù)據(jù)代入,即可得出今年情人節(jié)到底應(yīng)該采購(gòu)多少朵玫瑰花。最后通過(guò)情人節(jié)當(dāng)天男主們實(shí)際購(gòu)買(mǎi)情況,來(lái)調(diào)整公式的參數(shù)直至最優(yōu)。這樣明年我想他們應(yīng)該就不用在那么糾結(jié)到底該采購(gòu)多少玫瑰了,可惜的是花店沒(méi)有堅(jiān)持到明年。
差點(diǎn)忘了文章的標(biāo)題,但是我認(rèn)為明確數(shù)據(jù)分析的目的和方法,要比擁有數(shù)據(jù)和工具更重要。
那么到底該如何搭建公司的數(shù)據(jù)體系?
我想是很多特別是創(chuàng)業(yè)公司產(chǎn)品都會(huì)遇到一個(gè)問(wèn)題,當(dāng)然可以找第三方公司來(lái)解決,但數(shù)據(jù)安全又是個(gè)問(wèn)題。如果全部本地化部署那費(fèi)用也真的是不菲,所以響應(yīng)習(xí)大大號(hào)召擼起袖子自己干吧…
一、數(shù)據(jù)倉(cāng)庫(kù)
首先我知道你有很多數(shù)據(jù),但總也得有個(gè)地兒放吧。不至于我每次要拉數(shù)據(jù)都跟擠牙膏似得,小心翼翼的在線(xiàn)上數(shù)據(jù)庫(kù)上跑吧,查個(gè)訂單數(shù)據(jù)怎么也要limit一下才敢點(diǎn)執(zhí)行。所以如果業(yè)務(wù)系統(tǒng)很多并且數(shù)據(jù)量比較大,建議將數(shù)據(jù)先同步到HDFS中,然后在利用HIVE對(duì)數(shù)據(jù)進(jìn)行分布式計(jì)算,這期間有可能還會(huì)涉及到一些ETL的工作。
另外既然數(shù)據(jù)有地兒放了,那么也不能亂放吧。之前也有看過(guò)關(guān)于數(shù)據(jù)倉(cāng)庫(kù)維度建模,但我覺(jué)得一般中小公司如果不是以大數(shù)據(jù)為主要業(yè)務(wù)的,只要能夠把數(shù)據(jù)分門(mén)別類(lèi)就可以了,有特殊需要做處理的在考慮跑個(gè)離線(xiàn)計(jì)算的任務(wù)。
不管怎么說(shuō),數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)上層應(yīng)用的基礎(chǔ),先把地基打好。
二、數(shù)據(jù)獲取
那么有地兒放數(shù)據(jù)了,總要放點(diǎn)數(shù)據(jù)進(jìn)來(lái)吧。
一般我們會(huì)將數(shù)據(jù)分為兩種:一種是業(yè)務(wù)數(shù)據(jù),另一種是行為數(shù)據(jù)。
業(yè)務(wù)數(shù)據(jù)數(shù)據(jù)源即為各個(gè)業(yè)務(wù)系統(tǒng),每個(gè)業(yè)務(wù)系統(tǒng)產(chǎn)生的,如:交易數(shù)據(jù)、商品數(shù)據(jù)、用戶(hù)數(shù)據(jù)等等,都會(huì)根據(jù)業(yè)務(wù)需求通過(guò)數(shù)據(jù)抽取工具全部同步到數(shù)據(jù)倉(cāng)庫(kù)中。
行為數(shù)據(jù)其實(shí)就是我們常說(shuō)的用戶(hù)行為數(shù)據(jù),常用于分析用戶(hù)在客戶(hù)端的訪問(wèn)路徑及行為。
行為數(shù)據(jù)一般有兩種方式進(jìn)行收集:
- 一種是通過(guò)用戶(hù)訪問(wèn)的接口日志數(shù)據(jù)進(jìn)行存儲(chǔ)。但是這種方式的問(wèn)題是,有可能存在客戶(hù)端對(duì)接口數(shù)據(jù)進(jìn)行緩存的情況。所以如果是這種情況,那么當(dāng)用戶(hù)訪問(wèn)該頁(yè)面時(shí)客戶(hù)端就不會(huì)在請(qǐng)求服務(wù)器接口,自然會(huì)造成一定的數(shù)據(jù)收集偏差。
- 另一種是通過(guò)對(duì)客戶(hù)端進(jìn)行埋點(diǎn)的方式,但是需要運(yùn)營(yíng)或產(chǎn)品同學(xué)預(yù)先定義埋點(diǎn)事件,并請(qǐng)開(kāi)發(fā)同學(xué)進(jìn)行手動(dòng)埋點(diǎn)。這種方式可以有效減少數(shù)據(jù)丟失的情況,但仍有1~3%的幾率丟失數(shù)據(jù)。并且很多時(shí)候由于版本發(fā)布比較緊急無(wú)資源給你埋點(diǎn)。
我們現(xiàn)在的做法是,在網(wǎng)上找了一個(gè)支持客戶(hù)端全量數(shù)據(jù)收集的開(kāi)源SDK,也就是常說(shuō)的全埋點(diǎn)。只要將該SDK嵌入客戶(hù)端并將上報(bào)數(shù)據(jù)的地址,改為我們的服務(wù)器地址,大多數(shù)情況就可以收集到用戶(hù)的全部操作數(shù)據(jù)了。
除非有特殊數(shù)據(jù)需求,一般情況只要將客戶(hù)端控件ID做好映射,就可以知道用戶(hù)點(diǎn)擊了哪些按鈕或跳轉(zhuǎn)到了哪些頁(yè)面。
三、數(shù)據(jù)報(bào)表
在公司業(yè)務(wù)發(fā)展過(guò)程當(dāng)中,無(wú)論是運(yùn)營(yíng)或產(chǎn)品多數(shù)情況都需要有數(shù)據(jù)的支撐,最常見(jiàn)的像GMV、訂單量、用戶(hù)數(shù)、支付數(shù)、支付金額等等。類(lèi)似這些指標(biāo)的集合即為業(yè)務(wù)的數(shù)據(jù)報(bào)表,一般通過(guò)瀏覽這些報(bào)表便,能夠讓我們快速了解當(dāng)前業(yè)務(wù)的實(shí)際情況。
更有經(jīng)驗(yàn)的數(shù)據(jù)分析者可以通過(guò)對(duì)數(shù)據(jù)的聚合、下鉆等方式發(fā)現(xiàn)問(wèn)題,找到原因,并輸出分析結(jié)論從而指導(dǎo)業(yè)務(wù)決策。但往往這類(lèi)報(bào)表需求多變,如果每次都讓開(kāi)發(fā)人員手動(dòng)修改和導(dǎo)出數(shù)據(jù),效率又會(huì)非常低。
這里推薦一款由Airbnb開(kāi)源的BI工具——Superset,開(kāi)源BI里面?zhèn)€人感覺(jué)算是比較強(qiáng)大了。
一般的報(bào)表需求通過(guò)幾句簡(jiǎn)單的SQL及其自帶豐富的圖表,就都能夠滿(mǎn)足啦。如果報(bào)表的數(shù)據(jù)計(jì)算量過(guò)大,建議離線(xiàn)計(jì)算一層之后在用Superset查詢(xún)。將Superset部到服務(wù)器上,并連到您的數(shù)倉(cāng),你會(huì)發(fā)現(xiàn)很多數(shù)據(jù)需求都不需要找開(kāi)發(fā)了,解放了一大部分可視化前端的開(kāi)發(fā)資源。
當(dāng)然我也承認(rèn),畢竟開(kāi)源的系統(tǒng),所以BUG還是有的,不過(guò)整體來(lái)說(shuō)還是利大于弊,是時(shí)候讓你的SQL策馬奔騰吧!
四、數(shù)據(jù)應(yīng)用
除了數(shù)據(jù)報(bào)表,對(duì)于數(shù)據(jù)的應(yīng)用還有很多種形式,比如:用戶(hù)行為分析、用戶(hù)畫(huà)像、漏斗分析、個(gè)性化推薦等等。當(dāng)然市場(chǎng)上有很多第三方的數(shù)據(jù)分析工具,免費(fèi)的,如:友盟、TalkingDate等等。收費(fèi)的有….怕有打廣告的嫌疑這里就不枚舉了。
但系統(tǒng)終究是人家的系統(tǒng),一些個(gè)性化的需求恐怕不能滿(mǎn)足變化莫測(cè)的業(yè)務(wù)需求,另外對(duì)于自己數(shù)據(jù)的沉淀也不方便。
我們現(xiàn)在的做法是簡(jiǎn)單的數(shù)據(jù)報(bào)表用Superset,復(fù)雜數(shù)據(jù)需求,比如:類(lèi)似用戶(hù)畫(huà)像等等,產(chǎn)品及研發(fā)才會(huì)介入設(shè)計(jì)和開(kāi)發(fā)。
在這也簡(jiǎn)單說(shuō)幾個(gè)我們自己做的一些數(shù)據(jù)應(yīng)用:
1. 用戶(hù)行為分析
利用桑吉圖,在通過(guò)客戶(hù)端事件埋點(diǎn)將用戶(hù)的行為路徑整體描繪出來(lái)。非常有助于了解用戶(hù)的操作喜好,以及發(fā)現(xiàn)產(chǎn)品中存在的問(wèn)題。
這里在開(kāi)發(fā)過(guò)程中可能需要注意兩點(diǎn):
- 一是當(dāng)客戶(hù)端事件過(guò)多時(shí)桑吉圖會(huì)變得非常混亂且難以瀏覽,因此在設(shè)計(jì)系統(tǒng)時(shí)應(yīng)提供窗口式或分頁(yè)式對(duì)數(shù)據(jù)進(jìn)行瀏覽的功能。
- 二是我們的用戶(hù)會(huì)有很多刷新的動(dòng)作,所以行為數(shù)據(jù)中必然會(huì)存在從A到A的情況。
但是很多開(kāi)源的桑吉圖并不支持遞歸數(shù)據(jù),所以我們將存在遞歸的數(shù)據(jù)進(jìn)行重命名(如A1),這樣桑吉圖就畫(huà)出來(lái)嘍。當(dāng)然如果要系統(tǒng)更強(qiáng)大,個(gè)人的腦洞是可以考慮針對(duì)某條路徑進(jìn)行向下鉆取等等。
2. 轉(zhuǎn)化漏斗分析
業(yè)務(wù)上最關(guān)注的恐怕就是每個(gè)節(jié)點(diǎn)的轉(zhuǎn)化情況,因此如果能設(shè)計(jì)一套靈活的漏斗分析工具,對(duì)于業(yè)務(wù)分析及運(yùn)營(yíng)效率上的幫助都會(huì)非常大。
為了盡可能的讓業(yè)務(wù)人員根據(jù)自己的需求,個(gè)性化的配置一組節(jié)點(diǎn),并快速生成可視化的漏斗和報(bào)表,我們將用戶(hù)的每一次點(diǎn)擊事件都以一整條鏈路的數(shù)據(jù)結(jié)構(gòu)進(jìn)行存儲(chǔ)。
這樣當(dāng)業(yè)務(wù)人員選擇一組節(jié)點(diǎn)時(shí),系統(tǒng)會(huì)將所有用戶(hù)中存在這一條路徑的所有節(jié)點(diǎn)枚舉出來(lái),在進(jìn)行計(jì)算和處理,從而達(dá)到無(wú)需業(yè)務(wù)人員事先定義漏斗,只需要在系統(tǒng)中配置一組事件即可看到其轉(zhuǎn)化及流失情況。
3. 用戶(hù)群體分析
通過(guò)漏斗分析發(fā)現(xiàn)某業(yè)務(wù)的A到B節(jié)點(diǎn)的轉(zhuǎn)化非常低,并已將該部分流失的用戶(hù)ID導(dǎo)出,希望能找出問(wèn)題的原因。
可以通過(guò)兩種方式:一是電話(huà)訪談好幾萬(wàn)的用戶(hù)累死你;二是利用該類(lèi)用戶(hù)的數(shù)據(jù)進(jìn)行分析。
首先我們可以先看看這部分用戶(hù)都是誰(shuí),整體的屬性分布是什么樣的,那么就需要用到用戶(hù)群體分析的功能,它必須支持用戶(hù)組的導(dǎo)入及保存,以及靈活的圖表組件(如性別餅圖、年齡分布圖、城市分布圖、地域、設(shè)備、消費(fèi)等)。然后再利用用戶(hù)行為分析等其他分析工具或方法,或許就會(huì)幫你發(fā)現(xiàn)數(shù)據(jù)的規(guī)律,找到該類(lèi)用戶(hù)流失的原因。
以上是個(gè)人在創(chuàng)業(yè)公司中從0到1摸索的一些數(shù)據(jù)產(chǎn)品經(jīng)驗(yàn),當(dāng)然與大公司的數(shù)據(jù)能力相比這些不足為奇。寫(xiě)出來(lái)是希望與大家分享自己的一些思考,同時(shí)也希望能夠與大家一起學(xué)習(xí)和成長(zhǎng),文中若有偏差之處請(qǐng)多包涵。
數(shù)據(jù)本沒(méi)有意義,需要工具和算法以及能夠駕馭它們的人,數(shù)據(jù)才能夠創(chuàng)造價(jià)值。因此我始終認(rèn)為現(xiàn)在擁有數(shù)據(jù)思維比擁有數(shù)據(jù)更重要,畢竟無(wú)法量化,就無(wú)法增長(zhǎng)。
盒子:BOSS我發(fā)現(xiàn)我們最近這個(gè)版本的活躍用戶(hù)和平均停留時(shí)長(zhǎng)都有所降低,一定程度上會(huì)間接影響到商品的銷(xiāo)量。
盒子:查了一下最近版本的迭代功能,發(fā)現(xiàn)社區(qū)的入口被關(guān)閉了一個(gè),發(fā)帖量減少了將近一倍。
盒子:所以這個(gè)版本我們將用戶(hù)社區(qū)版塊優(yōu)化了一版,結(jié)果發(fā)現(xiàn)用戶(hù)的平均停留時(shí)長(zhǎng),以及電商的銷(xiāo)量都有所增加。
BOSS:好的,就說(shuō)我很看好你!
本文由 @宗瀚zone 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
大家期待已久的《數(shù)據(jù)產(chǎn)品經(jīng)理實(shí)戰(zhàn)訓(xùn)練營(yíng)》終于在起點(diǎn)學(xué)院(人人都是產(chǎn)品經(jīng)理旗下教育機(jī)構(gòu))上線(xiàn)啦!
本課程非常適合新手?jǐn)?shù)據(jù)產(chǎn)品經(jīng)理,或者想要轉(zhuǎn)崗的產(chǎn)品經(jīng)理、數(shù)據(jù)分析師、研發(fā)、產(chǎn)品運(yùn)營(yíng)等人群。
課程會(huì)從基礎(chǔ)概念,到核心技能,再通過(guò)典型數(shù)據(jù)分析平臺(tái)的實(shí)戰(zhàn),幫助大家構(gòu)建完整的知識(shí)體系,掌握數(shù)據(jù)產(chǎn)品經(jīng)理的基本功。
學(xué)完后你會(huì)掌握怎么建指標(biāo)體系、指標(biāo)字典,如何設(shè)計(jì)數(shù)據(jù)埋點(diǎn)、保證數(shù)據(jù)質(zhì)量,規(guī)劃大數(shù)據(jù)分析平臺(tái)等實(shí)際工作技能~
現(xiàn)在就添加空空老師(微信id:anne012520),咨詢(xún)課程詳情并領(lǐng)取福利優(yōu)惠吧!
請(qǐng)問(wèn)大佬可以私聊下嘛~
老鐵66的
請(qǐng)教一個(gè)問(wèn)題,這個(gè)完整的數(shù)據(jù)系統(tǒng)的建設(shè),哥們你們花了多長(zhǎng)時(shí)間
請(qǐng)問(wèn)下能不能提供開(kāi)源的客戶(hù)端數(shù)據(jù)采集SDK呢?
這等好文居然沒(méi)人評(píng)論~這位PM一看就是要么搞過(guò)開(kāi)發(fā)的,要么就是搞過(guò)ETL大數(shù)據(jù)的~這技術(shù)用語(yǔ)杠杠的,幾個(gè)月前才搞完ETL數(shù)倉(cāng)建設(shè)0.0
因?yàn)樘珜?zhuān)業(yè)。。。所以看不懂 ?
沒(méi)搞過(guò)ETL大數(shù)據(jù)的不懂正常~或許如果學(xué)點(diǎn)數(shù)據(jù)庫(kù)東西還可以理解一下的