基于某生鮮APP業(yè)務(wù)的數(shù)據(jù)倉庫搭建過程(一)
生鮮app搭建數(shù)據(jù)倉庫是非常必要的,它需要提升供應(yīng)鏈管理能力和數(shù)據(jù)的計算的準確性和時效性。那么,要怎么去進行一個數(shù)據(jù)倉庫的搭建呢?本文給大家分享一下搭建的過程~
某生鮮APP搭建數(shù)據(jù)倉庫的必要性分析
(1)供應(yīng)鏈能力是生鮮電商致勝的關(guān)鍵,提升供應(yīng)鏈管理能力離不開數(shù)據(jù)倉庫的底層支撐。
中國生鮮電商市場目前處于高速發(fā)展期,隨著巨頭和資源活躍,行業(yè)內(nèi)頻頻出現(xiàn)新玩家和創(chuàng)新模式。當下,生鮮電商市場呈現(xiàn)多業(yè)態(tài)共存的局面,隨著賽道玩家的增多以及巨頭布局的擴大,生鮮電商行業(yè)競爭將持續(xù)升級,同時也將推動原有的行業(yè)格局加速洗牌。
“供應(yīng)鏈管理”作為生鮮電商最重要的一環(huán),是企業(yè)在混戰(zhàn)中突圍致勝的關(guān)鍵,在生鮮供應(yīng)鏈中運用大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等先進技術(shù),追蹤用戶行為、精準預(yù)測市場需求、把控生鮮產(chǎn)品質(zhì)量,以及通過生產(chǎn)端延伸,以縮短供應(yīng)鏈條、降低運營成本是提高供應(yīng)鏈管理能力的重要途徑。
而實現(xiàn)以上訴求,離不開數(shù)據(jù)的支撐,數(shù)據(jù)倉庫保證了數(shù)據(jù)的準確性、時效性和完整性。
(2)生鮮電商市場潛力大,未來仍呈快速增長趨勢,數(shù)據(jù)倉庫保證密集型數(shù)據(jù)計算的準確性與時效性。
中國生鮮電商市場發(fā)展迅速,2018年生鮮電商市場交易規(guī)模突破2000億元。2016-2017年市場雖迎來洗牌期,大量中小型生鮮電商或倒閉或被并購,與此同時,阿里京東等電商巨頭入局,不斷加碼供應(yīng)鏈及物流等基礎(chǔ)建設(shè)投資,并帶來了線上線下融合的新零售模式,整個生鮮電商行業(yè)仍將保持快速發(fā)展。
業(yè)務(wù)的快速增長意味著數(shù)據(jù)的極度密集,急需數(shù)據(jù)倉庫的支撐來實現(xiàn)高速和大批量的數(shù)據(jù)計算。
(3)該生鮮商城擁有成熟的線上業(yè)務(wù)系統(tǒng),底層OLTP系統(tǒng)成熟完善,擁有搭建數(shù)據(jù)倉庫的業(yè)務(wù)基礎(chǔ)。
數(shù)據(jù)倉庫搭建的價值
(1)數(shù)據(jù)集成整合,權(quán)限統(tǒng)一管理,可以保證數(shù)據(jù)的安全性。
通過數(shù)據(jù)的集中化管理,通過權(quán)限與角色的配置,可以全方面把控數(shù)據(jù)的訪問路徑與口徑,不同權(quán)限對應(yīng)不同數(shù)據(jù)主題,進一步預(yù)防數(shù)據(jù)的泄漏。
(2)數(shù)據(jù)查看更加直觀靈活、能夠進一步促進運營策略、帶來數(shù)據(jù)增長。
搭建在數(shù)據(jù)倉庫之上的數(shù)據(jù)看板、CEO駕駛艙,能直觀的看到數(shù)據(jù)的增長和分布情況,更加方便企業(yè)垂直化運營,盤活私域流量,促進GMV增長。
(3)多部門合作更加順暢。
擁有數(shù)據(jù)倉庫之后,產(chǎn)品經(jīng)理可以基于此根據(jù)不同部門的日常需求合并歸納,將高頻度高時效的需求落實到具體的大數(shù)據(jù)產(chǎn)品中,方便運營或者商務(wù)、市場部門人員自行實時獲取數(shù)據(jù),降本增效,提高響應(yīng)速度,更好支撐業(yè)務(wù)部門的工作。
數(shù)據(jù)倉庫落地流程
首先,數(shù)據(jù)倉庫是一款數(shù)據(jù)產(chǎn)品,遵循產(chǎn)品設(shè)計邏輯,從業(yè)務(wù)出發(fā),挖掘分析需求,立足需求確定產(chǎn)品設(shè)計方案,最后交付工程師實際落地。
其次,從數(shù)據(jù)倉庫的角度來看,數(shù)據(jù)倉庫落地包括從源數(shù)據(jù)到DW輸出過程中對數(shù)據(jù)進行采集、建模、清洗、預(yù)處理、加工和集成等關(guān)鍵步驟。
再次,數(shù)據(jù)倉庫產(chǎn)品不僅僅承擔數(shù)據(jù)的倉儲功能,還希望基于在海量數(shù)據(jù)之上提供更多分析、決策、模型等應(yīng)用。
從需求了解為起點,整個數(shù)倉的搭建過程需要經(jīng)歷以下9個步驟:
1. 了解業(yè)務(wù)背景
該生鮮APP是一款線上電商產(chǎn)品,用戶的主要行為在于商品的選購,在APP上瀏覽生鮮產(chǎn)品,選擇后加入購物車,提交訂單,完成支付,然后由商家進行配送,配送完成。
流程結(jié)束,如下圖所示:
該產(chǎn)品的商業(yè)化思路很清晰,提升用戶粘性,提高下單率,提升GMV,降低倉儲、物流及供貨成本,降本增效、提高企業(yè)利潤是該數(shù)倉追求的主要目標。
2. 設(shè)計數(shù)據(jù)倉庫實施步驟
2.1 根據(jù)業(yè)務(wù)目標,設(shè)計分析方案
根據(jù)經(jīng)濟學(xué)原理可以得出:利潤=營業(yè)額-成本。
在相同成本基礎(chǔ)上,營業(yè)額越高,利潤值越大;相反,營業(yè)額不變的基礎(chǔ)之下,成本越低,利潤值越高。
提高營業(yè)額,我們可以從:擴大購買人群、提高客單價、提高復(fù)購率、減少退貨率等方面著手。
降低成本,我們則可以從:降低進貨價格、減少庫存量、降低貨品損壞率、降低物流成本等方面著手。
擴大購買人群,提高客單價、提高復(fù)購率、減少退貨率,我們可以從用戶數(shù)據(jù)、訂單數(shù)據(jù)、大客戶數(shù)據(jù)、購物車數(shù)據(jù)、售后數(shù)據(jù)進行分析;
降低進貨成本、減少庫存、降低貨品損壞率、降低物流成本,我們可以從供應(yīng)鏈數(shù)據(jù)、微倉數(shù)據(jù)進行分析。
根據(jù)以上思路,我們可以將數(shù)據(jù)分析主題劃分為以下7個:
- 用戶主題分析
- 訂單主題分析
- 大客戶主題分析
- 購物車主題分析
- 售后主題分析
- 供應(yīng)鏈主題分析
- 微倉主題分析
2.2 對所有主題進行目標拆解
用戶分析:
- 用戶會員占比?
- 用戶使用優(yōu)惠券的情況?
- 使用優(yōu)惠券后有多少轉(zhuǎn)為會員?
- 成為會員的路徑?
- 會員剩余有效期的時間?
- 購買會員時長的分布?
- 會員年齡段、性別的分布情況?
- 用戶點擊行為?
- 用戶賬戶的情況分類(手機號、第三方賬號)?
- 用戶來源渠道(推廣頁面、短信導(dǎo)流、二維碼掃碼)?
- 用戶支付習(xí)慣(支付寶、銀聯(lián)、微信、其他)?
訂單分析:
- 訂單金額分布?
- 哪些商品比較受歡迎?
- 下單時間的分布是怎么樣的?
- 年度、季度、月度、周、日銷售額、利潤?
- 哪種優(yōu)惠形式用的比較多(會員?優(yōu)惠券?優(yōu)惠券額度?免配送費)?
- 哪些品類產(chǎn)品銷售比較快?
- 訂單評價(物流、服務(wù)、商品)?
- 下單到配送完成,訂單消耗時間分布?
- 訂單支付方式分布?
- 訂單組成類型(個人訂單、大客戶訂單),銷售額占比情況?
大客戶分析:
- 大客戶來源?
- 大客戶訂單規(guī)模(100人、200人)?
- 大客戶單位性質(zhì)、行業(yè)分布?(國企、私企、互聯(lián)網(wǎng))
- 大客戶地域分布?
- 大客戶購買頻率?
- 大客戶復(fù)購率?
購物車分析:
- 購物車產(chǎn)品數(shù)量?
- 購物車產(chǎn)品分類?
- 購物車商品關(guān)聯(lián)度?
- 購物車轉(zhuǎn)為訂單的比率?
售后分析:
- 售后渠道接單量分布?
- 售后類型(物流、商品質(zhì)量、支付問題)?
- 售后回復(fù)效率、時間?
- 售后滿意度?
- 售后處理方式(退款?賠償?發(fā)送優(yōu)惠券?)分布?
供應(yīng)鏈分析:
- 哪些供應(yīng)商的產(chǎn)品比較受歡迎?
- 哪些供應(yīng)商產(chǎn)品比較全?
- 哪些供應(yīng)商的配貨速度比較快?
- 各品類商品供應(yīng)商配貨時間集中度是什么時候?
- 供應(yīng)商的分布?
微倉分析:
- 微倉的分布?
- 微倉的規(guī)模?
- 哪些微倉效益比較好?
- 哪些微倉評價比較好?
- 微倉配貨分揀時間分布?
- 微倉收入是怎么樣的分布?
- 微倉面積與產(chǎn)品囤貨量分析?
2.3 抽取公共維度,構(gòu)建數(shù)據(jù)集市
確定細分的分析主題后,需要對上述所有的主題進行切片,抽取公共維度。公共維度的抽取非常重要,如果沒有維度的切片,那么所有分析數(shù)據(jù)只能從業(yè)務(wù)源數(shù)據(jù)中抽取,這樣會極大降低數(shù)據(jù)的處理速度,甚至?xí)?dǎo)致計算系統(tǒng)的崩潰。這一步也為接下來的數(shù)據(jù)建模提供基礎(chǔ)。
以用戶分析為例,與用戶有關(guān)的維度有下單時間、下單日期、所在地區(qū)、購買的產(chǎn)品、用戶訂單、支付方式、折扣方式、年齡、購買頻率、售后等等。
以此類推,逐個分析每一個主題,然后抽取公共維度,構(gòu)建總線矩陣表,如下所示:
2.4 根據(jù)常用建模方法,設(shè)計維度表和事實表
一般來說,數(shù)據(jù)倉庫由維度表和事實表2種表組成,保存度量值的詳細值或事實的表稱為“事實表”;用來描述事物維度和屬性的表稱為維度表。一般來說,一個事實數(shù)據(jù)表都要和一個或多個維度表相關(guān)聯(lián)。
在這一步驟中,我們需要把OLTP模型中的數(shù)據(jù)轉(zhuǎn)化為關(guān)系模型。建模方法常用的有星形模型、雪花模型。
以下訂單事實表為例,基于星型模型將OLTP中的數(shù)據(jù)轉(zhuǎn)化為關(guān)系模型,定義層次結(jié)構(gòu),在這一步基本完成物理數(shù)據(jù)庫的設(shè)計。
如下圖所示:
3. 配置數(shù)據(jù)源
OLTP中的數(shù)據(jù)類型非常多,來源也很多。既有結(jié)構(gòu)化數(shù)據(jù),也有半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù);既有mysql、oracle等關(guān)系型數(shù)據(jù)數(shù)據(jù),也有日志文件、ngix服務(wù)器、埋點數(shù)據(jù),甚至還有DOC文件數(shù)據(jù)。
在這一步就需要梳理所有數(shù)據(jù)來源,包括來源總數(shù)、數(shù)據(jù)類型、存儲方式、數(shù)據(jù)量級、更新頻度、增量量級等等。
另外需要注意到,結(jié)構(gòu)化數(shù)據(jù)可以直接通過ETL方式進行提??;結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)則需要通過一定的算法處理后再入庫。
未完待續(xù)……
本文由 @alentain 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于CC0協(xié)議。
數(shù)據(jù)庫能發(fā)一份嗎
期待后續(xù),幫助很大!
收益匪淺 請問后續(xù)篇還會更新嗎?
學(xué)習(xí)收藏了,今天就當一回課代表吧。搭建私域流量運營,當然必須要有工具。給大家推薦一款由【人人都是產(chǎn)品經(jīng)理】【起點課堂】旗下獨立研發(fā)的私域流量運營工具——糧倉·企微管家。糧倉·企微管家是一款基于企業(yè)微信的一款營銷型SCRM系統(tǒng)。集裂變獲客、留存促活、銷售變現(xiàn)、客戶管理于一體的私域增長閉環(huán)系統(tǒng)。覆蓋企業(yè)客戶運營的生命周期,助力企業(yè)私域流量運營,提升售前/售后服務(wù)能力。還可以免費開始使用哦~ http://996.pm/M0A06
期待這個主題的更新,贊
alentain你好,作為數(shù)產(chǎn)最近新接觸到數(shù)倉建設(shè),看了你的文章很有幫助。我目前在負責(zé)一個主題的數(shù)倉搭建,之前沒有經(jīng)驗,您有推薦的書籍或者其他資料嗎?可以幫助我更系統(tǒng)化的學(xué)習(xí)數(shù)倉的落地。
產(chǎn)品不用管落地的吧,落地不都是數(shù)倉工程師的事情么
感興趣的話可加微信交流: a876147882
1111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111