作為數(shù)據(jù)產品經理,你需要搞懂這4大模塊
文章從數(shù)據(jù)全生命周期的四大模塊展開,對數(shù)據(jù)的采集、處理、存儲和分析作了簡要的分析介紹。希望對你有所幫助。
前面我們學習了4個步驟,用OSM和第一關鍵指標法來確定核心指標,接下來我們聊聊數(shù)據(jù)全生命周期。
接下來分別介紹這幾大模塊:
- 數(shù)據(jù)采集
- 數(shù)據(jù)預處理——ETL
- 數(shù)據(jù)存儲——數(shù)倉
- 數(shù)據(jù)分析——OLAP/業(yè)務模型
一、數(shù)據(jù)采集
按數(shù)據(jù)來源分,可將數(shù)據(jù)分為如下幾個類型:
- 埋點行為數(shù)據(jù):通過埋點的方式,采集到的一些行為數(shù)據(jù),如瀏覽、點擊、停留時長等
- 業(yè)務數(shù)據(jù):伴隨著業(yè)務產生的數(shù)據(jù),核心是生產系統(tǒng)內存儲的業(yè)務表單數(shù)據(jù)
- 日志數(shù)據(jù):一般是web端日志記錄的數(shù)據(jù)
- 外部接入數(shù)據(jù):從第三方獲得的數(shù)據(jù)
按數(shù)據(jù)類型可分為:結構化數(shù)據(jù)、半結構化數(shù)據(jù)、非結構化數(shù)據(jù)。
(1)結構化數(shù)據(jù)
一般是從內部數(shù)據(jù)庫和外部開放數(shù)據(jù)庫接口中獲得,一般都是存儲產品業(yè)務運營數(shù)據(jù)以及用戶操作的結果數(shù)據(jù),比如注冊用戶數(shù)、下單量、完單量等數(shù)據(jù)。這類數(shù)據(jù)格式規(guī)范,典型代表就是關系數(shù)據(jù)庫中的數(shù)據(jù),可以用二維表來存儲,有固定字段數(shù),每個字段有固定的數(shù)據(jù)類型(數(shù)字、字符、日期等),每個字節(jié)長度相對固定。這類數(shù)據(jù)易于維護管理,同時對于查詢、展示和分析而言也是最為方便的一類數(shù)據(jù)格式。
(2)半結構化數(shù)據(jù)
應用的點擊日志以及一些用戶行為數(shù)據(jù),通常指日志數(shù)據(jù)、xml、json等格式輸出的數(shù)據(jù),格式較為規(guī)范,一般是純文本數(shù)據(jù),需要對數(shù)據(jù)格式進行解析,才能用于查詢或分析數(shù)據(jù)。每條記錄預定義規(guī)范,但是每條記錄包含信息不同,字段數(shù)不同,字段名和字段類型不同,或者還包含著嵌套的格式。
(3)非結構化數(shù)據(jù)
指非純文本類數(shù)據(jù),沒有標準格式,無法直接解析相應值,常見的非結構化數(shù)據(jù)有富文本、圖片、聲音、視頻等數(shù)據(jù)。這類數(shù)據(jù)除非是要進行高級的文本挖掘或者多媒體數(shù)據(jù)挖掘,否則對于日常的數(shù)據(jù)統(tǒng)計與分析而言,非結構化數(shù)據(jù)沒有分析價值。一般不會將非結構化數(shù)據(jù)以二進制形式存入數(shù)據(jù)倉庫,數(shù)據(jù)倉庫之父Inmon的建議是數(shù)據(jù)倉庫中只需要存儲非結構化數(shù)據(jù)的元數(shù)據(jù)。一般將非結構化數(shù)據(jù)存放在文件系統(tǒng)中,數(shù)倉中記錄數(shù)據(jù)的信息,如標題、摘要、創(chuàng)建時間等,方便進行索引查詢。
二、數(shù)據(jù)預處理——ETL
ETL
即Extract Transform Load,描述數(shù)據(jù)抽取、轉換、加載的過程。
- 數(shù)據(jù)抽?。喊褦?shù)據(jù)從數(shù)據(jù)源中讀出來
- 數(shù)據(jù)轉換:把原始數(shù)據(jù)轉換成期待的格式和維度
- 數(shù)據(jù)加載:把處理后的數(shù)據(jù)加載到目標處,如數(shù)據(jù)倉庫中
數(shù)據(jù)倉庫從各數(shù)據(jù)源獲取數(shù)據(jù)以及在數(shù)據(jù)倉庫內的數(shù)據(jù)流轉和流動都可以認為是ETL過程,ETL是數(shù)據(jù)倉庫的流水線,也可以認為是數(shù)據(jù)倉庫的血液,它維系著數(shù)據(jù)倉庫中數(shù)據(jù)的新陳代謝,而數(shù)據(jù)倉庫日常的管理和維護工作大部分精力是保持ETL的正常和穩(wěn)定。
Kettle
Kettle是常用的ETL處理開源免費工具,其中文名叫水壺,該項目的主程序員MATT希望把各種數(shù)據(jù)放到一個壺中,然后以指定的格式流出。Kettle是純Java編寫,可以在Windows、Linux、unix上運營,數(shù)據(jù)抽取效率高效穩(wěn)定,開放源代碼,便于二次開發(fā)包裝。但其數(shù)據(jù)抽取速度和大數(shù)據(jù)處理方面的能力比起powercenter、informatica、datastage等商業(yè)軟件要慢。
三、數(shù)據(jù)存儲——數(shù)據(jù)倉庫
數(shù)據(jù)倉庫的目的是構建面向分析的集成化數(shù)據(jù)環(huán)境,為企業(yè)提供決策支持。數(shù)據(jù)倉庫本身不生產任何數(shù)據(jù),同時也不消費任何數(shù)據(jù),數(shù)據(jù)來源于外部,并且開放給外部應用。這就是為什么叫數(shù)據(jù)倉庫,而非數(shù)據(jù)工廠的原因。
數(shù)據(jù)倉庫基本架構
數(shù)據(jù)倉庫基本架構包含數(shù)據(jù)流入/流出的過程,可以分為三層:源數(shù)據(jù)、數(shù)據(jù)倉庫、數(shù)據(jù)應用。
(1)ODS(Operational Data Store)數(shù)據(jù)操作層
用于原始數(shù)據(jù)在數(shù)據(jù)平臺的落地,這些數(shù)據(jù)從數(shù)據(jù)結構、數(shù)據(jù)之間的邏輯關系上都與雨啊是數(shù)據(jù)層基本一致。在源數(shù)據(jù)進入這一層時,通常要進行數(shù)據(jù)清洗,如業(yè)務字段提取、去掉不用字段、臟數(shù)據(jù)處理等。默認保留近30天的數(shù)據(jù),表命名規(guī)范為:ods_主題_原表名。
(2)DIM(Dimension Data Layer),數(shù)據(jù)維度層
主要用于存儲公共的信息數(shù)據(jù),如地理位置、時間,數(shù)據(jù)格式一般是維表,如以國家ID等字段為主鍵,按需存儲,保留歷史至今的所有數(shù)據(jù),表命名規(guī)范為:dim_業(yè)務描述,如dim_time。
(3)DWD(Data Warehouse Detail)數(shù)據(jù)明細層
用于源系統(tǒng)數(shù)據(jù)在數(shù)據(jù)平臺中的永久存儲,用以支持DWS層和DM層無法覆蓋的需求。默認保留歷史至今的所有數(shù)據(jù),表命名規(guī)范為:dwd_主題域_描述,如dws_driver_detail 司機個人信息表。
(4)DWS(Data Warehouse Service),數(shù)據(jù)匯總層
主要包含兩類匯總表,一是細粒度的寬表,二是粗粒度的匯總表。例如打車業(yè)務,包含基于訂單、乘客、司機、車輛等細粒度的寬表和基于維度組合如(用戶日下單量匯總、用戶日完單量匯總、司機日接單量匯總)的粗粒度匯總表。DWS層的匯總數(shù)據(jù)目標時滿足80%的業(yè)務計算,默認保留歷史至今的所有數(shù)據(jù),表命名規(guī)范為:dws_主題域_描述,如dws_訂單_今日下單量。
(5)DM:數(shù)據(jù)集市層
按照業(yè)務主題構建,面向特定部門或人員等數(shù)據(jù)集合,如產品、運營、客服等,用于支持BI、多維分析、營銷推薦、標簽、數(shù)據(jù)挖掘和其他數(shù)據(jù)服務。默認保留歷史至今的所有數(shù)據(jù),表命名規(guī)范為:dm_主題域_描述。
數(shù)據(jù)倉庫特性
數(shù)據(jù)倉庫有4大特性:主題性、集成性、穩(wěn)定性、動態(tài)性。
(1)為什么要面向主題?
面向主題是數(shù)據(jù)倉庫的第一特性,主要指合理的組織數(shù)據(jù)以方便實現(xiàn)分析。對于源數(shù)據(jù)而言,數(shù)據(jù)組織形式是多樣的,如點擊流數(shù)據(jù)格式是未經優(yōu)化的,前臺數(shù)據(jù)庫基于OLTP操作組織,不適合直接進行分析,而整理成面向主題的形式,才方便分析。如點擊流日志整理成頁面、訪問、用戶三個主題,可以明顯提升分析效率。
(2)為什么集成?
數(shù)據(jù)倉庫中存儲的數(shù)據(jù)是來源于多個數(shù)據(jù)源的集成,原始數(shù)據(jù)來自不同的數(shù)據(jù)源,存儲方式各不相同。
(3)為什么穩(wěn)定?
數(shù)據(jù)倉庫匯總保存的數(shù)據(jù)是一系列歷史快照,不允許修改,用戶只能通過分析工具進行查詢。
(4)為什么動態(tài)?
數(shù)據(jù)倉庫會定期接收新的集成數(shù)據(jù),反映出最新的數(shù)據(jù)變化。當數(shù)據(jù)超過數(shù)據(jù)倉庫的存儲期限時,或對分析無用時,會從數(shù)據(jù)倉庫中刪除這些數(shù)據(jù),數(shù)據(jù)倉庫的結構和維護信息存儲在數(shù)據(jù)倉庫的元數(shù)據(jù)中。
Hive
主流的數(shù)據(jù)倉庫,在國內常用的是一款開源數(shù)據(jù)倉庫hive。Hive是基于Hadoop的數(shù)據(jù)倉庫工具,可以對存儲在HDFS的文件數(shù)據(jù)集進行查詢和分析處理。Hive對外提供了類似于SQL語言的查詢語句hiveQL,在做查詢時,將HQL語句轉換成計算模型。Hive的主要優(yōu)勢是免費,而商業(yè)收費數(shù)據(jù)倉庫有Teradata、Oracle、Db2等。
四、數(shù)據(jù)分析
1. OLAP
也被稱為多維分析,提供多維數(shù)據(jù)管理環(huán)境,其典型應用是對商業(yè)問題的建模與商業(yè)分析。
1993年,關系數(shù)據(jù)庫支父F.Codd提出OLAP概念,同時提出OLAP的12條準則。使得分析人員能夠從多角度對信息進行快速、一致、交互的存取。
目標:滿足決策支持或者滿足在多維環(huán)境條件下特定的查詢和報表需求,核心技術是“維”的這個概念。“維”是人們觀察客觀世界的角度,是一種高層次的類型劃分。
OLAP的多維分析操作:鉆取、上卷、切片、切塊、切塊、旋轉、透視、排序、篩選。
- 鉆取:在維的不同層次間的變化,從上層降到下一層,比如通過對2020年第二季度的總銷售額數(shù)據(jù)進行鉆取,查看2010年第二季度4、5、6每個月消費數(shù)據(jù);也可以鉆取浙江省查看杭州、寧波等城市銷售數(shù)據(jù)。
- 上卷:鉆取的逆操作,細粒度向高層聚合,如將江蘇、上海、浙江省的銷售數(shù)據(jù)匯總查看江浙滬地區(qū)的銷售數(shù)據(jù)。
- 切片:選擇維中特定的值進行分析,比如只選擇電子產品的銷售數(shù)據(jù)。
- 切塊:選擇維中特定區(qū)間的數(shù)據(jù)或者某批特定值進行分析,比如選擇電子產品和日用品的銷售數(shù)據(jù)。
- 旋轉:維的位置互換,就像二維表行列轉換,通過旋轉實現(xiàn)產品維和地域維的互換。
優(yōu)勢:基于數(shù)據(jù)倉庫面向主題的、集成的、保留歷史不可變更的數(shù)據(jù)存儲,以及多維模型多層次的數(shù)據(jù)組織形式。
2. 業(yè)務模型
基于某些數(shù)據(jù)分析和決策支持而建立起來的數(shù)據(jù)模型,如用戶評價模型、關聯(lián)推薦模型、RFM分析模型、漏斗模型、用戶行為路徑模型、用戶分群模型、留存分析模型等。接下來介紹一個常用的模型RFM模型,其他的業(yè)務模型在后續(xù)篇章進行展開。
RFM模型
根據(jù)美國數(shù)據(jù)庫營銷研究所Arthur Hughes的研究,客戶數(shù)據(jù)庫中有3個神奇的要素,這3個要素構成了數(shù)據(jù)分析最好的指標。
- 最近一次消費(Recency):指用戶上一次購買的的時間,理論上上一次消費時間越近的顧客是比較好的顧客,是維系顧客的一個重要指標。。
- 消費頻率(Frequency):顧客在限定時間周期內消費的次數(shù)。最長購買的顧客,也是滿意度最高的顧客。根據(jù)這個指標,可以把客戶分成5等份,相當于劃分了一個忠誠度的階梯。
- 消費金額(Monetary):消費金額時產能最直接的衡量指標,也可以驗證“帕雷托法則”,公司的80%收入來自于20%的顧客。
客戶類型可劃分為:
1)重要價值客戶:RFM比較大、優(yōu)質客戶,需要保持;
措施:傾斜更多資源、VIP服務、個性化服務、附加銷售
2)重要喚回客戶:消費金額和消費頻次大,但最近無消費,需要喚回;
措施:提供有用資源,通過續(xù)訂或更新產品贏回他們
3)重要深耕客戶:消費金額大貢獻度高,且最近有交易,需要重點識別;
措施:交叉銷售,提供會員/忠誠計劃,推薦其他產品
4)重要挽留客戶:消費金額大,潛在有價值客戶,需要挽留
措施:push消息觸達,回訪,提高留存率
5)潛力客戶:消費頻次高,且最近有消費,需要挖掘
措施:向上銷售更高價值的產品
6)新客戶:最近有消費,接觸的新客戶,有推廣價值
措施:開展活動,免費試用,提高客戶興趣,建立品牌認知度
7)一般維持客戶:消費頻次多,但貢獻不大,一般維持
措施:積分制,分享寶貴的資源,以折扣推薦熱門產品/續(xù)訂,與他們重新獲得聯(lián)系
8)流失客戶:FM值均低于平均值,最近也沒消費,相當于流失
措施:恢復客戶興趣,暫時放棄無價值用戶
總結
本文主要數(shù)據(jù)采集、ETL數(shù)據(jù)預處理、數(shù)據(jù)倉庫、OLAP數(shù)據(jù)分析與業(yè)務模型,幫助大家進行技術上的掃盲,后續(xù)會介紹業(yè)務模型以及BI數(shù)據(jù)應用,歡迎一起交流。
#相關閱讀#
作者:草帽小子;公眾號:一個數(shù)據(jù)人的自留地,wx:luckily304
本文由 @草帽小子 原創(chuàng)發(fā)布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協(xié)議
對于要做的BI的數(shù)據(jù)小白受益匪淺,“ODS(Operational Data Store)數(shù)據(jù)操作層
用于原始數(shù)據(jù)在數(shù)據(jù)平臺的落地,這些數(shù)據(jù)從數(shù)據(jù)結構、數(shù)據(jù)之間的邏輯關系上都與雨啊是數(shù)據(jù)層基本一致”有個輸入法錯誤,另外樓主微信好像不對。。。咋是個女生的微信呢
微信是對的,我的性別女??
我看看怎么改一下
大家期待已久的《數(shù)據(jù)產品經理實戰(zhàn)訓練營》終于在起點學院(人人都是產品經理旗下教育機構)上線啦!
本課程非常適合新手數(shù)據(jù)產品經理,或者想要轉崗的產品經理、數(shù)據(jù)分析師、研發(fā)、產品運營等人群。
課程會從基礎概念,到核心技能,再通過典型數(shù)據(jù)分析平臺的實戰(zhàn),幫助大家構建完整的知識體系,掌握數(shù)據(jù)產品經理的基本功。
學完后你會掌握怎么建指標體系、指標字典,如何設計數(shù)據(jù)埋點、保證數(shù)據(jù)質量,規(guī)劃大數(shù)據(jù)分析平臺等實際工作技能~
現(xiàn)在就添加空空老師(微信id:anne012520),咨詢課程詳情并領取福利優(yōu)惠吧!