久久夜色精品国产亚洲AV动态图,亚洲精品午夜国产VA久久成人

搜索

APP

起點課堂會員權益

職業(yè)體系課特權

線下行業(yè)大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

作為數(shù)據(jù)產品經理，你需要搞懂這4大模塊

草帽小子

2020-04-16

4 評論 12833 瀏覽 119 收藏

16 分鐘

文章從數(shù)據(jù)全生命周期的四大模塊展開，對數(shù)據(jù)的采集、處理、存儲和分析作了簡要的分析介紹。希望對你有所幫助。

前面我們學習了4個步驟，用OSM和第一關鍵指標法來確定核心指標，接下來我們聊聊數(shù)據(jù)全生命周期。

接下來分別介紹這幾大模塊：

數(shù)據(jù)采集
數(shù)據(jù)預處理——ETL
數(shù)據(jù)存儲——數(shù)倉
數(shù)據(jù)分析——OLAP/業(yè)務模型

一、數(shù)據(jù)采集

按數(shù)據(jù)來源分，可將數(shù)據(jù)分為如下幾個類型：

埋點行為數(shù)據(jù)：通過埋點的方式，采集到的一些行為數(shù)據(jù)，如瀏覽、點擊、停留時長等
業(yè)務數(shù)據(jù)：伴隨著業(yè)務產生的數(shù)據(jù)，核心是生產系統(tǒng)內存儲的業(yè)務表單數(shù)據(jù)
日志數(shù)據(jù)：一般是web端日志記錄的數(shù)據(jù)
外部接入數(shù)據(jù)：從第三方獲得的數(shù)據(jù)

按數(shù)據(jù)類型可分為：結構化數(shù)據(jù)、半結構化數(shù)據(jù)、非結構化數(shù)據(jù)。

（1）結構化數(shù)據(jù)

一般是從內部數(shù)據(jù)庫和外部開放數(shù)據(jù)庫接口中獲得，一般都是存儲產品業(yè)務運營數(shù)據(jù)以及用戶操作的結果數(shù)據(jù)，比如注冊用戶數(shù)、下單量、完單量等數(shù)據(jù)。這類數(shù)據(jù)格式規(guī)范，典型代表就是關系數(shù)據(jù)庫中的數(shù)據(jù)，可以用二維表來存儲，有固定字段數(shù)，每個字段有固定的數(shù)據(jù)類型（數(shù)字、字符、日期等），每個字節(jié)長度相對固定。這類數(shù)據(jù)易于維護管理，同時對于查詢、展示和分析而言也是最為方便的一類數(shù)據(jù)格式。

（2）半結構化數(shù)據(jù)

應用的點擊日志以及一些用戶行為數(shù)據(jù)，通常指日志數(shù)據(jù)、xml、json等格式輸出的數(shù)據(jù)，格式較為規(guī)范，一般是純文本數(shù)據(jù)，需要對數(shù)據(jù)格式進行解析，才能用于查詢或分析數(shù)據(jù)。每條記錄預定義規(guī)范，但是每條記錄包含信息不同，字段數(shù)不同，字段名和字段類型不同，或者還包含著嵌套的格式。

（3）非結構化數(shù)據(jù)

指非純文本類數(shù)據(jù)，沒有標準格式，無法直接解析相應值，常見的非結構化數(shù)據(jù)有富文本、圖片、聲音、視頻等數(shù)據(jù)。這類數(shù)據(jù)除非是要進行高級的文本挖掘或者多媒體數(shù)據(jù)挖掘，否則對于日常的數(shù)據(jù)統(tǒng)計與分析而言，非結構化數(shù)據(jù)沒有分析價值。一般不會將非結構化數(shù)據(jù)以二進制形式存入數(shù)據(jù)倉庫，數(shù)據(jù)倉庫之父Inmon的建議是數(shù)據(jù)倉庫中只需要存儲非結構化數(shù)據(jù)的元數(shù)據(jù)。一般將非結構化數(shù)據(jù)存放在文件系統(tǒng)中，數(shù)倉中記錄數(shù)據(jù)的信息，如標題、摘要、創(chuàng)建時間等，方便進行索引查詢。

二、數(shù)據(jù)預處理——ETL

ETL

即Extract Transform Load，描述數(shù)據(jù)抽取、轉換、加載的過程。

數(shù)據(jù)抽?。喊褦?shù)據(jù)從數(shù)據(jù)源中讀出來
數(shù)據(jù)轉換：把原始數(shù)據(jù)轉換成期待的格式和維度
數(shù)據(jù)加載：把處理后的數(shù)據(jù)加載到目標處，如數(shù)據(jù)倉庫中

數(shù)據(jù)倉庫從各數(shù)據(jù)源獲取數(shù)據(jù)以及在數(shù)據(jù)倉庫內的數(shù)據(jù)流轉和流動都可以認為是ETL過程，ETL是數(shù)據(jù)倉庫的流水線，也可以認為是數(shù)據(jù)倉庫的血液，它維系著數(shù)據(jù)倉庫中數(shù)據(jù)的新陳代謝，而數(shù)據(jù)倉庫日常的管理和維護工作大部分精力是保持ETL的正常和穩(wěn)定。

Kettle

Kettle是常用的ETL處理開源免費工具，其中文名叫水壺，該項目的主程序員MATT希望把各種數(shù)據(jù)放到一個壺中，然后以指定的格式流出。Kettle是純Java編寫，可以在Windows、Linux、unix上運營，數(shù)據(jù)抽取效率高效穩(wěn)定，開放源代碼，便于二次開發(fā)包裝。但其數(shù)據(jù)抽取速度和大數(shù)據(jù)處理方面的能力比起powercenter、informatica、datastage等商業(yè)軟件要慢。

三、數(shù)據(jù)存儲——數(shù)據(jù)倉庫

數(shù)據(jù)倉庫的目的是構建面向分析的集成化數(shù)據(jù)環(huán)境，為企業(yè)提供決策支持。數(shù)據(jù)倉庫本身不生產任何數(shù)據(jù)，同時也不消費任何數(shù)據(jù)，數(shù)據(jù)來源于外部，并且開放給外部應用。這就是為什么叫數(shù)據(jù)倉庫，而非數(shù)據(jù)工廠的原因。

數(shù)據(jù)倉庫基本架構

數(shù)據(jù)倉庫基本架構包含數(shù)據(jù)流入/流出的過程，可以分為三層：源數(shù)據(jù)、數(shù)據(jù)倉庫、數(shù)據(jù)應用。

（1）ODS（Operational Data Store）數(shù)據(jù)操作層

用于原始數(shù)據(jù)在數(shù)據(jù)平臺的落地，這些數(shù)據(jù)從數(shù)據(jù)結構、數(shù)據(jù)之間的邏輯關系上都與雨啊是數(shù)據(jù)層基本一致。在源數(shù)據(jù)進入這一層時，通常要進行數(shù)據(jù)清洗，如業(yè)務字段提取、去掉不用字段、臟數(shù)據(jù)處理等。默認保留近30天的數(shù)據(jù)，表命名規(guī)范為：ods_主題_原表名。

（2）DIM（Dimension Data Layer），數(shù)據(jù)維度層

主要用于存儲公共的信息數(shù)據(jù)，如地理位置、時間，數(shù)據(jù)格式一般是維表，如以國家ID等字段為主鍵，按需存儲，保留歷史至今的所有數(shù)據(jù)，表命名規(guī)范為：dim_業(yè)務描述，如dim_time。

（3）DWD（Data Warehouse Detail）數(shù)據(jù)明細層

用于源系統(tǒng)數(shù)據(jù)在數(shù)據(jù)平臺中的永久存儲，用以支持DWS層和DM層無法覆蓋的需求。默認保留歷史至今的所有數(shù)據(jù)，表命名規(guī)范為：dwd_主題域_描述，如dws_driver_detail 司機個人信息表。

（4）DWS（Data Warehouse Service），數(shù)據(jù)匯總層

主要包含兩類匯總表，一是細粒度的寬表，二是粗粒度的匯總表。例如打車業(yè)務，包含基于訂單、乘客、司機、車輛等細粒度的寬表和基于維度組合如（用戶日下單量匯總、用戶日完單量匯總、司機日接單量匯總）的粗粒度匯總表。DWS層的匯總數(shù)據(jù)目標時滿足80%的業(yè)務計算，默認保留歷史至今的所有數(shù)據(jù)，表命名規(guī)范為：dws_主題域_描述，如dws_訂單_今日下單量。

（5）DM：數(shù)據(jù)集市層

按照業(yè)務主題構建，面向特定部門或人員等數(shù)據(jù)集合，如產品、運營、客服等，用于支持BI、多維分析、營銷推薦、標簽、數(shù)據(jù)挖掘和其他數(shù)據(jù)服務。默認保留歷史至今的所有數(shù)據(jù)，表命名規(guī)范為：dm_主題域_描述。

數(shù)據(jù)倉庫特性

數(shù)據(jù)倉庫有4大特性：主題性、集成性、穩(wěn)定性、動態(tài)性。

（1）為什么要面向主題？

面向主題是數(shù)據(jù)倉庫的第一特性，主要指合理的組織數(shù)據(jù)以方便實現(xiàn)分析。對于源數(shù)據(jù)而言，數(shù)據(jù)組織形式是多樣的，如點擊流數(shù)據(jù)格式是未經優(yōu)化的，前臺數(shù)據(jù)庫基于OLTP操作組織，不適合直接進行分析，而整理成面向主題的形式，才方便分析。如點擊流日志整理成頁面、訪問、用戶三個主題，可以明顯提升分析效率。

（2）為什么集成？

數(shù)據(jù)倉庫中存儲的數(shù)據(jù)是來源于多個數(shù)據(jù)源的集成，原始數(shù)據(jù)來自不同的數(shù)據(jù)源，存儲方式各不相同。

（3）為什么穩(wěn)定？

數(shù)據(jù)倉庫匯總保存的數(shù)據(jù)是一系列歷史快照，不允許修改，用戶只能通過分析工具進行查詢。

（4）為什么動態(tài)？

數(shù)據(jù)倉庫會定期接收新的集成數(shù)據(jù)，反映出最新的數(shù)據(jù)變化。當數(shù)據(jù)超過數(shù)據(jù)倉庫的存儲期限時，或對分析無用時，會從數(shù)據(jù)倉庫中刪除這些數(shù)據(jù)，數(shù)據(jù)倉庫的結構和維護信息存儲在數(shù)據(jù)倉庫的元數(shù)據(jù)中。

Hive

主流的數(shù)據(jù)倉庫，在國內常用的是一款開源數(shù)據(jù)倉庫hive。Hive是基于Hadoop的數(shù)據(jù)倉庫工具，可以對存儲在HDFS的文件數(shù)據(jù)集進行查詢和分析處理。Hive對外提供了類似于SQL語言的查詢語句hiveQL,在做查詢時，將HQL語句轉換成計算模型。Hive的主要優(yōu)勢是免費，而商業(yè)收費數(shù)據(jù)倉庫有Teradata、Oracle、Db2等。

四、數(shù)據(jù)分析

1. OLAP

也被稱為多維分析，提供多維數(shù)據(jù)管理環(huán)境，其典型應用是對商業(yè)問題的建模與商業(yè)分析。

1993年，關系數(shù)據(jù)庫支父F.Codd提出OLAP概念，同時提出OLAP的12條準則。使得分析人員能夠從多角度對信息進行快速、一致、交互的存取。

目標：滿足決策支持或者滿足在多維環(huán)境條件下特定的查詢和報表需求，核心技術是“維”的這個概念。“維”是人們觀察客觀世界的角度，是一種高層次的類型劃分。

OLAP的多維分析操作：鉆取、上卷、切片、切塊、切塊、旋轉、透視、排序、篩選。

鉆取：在維的不同層次間的變化，從上層降到下一層，比如通過對2020年第二季度的總銷售額數(shù)據(jù)進行鉆取，查看2010年第二季度4、5、6每個月消費數(shù)據(jù)；也可以鉆取浙江省查看杭州、寧波等城市銷售數(shù)據(jù)。
上卷：鉆取的逆操作，細粒度向高層聚合，如將江蘇、上海、浙江省的銷售數(shù)據(jù)匯總查看江浙滬地區(qū)的銷售數(shù)據(jù)。
切片：選擇維中特定的值進行分析，比如只選擇電子產品的銷售數(shù)據(jù)。
切塊：選擇維中特定區(qū)間的數(shù)據(jù)或者某批特定值進行分析，比如選擇電子產品和日用品的銷售數(shù)據(jù)。
旋轉：維的位置互換，就像二維表行列轉換，通過旋轉實現(xiàn)產品維和地域維的互換。

優(yōu)勢：基于數(shù)據(jù)倉庫面向主題的、集成的、保留歷史不可變更的數(shù)據(jù)存儲，以及多維模型多層次的數(shù)據(jù)組織形式。

2. 業(yè)務模型

基于某些數(shù)據(jù)分析和決策支持而建立起來的數(shù)據(jù)模型，如用戶評價模型、關聯(lián)推薦模型、RFM分析模型、漏斗模型、用戶行為路徑模型、用戶分群模型、留存分析模型等。接下來介紹一個常用的模型RFM模型，其他的業(yè)務模型在后續(xù)篇章進行展開。

RFM模型

根據(jù)美國數(shù)據(jù)庫營銷研究所Arthur Hughes的研究，客戶數(shù)據(jù)庫中有3個神奇的要素，這3個要素構成了數(shù)據(jù)分析最好的指標。

最近一次消費（Recency）：指用戶上一次購買的的時間，理論上上一次消費時間越近的顧客是比較好的顧客，是維系顧客的一個重要指標。。
消費頻率（Frequency）：顧客在限定時間周期內消費的次數(shù)。最長購買的顧客，也是滿意度最高的顧客。根據(jù)這個指標，可以把客戶分成5等份，相當于劃分了一個忠誠度的階梯。
消費金額（Monetary）：消費金額時產能最直接的衡量指標，也可以驗證“帕雷托法則”，公司的80%收入來自于20%的顧客。

客戶類型可劃分為：

1）重要價值客戶：RFM比較大、優(yōu)質客戶，需要保持；

措施：傾斜更多資源、VIP服務、個性化服務、附加銷售

2）重要喚回客戶：消費金額和消費頻次大，但最近無消費，需要喚回；

措施：提供有用資源，通過續(xù)訂或更新產品贏回他們

3）重要深耕客戶：消費金額大貢獻度高，且最近有交易，需要重點識別；

措施：交叉銷售，提供會員/忠誠計劃，推薦其他產品

4）重要挽留客戶：消費金額大，潛在有價值客戶，需要挽留

措施：push消息觸達，回訪，提高留存率

5）潛力客戶：消費頻次高，且最近有消費，需要挖掘

措施：向上銷售更高價值的產品

6）新客戶：最近有消費，接觸的新客戶，有推廣價值

措施：開展活動，免費試用，提高客戶興趣，建立品牌認知度

7）一般維持客戶：消費頻次多，但貢獻不大，一般維持

措施：積分制，分享寶貴的資源，以折扣推薦熱門產品/續(xù)訂，與他們重新獲得聯(lián)系

8）流失客戶：FM值均低于平均值，最近也沒消費，相當于流失

措施：恢復客戶興趣，暫時放棄無價值用戶

總結

本文主要數(shù)據(jù)采集、ETL數(shù)據(jù)預處理、數(shù)據(jù)倉庫、OLAP數(shù)據(jù)分析與業(yè)務模型，幫助大家進行技術上的掃盲，后續(xù)會介紹業(yè)務模型以及BI數(shù)據(jù)應用，歡迎一起交流。

#相關閱讀#

4個步驟，用模型確定數(shù)據(jù)指標

作者：草帽小子；公眾號：一個數(shù)據(jù)人的自留地，wx：luckily304

本文由 @草帽小子原創(chuàng)發(fā)布于人人都是產品經理。未經許可，禁止轉載

題圖來自Unsplash，基于CC0協(xié)議

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

數(shù)據(jù)產品經理的通用技能有哪些？文章被收錄于該專欄

共 12 篇文章14869 人已學習

草帽小子

《大數(shù)據(jù)實踐之路》書籍作者，公眾號：一個數(shù)據(jù)人的自留地

31篇作品 281250總閱讀量

選擇大于努力，那么應該如何選擇呢

11-151653 瀏覽

市場分析：洞悉客戶決策過程

02-065964 瀏覽

ChatGPT 發(fā)布，新一波 AI 創(chuàng)業(yè)浪潮｜AI 創(chuàng)業(yè)公司這次可以和巨頭扳手腕了么？

03-014757 瀏覽

當AIGC遇見營銷，會給消費品牌的營銷邏輯帶來哪些變化？

05-184787 瀏覽

騰訊NOW直播，再被提起已是“棄子”

12-141660 瀏覽

評論

書童小浣熊

對于要做的BI的數(shù)據(jù)小白受益匪淺，“ODS（Operational Data Store）數(shù)據(jù)操作層
用于原始數(shù)據(jù)在數(shù)據(jù)平臺的落地，這些數(shù)據(jù)從數(shù)據(jù)結構、數(shù)據(jù)之間的邏輯關系上都與雨啊是數(shù)據(jù)層基本一致”有個輸入法錯誤，另外樓主微信好像不對。。。咋是個女生的微信呢

最近來自廣東回復
1. 草帽小子作者回復書童小浣熊
  
  微信是對的，我的性別女??
  
  最近回復
2. 草帽小子作者回復書童小浣熊
  
  我看看怎么改一下
  
  最近回復
起點課堂

大家期待已久的《數(shù)據(jù)產品經理實戰(zhàn)訓練營》終于在起點學院（人人都是產品經理旗下教育機構）上線啦！

本課程非常適合新手數(shù)據(jù)產品經理，或者想要轉崗的產品經理、數(shù)據(jù)分析師、研發(fā)、產品運營等人群。

課程會從基礎概念，到核心技能，再通過典型數(shù)據(jù)分析平臺的實戰(zhàn)，幫助大家構建完整的知識體系，掌握數(shù)據(jù)產品經理的基本功。

學完后你會掌握怎么建指標體系、指標字典，如何設計數(shù)據(jù)埋點、保證數(shù)據(jù)質量，規(guī)劃大數(shù)據(jù)分析平臺等實際工作技能～

現(xiàn)在就添加空空老師（微信id：anne012520），咨詢課程詳情并領取福利優(yōu)惠吧！

最近來自廣東回復