OLAP聯機分析:數據產品經理必備技能

3 評論 21780 瀏覽 146 收藏 9 分鐘

OLAP聯機分析常用來搭建業務數據分析平臺,通過本文你會發現OLAP聯機分析并沒有想象的那么復雜。

說到數據分析,OLAP大概是最常見的選擇。因此,作為一名數據產品經理,要想搭建一個業務的數據分析平臺,OLAP是你不得不掌握的必備技能。

OLAP(OnLine Analysis Processing ,聯機分析處理 ) 是數據倉庫系統的主要應用,支持復雜的分析操作,側重決策支持,并且提供直觀易懂的查詢結果。在實際的商業分析中,OLAP聯機分析更多的是指對數據分析的一種解決方案。

OLAP聯機分析首先是把數據預處理成數據立方(Cube),并把有可能的匯總都預先算出來(即預聚合處理),然后在用戶選擇多維度匯總時,在預先的計算出來的數據基礎上很快地計算出用戶想要的結果,從而可以更好更快地支持極大數據量的及時分析。

OLAP聯機分析最基本的工作就是對數據方(Cube)的操作,因此,首先讓我們了解數據方(Cube)的維度層次劃分和基本操作,并在此基礎上,掌握應該從哪些方面考慮數據并構建出業務模型。為了方便大家的閱讀理解,下面所有的舉例分析都是基于圖一數據方(Cube)的基礎上進行的。

無標題

圖一 ?數據方(Cube)

OLAP聯機分析是從多維信息、多層次信息的角度,針對特定問題進行數據的匯總分析。因此,站在數據面的角度考慮,數據源需要滿足如下層次劃分:

  • 維度(Dimension):是用戶觀察數據的特定角度,是問題的一類屬性,屬性集合構成一個維度(時間維、地理維等)。舉個例子:圖一數據方(Cube)中的季度維度和城市維度。
  • 維度的層次(Level):用戶觀察數據的某個特定角度(即某個維度)還可能存在細節程度不同的各個描述方面(時間維包括日期、月份、季度、年)。舉個例子:圖一數據方(Cube)中的季度維度還可以進一步劃分為月份的維度,月度還可以在日期的細節粒度進行描述。
  • 維度的成員(Member):即維度的一個取值,是數據項在某個維度中位置的描述,如“某年某月某日”是在時間維度上的位置描述。舉個例子:2016年一季度是一個維度的成員。
  • 度量(Measure):多維數組的取值。舉個例子:機票在2016年一季度上海市的出票量。

OLAP聯機分析是在基于數據方(Cube)的基礎上進行操作的。因此,站在分析的角度上,數據源需提供支持鉆取(Drill-up和Drill-down)、切片(Slice)和切塊(Dice)以及旋轉(Pivot)等操作。

  • 鉆?。?/strong>改變維的層次,變換分析的粒度。它包括向下鉆取(Drill-down)、向上鉆取(Drill-up)。

向上鉆取是在某一維上將低層次的細節數據概括到高層次的匯總數據,或者減少維數。舉個例子:將北京、上海、廣州等三個省市的機票出票量進行匯總來查看北上廣一線城市的出票情況。

而向下鉆取則相反,從匯總數據深入到細節數據進行觀察或增加新的維度。舉個例子:將2016第一季度的出票量進行下鉆,查看具體1月、2月、3月三個月的每月的出票量。

  • 切片和切塊:在一部分維上選定值后,關心度量數據在剩余維上的分布。如果剩余的維只有兩個,則是切片,如果有三個或以上,則是切塊。

切片是選定特定的值進行分析,在立方體(Cube)上的感覺就是選定一個維度后進行的平面切分,就像是一刀切。舉個例子:只選擇機票這個票種的銷售數據,或者2016第一季度的數據。

切塊是選擇維度中特定區間的數據,或者某批特定值進行分析,在立方體(Cube)上的感覺就是揮幾刀切出一塊。舉個例子:2016第一季度到2016第二季度的銷售數據。

  • 旋轉:變換維的方向,即在表格中重新安排維的放置(如行列互換)。舉個例子:圖一數據方(Cube)中季度維度和城市維度的旋轉互換。

在實現數據方(Cube)的過程中,由于業務靈活多變,導致了構建的業務模型隨之經常發生變化,而業務維度和量度一旦發生變化,研發人員需要把整個Cube(多維立方體)重新定義并生成,數據產品經理只能在此Cube上進行多維分析,這樣就限制數據產品經理快速改變問題分析的角度,從而使數據分析平臺成為死板的日常報表系統。

為了避免這一情況,數據產品經理在前期過程中,就需要理解數據并且構建出符合業務的多維數據模型,包括:

源數據如何拆分到不同字段中?

例如如何把季度拆分到日期的格式,日期date拆分成yyyy-MM-dd這樣的字段格式進行存儲。

哪些字段用于維度?

例如季度、城市、票種等都可以作為維度字段。

哪些字段用于統計指標?

例如出票量、銷售額這些都可以作為指標進行分析統計使用。

使用什么樣的規則來對數據進行聚合?

例如是進行簡單的匯總,還是要進行一般的加減乘除,又或者更復雜的規則進行聚合。

用戶經常使用的組合查詢是?

例如經常把季度和城市進行組合查詢匯總,這些都需要提前考慮清楚。

排序規則?

例如經常會按照出票量和時間等進行排序。

掌握以上幾點以后,你會發現一旦多維數據模型建成后,OLAP聯機分析并沒有想象的那么復雜。大數據分析架構在這個巨大Cube的支持下,直接把維度和度量的生成交給數據產品經理 ,由數據產品經理自己定義好維度和度量之后,Hadoop會將業務的維度和度量直接翻譯成MapReduce運行,并最終生成業務報表。

 

本文由 @徐鵬 原創發布于人人都是產品經理。未經許可,禁止轉載。

專欄作家

一個數據人的自留地,公眾號:一個數據人的自留地。人人都是產品經理專欄作家,《數據產品經理修煉手冊》作者。

本文原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 說得好好!收藏!

    來自北京 回復
  2. 大家期待已久的《數據產品經理實戰訓練營》終于在起點學院(人人都是產品經理旗下教育機構)上線啦!

    本課程非常適合新手數據產品經理,或者想要轉崗的產品經理、數據分析師、研發、產品運營等人群。

    課程會從基礎概念,到核心技能,再通過典型數據分析平臺的實戰,幫助大家構建完整的知識體系,掌握數據產品經理的基本功。

    學完后你會掌握怎么建指標體系、指標字典,如何設計數據埋點、保證數據質量,規劃大數據分析平臺等實際工作技能~

    現在就添加空空老師(微信id:anne012520),咨詢課程詳情并領取福利優惠吧!

    來自廣東 回復
  3. 簡潔易懂,干貨

    來自北京 回復