數據分析 | 數據分析整體框架
編輯導語:無論是產品還是運營,數據分析都是其日常工作中不可忽略的一個板塊,那么數據分析的整體框架應該如何搭建?本篇文章里,作者以支付業務為例,對數據分析的整體框架、數據如何處理加工做了相應闡述,一起來看一下吧。
我以支付業務為例來講解。
用戶來到支付收銀臺后,在頁面上有很多點擊行為,比如選擇各種支付方式,微信支付、ApplePay 支付等最后完成支付,也有可能點擊左上角返回鍵或者右上角訂單中心離開當前頁面。
這個過程會產生很多數據,從數據大類上分成:用戶數據、行為數據和業務數據。
誰(用戶數據)做了什么(行為數據)結果如何(業務數據)?
用戶數據指用戶本身的特性,如用戶畫像,使用你產品的用戶男性多還是女性多,年齡多大等。
行為數據指用戶使用產品在頁面上的各種點擊行為,在頁面上停留時長等。
業務數據指用戶行為之后,實際產生的結果,業務數據會落庫業務數據表。分析業務數據的意義,可以衡量商業價值,是業務最終呈現結果,用以推動公司業務的發展。
用戶數據和行為數據通??梢詮牡谌綌祿ぞ?,如友盟、Google Analytics 直接獲取,業務數據一般要內部建設。
今天重點講業務數據搭建完整過程,以阿里云的Quick BI為例。
在整個數據分析的框架中,分為五大層次,依次是:數據生成、獲取數據、數據建模、數據分析和數據應用。
一、數據生成
還是以支付業務為例,用戶選擇支付方式完成支付后,落庫核心的兩張業務表:訂單表和交易表。一個訂單會對應多筆交易(每選擇一種支付方式生成一筆交易,一筆訂單可以使用多個支付方式嘗試支付),其實還會產生其他表,比如收貨地址表等。
二、獲取數據
通常使用第三方工具如ETL將業務系統的數據經過抽?。‥xtract)、清洗轉換(Transform)之后加載(Load)到數據倉庫的過程,數據呈現在BI的數據源。
三、數據建模
所有數據進到數倉以后,需要根據實際想要看的業務數據進行數據建模,建模后的數據呈現在數據集。數據集作為數據源和可視化展示的中間環節,承接數據源的輸入,并為可視化展示輸出數據表。
1. 構建數據模型
數據建模是什么含義呢?
底層的業務數據表其實很多,幾十張上百張都有,但到了業務數據分析階段,當需要分析的數據存儲在不同的表,可以通過數據關聯,把多個表連接起來,形成模型進行數據分析。
比如上述的業務底層訂單表到了數據分析階段衍生的訂單表字段發生變化,name 和 city 是從業務地址表取來的數據。
總的來說,數據模型是完全面向數據分析的業務場景形成的新表。以支付業務為例,我構建的數據模型有:用戶表、訂單表和交易表。
2. 設計維度和度量指標
對數據字段可以進行下一步分類:
- 維度(Dimensions)
- 度量(Measures)
在統計學中,單一數據字段可以被分為離散和連續。離散通常是維度,比如城市名稱、用戶名字,特征是有限數量的值;連續通常是度量,比如銷量、利潤或成功率,特征是不可羅列,可能為任一數值。維度和度量中有許多灰色區域,比如金額,可以做維度,也可以做度量。
在上述訂單表中,device、city 等是維度,對order_id 計數的總訂單數、對status = success 計數的成功訂單數是度量。
度量可以再分原子度量和派生度量。
原子度量指從維度里直接獲取到,上表中的總訂單數和成功訂單數。
派生度量并不能直接從數據表中獲取,而需要基于已有數據進行加工處理得到,上表中的訂單成功率是成功訂單數/總訂單數得到。
四、數據分析
有了維度和度量的概念后,接著引入聚合概念。對于數據分析來說,往往關心的并不是最底層一行一行的的明細數據,更注重分析數據的角度,關心的是數據的總體特征。
聚合,簡單講就是數據源里的多行數據按照一定的標準計算成一個數據,不管數據集里有1行還是多行,視圖里的數據都是聚合后的結果,一行數據也是要聚合的,當然一行數據聚合的結果是一樣的。實際上,維度為數據聚合提供依據,而度量是依據維度聚合得到的結果。
配置了聚合計算的計算字段,將根據配置的維度自動進行聚合運算。
如:
- 求和:SUM([字段])
- 計數:COUNT([字段])
- 計數去重:COUNT(DISTINCT [字段])
- 求平均值:AVG([字段])
表述的業務含義為時間周圍為2021.3.1 ~ 2021.3.15 范圍內pc端的訂單成功率為0.5。
計算過程:根據created_at=2021.3.1 ~ 2021.3.15 和device =pc ,SUM([總訂單數])= 2,SUM([成功訂單數])=1,SUM([成功訂單數])/SUM([總訂單數])=1/2=0.5。
Quick BI 提供電子表格和儀表盤兩種可視化工具做以上分析。
電子表格:
儀表盤:
通過可視化的圖標去分析數據,找出機會點或者異常。
五、數據應用
通過可視化的圖表去分析數據,找出機會點或者異常??梢哉f,前面1、2、3、4 所有的工作都在為了第5部分數據應用上。
數據從用戶中來,通過一系列的數據沉淀、處理和分析找出機會點做決策再回到用戶中去,提升用戶體驗,帶動業務增長,此即數據驅動業務。
六、結語
本篇文章介紹了分析數據的數據框架拆解、數據處理加工過程。
但是海量數據怎么看,看哪些?度量指標應該怎么設計,度量指標中什么是業務的北極星指標等此文還沒提到。
接下來文章將會介紹數據指標體系搭建和數據分析的一些方法,也是整個數據分析體系中最核心的內容。
#專欄作家#
花開不敗,微信公眾號:涵小仙女,人人都是產品經理專欄作家。文藝女青年一枚,白天工作,晚上碼字,愛美、愛跑步、愛旅行,愿我手寫我心,余生不將就。
本文原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自 Unsplash,基于 CC0 協議
點贊
這純粹是盜用了人家quick bi的思路,全篇就是講別人的東西!
要是能總結寫出來,那就是自己的東西了,有何不妥嗎?
寫的很清晰了,剛好最近有個報表用了quickbi
燈塔工廠
燈塔工廠
數據應用求更新
文章寫的真好,給作者點贊
內容深入淺出,適合新手閱讀