以好奇心日報為業務原型,說說大數據平臺的數據建模過程
今天我們以好奇心日報為業務原型,探討下數據模型建設過程(本人非好奇心員工,好奇心老板看見如果覺得對數據化運營有所幫助記得給我加雞腿)。
數據模型是數據平臺的基石,是平臺搭建過程中最最基礎、也是最最重要的環節,為后續數據清洗(ETL)、開發數據報表等工作保駕護航。數據建模做的好,后面工作也會更容易,模型做的不到位,一些報表做起來耗時耗力又吃資源,甚至無法實現。
數據建模一般要經歷主題和主題域分析、概念模型、維度設計、指標整理、邏輯模型、物理模型。
好奇心是內容型產品,有NEWS、LABS兩個頻道,有不同新聞分類和獨立的欄目,商業模式以在線廣告為主。
為什么選好奇心日報?一方面它確實是目前魚龍混雜的內容產業中的一股清流,新媒體的一個標桿,以好奇心驅動堅持做有品質的內容、篩選最有價值信息、全球最新動態; 更主要的是它的產品線全面,有APP、PC網站、移動網站、訂閱號、小程序,同時也運營著今日頭條、網易、微博等各大媒體公號,且成績有目共睹。產品線全面、業務規模適中,作為業務原型討論數據建模最合適不過了。
案例說明
了解數據倉庫的,都知道數據倉庫是面向主題,也就是其中的數據是按主題進行組織的。
首先從分析主題入手,主題是在較高層次上對業務數據進行梳理、歸類,一個主題基本對應一個宏觀的分析面。
主題域是確定主題中包括的數據分析范圍及邊界,確定了主題及主題域,數據平臺對外輸出能力也基本確定了。
好奇心業務來說可以分為內容生產運營、營銷、用戶、廣告收入四個方面;再對主題進一步細化出子主題,例如廣告主題可以拆除訂單分析、營收分析、廣告位分析、品牌主分析、業績分析,子主題也就是主題的邊界。
下面我們分別展開說說四個主題的內容:
用戶分析
分基本信息、行為分析、商業興趣三個子主題。
- 基本信息就是常見的人口屬性,包括性別、年齡、地域、職業、職務、月收入等;
- 行為分析包括用戶觸點(用戶訪問好奇心的入口,是App,還是訂閱號,還是同時使用多個)、習慣時段、訪問軌跡、評論、參與投票等互動行為;
- 商業興趣是指用戶對那些新聞分類、欄目、或者內容主題的喜好程度,可以用于指導內容生產和個性化推薦。
內容運營
可以分為流量分析、內容分析、作者分析、第三方平臺分析。
- 流量分析就是常規的網站、App的各頻道、欄目的PV、UV、日活數等等指標,同時還要按媒介來源細化到Organic、Syndication、Socail等不同維度和維層;
- 內容分析可以從單篇文章、單個分類進行分析。例如獲取某一篇文章在不同平臺的閱讀量、點贊數、互動數,也可以分析某篇熱點文章從發布、預熱、引爆、衰退的過程;
- 作者分析是從生產者角度進行匯總分析,作者的文章產量、文章閱讀數、互動數、用戶喜好程度等等分析,如果每個編輯記者都制定了KPI就可以很快捷的知道KPI達成情況。
- 第三方平臺分析是指分析分發到訂閱號、小程序、今日頭條號、網易號上的閱讀、互動、分析、回流情況。
營銷推廣
分為推廣分析、渠道分析、活動分析。
- 推廣分析是指付費廣告推廣,匯總投放目標、曝光展示、點擊、下載激活,進行推廣效果評估,獲客成本分析;
- 渠道分析是從渠道角度分析用戶留存、活躍、互動,以評估渠道質量,渠道和推廣還是有區別的,例如在今日頭條這個媒體渠道,會做多次推廣。
- 活動分析一般是市場、運營組織的用戶參與的營銷活動分析、接觸人數、參與人數、轉化人數等等。
廣告收入
分為營收分析、廣告訂單分析、廣告位分析、品牌主分析。
從總收入、訂單、單個廣告位、品牌主、銷售經理、銷售大區不同維度分析收入貢獻,挖掘銷售潛力,降低廣告庫存,提高售賣率和廣告單價。
模型建立
概念模型
是主題的基礎上,識別出主題中的對象,以及建立對象之間的關系,列出對象的較核心的屬性。
例如我們為好奇心日報提煉出產品(App、PC網站、小程序等)、用戶、用戶行為、文章、編輯等對象,并描述了對象之間的關系以及表述對象的核心屬性。
邏輯模型
是將概念模型具象化,為對象增加必要的屬性。
下圖是使用一款在線工具ProcessOn畫的部分邏輯模型,還可以使用更專業的建模工具ERWin和PowerDesigner。
物理模型
是把上述邏輯模型的內容,在具體的物理介質上實現出來,確定字段類型、取值范圍、采用MySQL、Oracle等建立數據庫表,這里就不詳細展開介紹。
最后對業務涉及的維度和度量進行梳理,維度越豐富,粒度越細,做數據分析時就可以挖地越深入。
正如數據倉庫權威專家Kimball所說:數據倉庫的能力直接與維度屬性的質量和深度成正比。比如時間維度可以分為季度、月、周、日四個層次,但周和日還可以還可以細化出周天、日時段兩個子維度,匯總一段時間內的周一到周日的啟動次數(日然運營,排除推廣干擾),可以看出用戶從周一到周日的使用規律,同時還可以組合地域,看某一地方用戶周一到周日的使用規律,日時間段同理。當然粒度越細,對數據收集和處理的要求越高。
維度建模
維度建模有專門的方法論,需要根據業務規模、最終需求設計合理的維度模型。
下面是根據業務梳理的維度和度量指標,大家可以嘗試組合下,是否能夠滿足日常運營的需要,如果覺得不夠可以考慮下怎么擴展。
維度
用戶
- 基本信息:性別、年齡、職業、職務、月收入、教育、婚姻狀況、子女數、地域
- 興趣標簽,標簽可分大類、小類
時間
- 月、周、日、時
- 日時段
- 周天
地域
- 省
- 一級、二級、三級城市
- 北上廣深
流量來源
Syndication
- Toutiao、網易、一點等
Organic
- Search、Referral、Direct
Socail
- Weixin、Weibo、QQ
營銷渠道
應用分發渠道
- 應用市場(AppStore、應用寶、華為市場等)、官方網站
廣告推廣
- 媒體品牌:騰訊、百度、網易……
廣告位名稱
廣告位類型
- 廣告位平臺:PC、移動
投放創意
Socail
- Weixin、Weibo、QQ
- SM
- Newsletter
活動
- Campain List
產品及版本
- iOS、Android、小程序、PC、Mobile、微信訂閱號、頭條號、網易號、微博頭條
- 4.1、4.2
設備
- 操作系統、設備品牌、服務提供商、聯網方式、屏幕分辨率
業務
- 內容分類:頻道(News 、Labs)、新聞分類、欄目
- 作者、編輯
廣告
- 廣告平臺:移動平臺、PC平臺
- 廣告位名稱(App焦點圖、App信息流、PC)
- 廣告位類型(移動開屏、移動原生、移動banner、移動插屏、PC頂通、PC焦點圖)
- 創意形式(640×100單圖、240×180多圖、640×360視頻、14字文字鏈)
- 訂單
- 廣告主
- 廣告主所屬行業
指標體系
用戶指標
- 新增注冊數、活躍用戶數、流失用戶數、登錄用戶數、分發平臺粉絲數
流量指標
- 累計下載量、新增下載量、激活量、日活數、啟動次數、屏幕瀏覽量、使用時長、留存率、計劃推送數、推送達到數、推送到達率、推送喚醒數、推送喚醒率
行為指標
- 閱讀數、點贊數、分享數、評論數、訂閱數、參與投票數、發布我說、點擊廣告、推送點擊、推送打開率
廣告指標
- 曝光量、點擊量、點擊率、銷售額、訂單數、訂單單價、庫存量
模型指標
- 用戶構成(用戶地域、年齡段)、商業興趣
題圖來自 Unsplash ,基于 CC0 協議
作者:百川,微信公眾號:修煉大數據(studybigdata)
本文由 @百川 原創發布于人人都是產品經理。未經許可,禁止轉載
講的很清晰,理解的很透徹
對建模感興趣的移步這里 http://mp.weixin.qq.com/s/bl01KvBGzl5TgbfvuuGO3Q
我
social 哥
維度被編輯改的有點亂哈
這就完了?
的確維度建模還有很多細節,有時間再整理
雞腿