以好奇心日報為業務原型,說說大數據平臺的數據建模過程

8 評論 32940 瀏覽 158 收藏 11 分鐘

今天我們以好奇心日報為業務原型,探討下數據模型建設過程(本人非好奇心員工,好奇心老板看見如果覺得對數據化運營有所幫助記得給我加雞腿)。

數據模型是數據平臺的基石,是平臺搭建過程中最最基礎、也是最最重要的環節,為后續數據清洗(ETL)、開發數據報表等工作保駕護航。數據建模做的好,后面工作也會更容易,模型做的不到位,一些報表做起來耗時耗力又吃資源,甚至無法實現。

數據建模一般要經歷主題和主題域分析、概念模型、維度設計、指標整理、邏輯模型、物理模型。

好奇心是內容型產品,有NEWS、LABS兩個頻道,有不同新聞分類和獨立的欄目,商業模式以在線廣告為主。

為什么選好奇心日報?一方面它確實是目前魚龍混雜的內容產業中的一股清流,新媒體的一個標桿,以好奇心驅動堅持做有品質的內容、篩選最有價值信息、全球最新動態; 更主要的是它的產品線全面,有APP、PC網站、移動網站、訂閱號、小程序,同時也運營著今日頭條、網易、微博等各大媒體公號,且成績有目共睹。產品線全面、業務規模適中,作為業務原型討論數據建模最合適不過了。

案例說明

了解數據倉庫的,都知道數據倉庫是面向主題,也就是其中的數據是按主題進行組織的。

首先從分析主題入手,主題是在較高層次上對業務數據進行梳理、歸類,一個主題基本對應一個宏觀的分析面。

主題域是確定主題中包括的數據分析范圍及邊界,確定了主題及主題域,數據平臺對外輸出能力也基本確定了。

好奇心業務來說可以分為內容生產運營、營銷、用戶、廣告收入四個方面;再對主題進一步細化出子主題,例如廣告主題可以拆除訂單分析、營收分析、廣告位分析、品牌主分析、業績分析,子主題也就是主題的邊界。

下面我們分別展開說說四個主題的內容:

用戶分析

分基本信息、行為分析、商業興趣三個子主題。

  • 基本信息就是常見的人口屬性,包括性別、年齡、地域、職業、職務、月收入等;
  • 行為分析包括用戶觸點(用戶訪問好奇心的入口,是App,還是訂閱號,還是同時使用多個)、習慣時段、訪問軌跡、評論、參與投票等互動行為;
  • 商業興趣是指用戶對那些新聞分類、欄目、或者內容主題的喜好程度,可以用于指導內容生產和個性化推薦。

內容運營

可以分為流量分析、內容分析、作者分析、第三方平臺分析。

  • 流量分析就是常規的網站、App的各頻道、欄目的PV、UV、日活數等等指標,同時還要按媒介來源細化到Organic、Syndication、Socail等不同維度和維層;
  • 內容分析可以從單篇文章、單個分類進行分析。例如獲取某一篇文章在不同平臺的閱讀量、點贊數、互動數,也可以分析某篇熱點文章從發布、預熱、引爆、衰退的過程;
  • 作者分析是從生產者角度進行匯總分析,作者的文章產量、文章閱讀數、互動數、用戶喜好程度等等分析,如果每個編輯記者都制定了KPI就可以很快捷的知道KPI達成情況。
  • 第三方平臺分析是指分析分發到訂閱號、小程序、今日頭條號、網易號上的閱讀、互動、分析、回流情況。

營銷推廣

分為推廣分析、渠道分析、活動分析。

  • 推廣分析是指付費廣告推廣,匯總投放目標、曝光展示、點擊、下載激活,進行推廣效果評估,獲客成本分析;
  • 渠道分析是從渠道角度分析用戶留存、活躍、互動,以評估渠道質量,渠道和推廣還是有區別的,例如在今日頭條這個媒體渠道,會做多次推廣。
  • 活動分析一般是市場、運營組織的用戶參與的營銷活動分析、接觸人數、參與人數、轉化人數等等。

廣告收入

分為營收分析、廣告訂單分析、廣告位分析、品牌主分析。

從總收入、訂單、單個廣告位、品牌主、銷售經理、銷售大區不同維度分析收入貢獻,挖掘銷售潛力,降低廣告庫存,提高售賣率和廣告單價。

模型建立

概念模型

是主題的基礎上,識別出主題中的對象,以及建立對象之間的關系,列出對象的較核心的屬性。

例如我們為好奇心日報提煉出產品(App、PC網站、小程序等)、用戶、用戶行為、文章、編輯等對象,并描述了對象之間的關系以及表述對象的核心屬性。

邏輯模型

是將概念模型具象化,為對象增加必要的屬性。

下圖是使用一款在線工具ProcessOn畫的部分邏輯模型,還可以使用更專業的建模工具ERWin和PowerDesigner。

物理模型

是把上述邏輯模型的內容,在具體的物理介質上實現出來,確定字段類型、取值范圍、采用MySQL、Oracle等建立數據庫表,這里就不詳細展開介紹。

最后對業務涉及的維度和度量進行梳理,維度越豐富,粒度越細,做數據分析時就可以挖地越深入。

正如數據倉庫權威專家Kimball所說:數據倉庫的能力直接與維度屬性的質量和深度成正比。比如時間維度可以分為季度、月、周、日四個層次,但周和日還可以還可以細化出周天、日時段兩個子維度,匯總一段時間內的周一到周日的啟動次數(日然運營,排除推廣干擾),可以看出用戶從周一到周日的使用規律,同時還可以組合地域,看某一地方用戶周一到周日的使用規律,日時間段同理。當然粒度越細,對數據收集和處理的要求越高。

維度建模

維度建模有專門的方法論,需要根據業務規模、最終需求設計合理的維度模型。

下面是根據業務梳理的維度和度量指標,大家可以嘗試組合下,是否能夠滿足日常運營的需要,如果覺得不夠可以考慮下怎么擴展。

維度

用戶

  • 基本信息:性別、年齡、職業、職務、月收入、教育、婚姻狀況、子女數、地域
  • 興趣標簽,標簽可分大類、小類

時間

  • 月、周、日、時
  • 日時段
  • 周天

地域

  • 一級、二級、三級城市
  • 北上廣深

流量來源

Syndication

  • Toutiao、網易、一點等

Organic

  • Search、Referral、Direct

Socail

  • Weixin、Weibo、QQ

營銷渠道

應用分發渠道

  • 應用市場(AppStore、應用寶、華為市場等)、官方網站

廣告推廣

  • 媒體品牌:騰訊、百度、網易……

廣告位名稱

廣告位類型

  • 廣告位平臺:PC、移動

投放創意

Socail

  • Weixin、Weibo、QQ
  • SM
  • Newsletter

活動

  • Campain List

產品及版本

  • iOS、Android、小程序、PC、Mobile、微信訂閱號、頭條號、網易號、微博頭條
  • 4.1、4.2

設備

  • 操作系統、設備品牌、服務提供商、聯網方式、屏幕分辨率

業務

  • 內容分類:頻道(News 、Labs)、新聞分類、欄目
  • 作者、編輯

廣告

  • 廣告平臺:移動平臺、PC平臺
  • 廣告位名稱(App焦點圖、App信息流、PC)
  • 廣告位類型(移動開屏、移動原生、移動banner、移動插屏、PC頂通、PC焦點圖)
  • 創意形式(640×100單圖、240×180多圖、640×360視頻、14字文字鏈)
  • 訂單
  • 廣告主
  • 廣告主所屬行業

指標體系

用戶指標

  • 新增注冊數、活躍用戶數、流失用戶數、登錄用戶數、分發平臺粉絲數

流量指標

  • 累計下載量、新增下載量、激活量、日活數、啟動次數、屏幕瀏覽量、使用時長、留存率、計劃推送數、推送達到數、推送到達率、推送喚醒數、推送喚醒率

行為指標

  • 閱讀數、點贊數、分享數、評論數、訂閱數、參與投票數、發布我說、點擊廣告、推送點擊、推送打開率

廣告指標

  • 曝光量、點擊量、點擊率、銷售額、訂單數、訂單單價、庫存量

模型指標

  • 用戶構成(用戶地域、年齡段)、商業興趣

 

題圖來自 Unsplash ,基于 CC0 協議

作者:百川,微信公眾號:修煉大數據(studybigdata)

本文由 @百川 原創發布于人人都是產品經理。未經許可,禁止轉載

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 講的很清晰,理解的很透徹

    來自江蘇 回復
  2. 對建模感興趣的移步這里 http://mp.weixin.qq.com/s/bl01KvBGzl5TgbfvuuGO3Q

    來自北京 回復
    1. 回復
  3. social 哥

    回復
  4. 維度被編輯改的有點亂哈

    來自北京 回復
  5. 這就完了?

    來自北京 回復
    1. 的確維度建模還有很多細節,有時間再整理

      來自北京 回復
  6. 雞腿

    來自北京 回復