數據分析的三大框架:底層技術、分析建模、工具選擇

3 評論 8756 瀏覽 112 收藏 20 分鐘

在搭建知識大廈之前,先需要建立知識的框架,然后才能高效的填充知識。所以本文主要跟大家分享如何建立框架。

先看下數據科學的世界觀,參考下面的思維導圖:

有了世界觀,我們可以開始搭建自己的知識大廈了。在搭建知識大廈之前,先需要建立知識的框架,然后才能高效的填充知識。所以今天我們先建立框架。

數據分析的三大框架

數據科學的框架分為三部分:底層技術框架/數據分析框架/工具選擇框架,接下來依次給大家介紹:

1. 底層技術框架

底層技術框是數據科學的基礎設施,我們有所了解就好,處理框架和處理引擎負責對數據系統中的數據進行計算。

流處理系統:流處理系統會對隨時進入系統的數據進行計算。相比批處理模式,這是一種截然不同的處理方式。流處理方式無需針對整個數據集執行操作,而是對通過系統傳輸的每個數據項執行操作。

流處理中的數據集是“無邊界”的,這就產生了幾個重要的影響:

  • 完整數據集只能代表截至目前已經進入到系統中的數據總量。
  • 工作數據集也許更相關,在特定時間只能代表某個單一數據項。

批處理系統:批處理在大數據世界有著悠久的歷史,批處理主要操作大容量靜態數據集,并在計算過程完成后返回結果。

批處理模式中使用的數據集通常符合下列特征:

  • 有界:批處理數據集代表數據的有限集合;
  • 持久:數據通常始終存儲在某種類型的持久存儲位置中;
  • 大量:批處理操作通常是處理極為海量數據集的唯一方法。

批處理非常適合需要訪問全套記錄才能完成的計算工作,例如:在計算總數和平均數時,必須將數據集作為一個整體加以處理,而不能將其視作多條記錄的集合。這些操作要求在計算進行過程中數據維持自己的狀態。

2. 日常監控框架

數據數據分析的工作分為倆部分,日常長遠工作(相當于養兵千日)和針對項目/公司需求做的及時響應(相當于用兵一時)。

日常長遠的工作主要是日常監控系統。

2.1 日常監控系統主要分為:測量/建立標準/發現異常

首先是測量

測量就是將具體的產品和業務轉化為數據的過程.本質上來看,這個過程相當于把一個現實世界的對象映射到我們的抽象空間里,先天的會存在很大的誤差,但是意義重大,統一了我們看待業務的方式。從此之后,我們對于業務的討論都在一樣的標準上進行。同時,也由于測量的先天誤差,測量值得不斷更新。

舉個栗子:一個內容產品建立業務指標的邏輯 假設你是內容運營,需要對現有的業務做一個分析,提高內容相關數據,你會怎么做呢?

我們把金字塔思維轉換一下,就成了數據分析方法了, 從內容運營的流程開始,它是:內容收集——內容編輯發布——用戶瀏覽——用戶點擊——用戶閱讀——用戶評論或轉發——繼續下一篇瀏覽。 這是一個標準的流程,每個流程都有指標可以建立。內容收集可以建立熱點指數,看哪一篇內容比較火。用戶瀏覽用戶點擊則是標準的PV和UV統計,用戶閱讀是閱讀時長。

2.2 建立標準和發現異常

有業務指標體系,我們就可以監控產品了,那么數據的波動一定是因為產品本身的問題嗎?其實不然。

想象這樣一種場景:你在一家做玩具跨境電商的公司,在3月份,發現公司玩具銷量出現大幅下滑,結果做了很多分析,提出了N種解決方案,依然收效甚微。被老板一頓痛罵之后,苦惱的回家,打開電視一開,新聞聯播說:中美貿易危機,出口行業受較大影響,領導表示親切關懷.。

原來數據異常,并不是公司的問題,而是整個環境變了,而我們卻用了大量的時間精力分析自己的問題。

所以我們要建立正常的標準,我們每次比較都是預期標準比較的,而不是和0比較,也不是和最好的情況比較。

  • 常見的基準:同行業平均水平/宏觀經濟指標/公司運營活動預期。
  • 發現異常:設定標準偏離正常標準3%算作異常,值得我們深入分析。

其實數據分析的日常工作,還可以包括豐富企業的模型庫,這一點在下一部分的敘述會有所涉獵。

3. 面向項目的問題分析框架

上面介紹完了數據分析師的日常工作,接下來介紹工作的另一部分——解決項目實際問題。

3.1 發現并明確問題

問題的來源包括這幾個方面:

(1)業務部門的問題需求

(2)監控發現的異常數據

提出一個好問題,往往比找到答案重要。

業務部門直接給出的問題往往模糊不清,我們需要去分析問題的本質,把他進行簡化抽象。

(3)對問題進行本質分析

  1. 剝離自然語言,最后語句中只包含倆類語句結構:A是B,A屬于B。
  2. 轉化為集合語言或者系統語言。

(4)把問題歸結到幾種常見問題類型,或者轉化為常見問題的組合,問題的本質類型

價值判斷類,相當于為什么的問題。

首先應該明確判斷的標準,然后進行打分。

現實類,相當于是什么和怎么辦的問題,可以近似為是因果/相關關系探索類的問題。

問題的衍生類型:

  1. 預測問題:相當于因果關系探索;
  2. 決策問題:相當于價值判斷類問題+因果關系探索;
  3. 分析原因問題:相當于因果關系類問題。

3.2 問題的全方位分析

文獻綜述(俗稱百度,當然不僅僅包含百度)

針對提出的問題,搜尋前人的分析,總結前人的經驗。常見的高質量數據源:知乎、知網、谷歌學術。

問題的探索性分析:

  1. 頭腦風暴:頭腦風暴法(Brain storming),是指由美國BBDO廣告公司的奧斯本首創,該方法主要由價值工程工作小組人員在正常融洽和不受任何限制的氣氛中以會議形式進行討論、座談,打破常規,積極思考,暢所欲言,充分發表看法。
  2. 德爾菲法:也稱專家調查法 德爾菲法,也稱專家調查法,1946 年由美國蘭德公司創始實行。該方法是由企業組成一個專門的預測機構,其中包括若干專家和企業預測組織者,按照規定的程序,背靠背地征詢專家對未來市場的意見或者判斷,然后進行預測的方法。
  3. scrum 項目管理方法:它是由三個角色(產品負責人、scrum專家、團隊成員)、四個儀式(沖刺計劃會、每日站會、沖刺評審會、沖刺回顧會)和三個物件(產品積壓、沖刺積壓、燃盡圖)組成的一套項目管理方法。沖刺,是一次竭盡權力的都安排,scrum的核心,是把整個項目分成若干個沖刺,每次2-4周,沖萬一次再來一次。

3.3 數據收集

內部數據:由公司業務體系決定,公司內部產生的互數據。

  • 常用工具有:GA/百度統計;
  • 也有公司自建數據庫:通過SQL查詢。

外部數據:

  • 常見指數:百度指數、阿里指數、谷歌趨勢指數、騰訊TBI指數、經濟指數(大盤指數等)
  • 競品監控:ALEXA / similar WEB。

3.4 數據的預處理和預分析

我們收集來的數據,并不能直接使用,而是需要先進行清洗。

預處理主要是指清洗好數據之后,可以對數據做一下粗略分析,方便建模的深入。

預分析-主要是 針對對象做描述統計,包括分布、集中/離散趨勢,包括均值/方差/偏度/峰度/分位數等,也包括相關性的探索性分析。

3.5 選擇模型

模型空間的構建:這是個無限集合,其實模型的收集永無止境。我們也可以按照演繹的體系去梳理模型空間,我們主要收集的是三類模型:商業/統計/數據挖掘。

商業分析模型:麥肯錫等咨詢公司根據商業需要總結的一些分析框架,我們的模型大多來自咨詢公司,也可以根據業務理解,自己建立。

比如:波特五力模型是邁克爾·波特(Michael Porter)于20世紀80年代初提出。他認為行業中存在著決定競爭規模和程度的五種力量,這五種力量綜合起來影響著產業的吸引力以及現有企業的競爭戰略決策。五種力量分別為同行業內現有競爭者的競爭能力、潛在競爭者進入的能力、替代品的替代能力、供應商的討價還價能力、購買者的討價還價能力。

統計模型,主要是依靠統計學知識。各種分布和檢驗的關系原理,這部分需要很好的數學基礎,我這里只簡單的給出輸入條件和輸出條件,至于其中的具體原理,有機會做一個概述。

數據挖掘模型:

  • 生成模型:由數據學習聯合概率分布P(X,Y),然后求出條件概率分布P(Y|X)作為預測模型,即生成模型P(Y|X)=P(X,Y)/P(X)——存在隱變量。典型的生成模型:樸素貝葉斯法,隱馬爾可夫模型。
  • 判別模型:由數據直接學習決策函數f(X)或者條件概率分布P(Y|X)作為預測的模型。即對給定的輸入X,應該預測什么樣的輸出Y。典型的判別模型:k近鄰法、感知機、決策樹、邏輯斯蒂回歸模型、最大熵模型、支持向量機、提升方法、條件隨機場。

監督學習三類問題:分類問題、標注問題、回歸問題。

可用于分類問題的統計學習方法:k近鄰法,感知機,樸素貝葉斯法,決策樹,決策列表,邏輯斯蒂回歸模型,支持向量機,提升方法,貝葉斯網絡,神經網絡,Winnow 可用于標注問題的統計學習方法:隱馬爾可夫模型,條件隨機場。

模型的選取標準:

  • 根據業務需求,確定優先級進行打分;
  • 根據測試效果選擇。

模型在具體問題下的構建:

  • 數據挖掘問題的模型求解;
  • 根據業務實際需要調整模型。

模型評價:基準模型,其他建模嘗試。

  • 多元線性回歸作為基準模型;
  • 其他模型效果明顯提高,認為超越基準模型。

3.6 成果輸出

成果輸出,一般是面向組織內部,比如:同事、老板,也有可能面向吃瓜群眾,這倆種情況的原則很不一樣,組織內部是理性交流,要講邏輯,面向觀眾,則要講情感。

(1)結構化 mece法則

MECE,是Mutually Exclusive Collectively Exhaustive 縮寫,中文意思是“相互獨立,完全窮盡”。 也就是對于一個重大的議題,能夠做到不重疊、不遺漏的分類,而且能夠借此有效把握問題的核心,并成為有效解決問題的方法。 它是麥肯錫的第一個女咨詢顧問巴巴拉·明托(Barbara Minto)在金字塔原理(The Minto Pyramid Principle)中提出的一個很重要的原則。

可視化的本質是面對非本領域專家,為了方便信息的傳達,用圖形直觀的方式展示分析成果(分析模型),圖形主要是各種統計圖表和邏輯框架圖.,圖形的選擇標準主要是根據變量屬性(定量數據還是定類數據),變量個數,希望達成的展示目標決定。

具體選擇原則見下圖:

面向吃瓜群眾的成果輸出,感官刺激,如果是面向吃瓜群眾,那么要盡量減少邏輯/說理的成分,盡量用視覺化的表達.視覺想象是第一說服力。生活中我們做事情,并不是理性對理性,更多的時候都是感情對感情。

3.7 模型反饋

知道貝葉斯定理嗎?其實我們最終得到的模型,本質是一個假設,具體有效沒效,需要在實踐中檢驗。

模型評價:模型效果=模型預測-實際情況。

關于工具選擇的框架

我們需要區分方法和工具,以上談到的數據分析框架是方法,而實現這些方法可以人力完成,也可以借助計算機輔助,目前計算機輔助數據分析工具主要是三部分:

  • 計算機語言:Python 和 R. 我學習的是Python,Python具有高擴展的能力,幾乎在計算機各個領域都有應用. R具有非常全面的數學分析包,也是不錯的選擇;
  • 軟件:Excel ,power BI等. 入門的話可以掌握Excel,Excel提供了實現以上框架的全流程操作,不僅僅是做個表格那么簡單. powerBI 是微軟推出的免費的商業智能軟件,是可視化不錯的工具;
  • 各種小型工具 主要是各種指數工具,還有各種數據收集工具,以下給出了圍繞營銷漏斗的工具集合。

總結

聊點輕松的,steam教育

STEAM教育思想思潮 STEAM代表科學(Science),技術(Technology),工程(Engineering),藝術(Arts),數學(Mathematics)。STEAM教育就是集科學,技術,工程,藝術,數學多學科融合的綜合教育。

steam教育并不是要求我們面面俱到,而是希望我們在1-2個領域達到80%的水準,在若干領域達到60%的程度。這一方面是因為我們需要全面的視角,這樣我們可以更加清醒的認識世界,也是因為現實業務需要我們有這樣的能力。

商業發展到今天,工作中我們遇到的問題已經不是簡單重復就可以完成的,我們需要創造性的建模,建模要求我們有廣闊的模型空間可以選擇,而STEANM教育可以給我們提供廣闊的模型空間,我們在里面可以方便的類比,方便的尋找同構解。

以“如何有效對比”這一簡單的問題,我們試著在各個領域尋找同構問題,科學方法論中的對照實:實驗組與對照組設置。

金融學中的收益評價:一個金融產品收益=基準收益(大盤指數)+實際產品特性導致的收益。

宏觀經濟學:房價增速 = 基準(經濟發展水平+城市化水平+通貨膨脹)+泡沫。

微觀經濟學:沉沒成本不是成本,機會成本才是真正的成本。一個選擇的真實價值=該選擇價值-其他所有選擇中價值最大的那個選項的價值。

歷史學研究現代化:理想現代化模板:英國,其他國家的現代化=英國模式+波動調整。

以上通過一個簡單的例子,想說明開闊眼界的重要性,這也是為什么說 steam人才儲備量是衡量一個國家實力的重要標志.

關于整個知識體系的詳細描述,將會在最后一篇數據科學邊界,做一些討論,可以關注。

今天寫的內容有點多,如果不了解不要著急,接下來幾天會有對框架詳細的論述。

 

本文由 @小祁愛數據 原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 寫得亂,看不眀白

    回復
  2. 歡迎關注我的個人公眾號 小祁同學的成長故事

    回復
  3. ??我是小祁

    回復