數據分析(2):數據分析的方法論

6 評論 36730 瀏覽 266 收藏 12 分鐘

本文大概梳理了統計數據分析的三種方法論,即描述性數據分析、數理統計分析和數據挖掘分析。enjoy~

我們說數據分析要有目的進行分析,實際上我們在平常的工作中,沒有學過數據分析也能靠直覺推斷出一些數據產生的原因。那么為什么還要進行數據分析的學習呢?也就是說,數據分析,到底在學什么?

其實我認為如果是在初創團隊中,確實無需使用太專業的數據分析方法,因為往往數據不足。但是,如果你掌握了數據分析的方法,就能夠在產品的初期設計合理的埋點,要知道現在很多產品在早期是沒有這個意識的,于是等產品成熟了再去做這件事是極其痛苦的。所以也才催生了類如諸葛IO這樣的“無埋點”數據分析的產品。“無埋點”只能收集到很淺層次的數據,如點擊數據,IP/PV等,業務層面就無法統計。而且存在著不穩定性,從技術上講就是說如果用戶使用了一些奇奇怪怪的瀏覽器(例如低版本的IE)的話,很可能無埋點的代碼就無法運行,造成原始數據的偏差。說了這么多,回到話題,學習數據分析,我們能夠:

  1. 培養數據意識,提升產品規劃能力。
  2. 培養數據敏感性,提高洞察力。
  3. 能夠數據中發現不容易通過直覺發現的足絲馬跡,發現潛在的可能。
  4. 掌握一門通用的硬技能,輔助需求挖掘、業務分析。
  5. 等等

接下來我們進入正題:數據分析的方法論。

一般來說數據分析可以從兩個學科出發,一個是數理統計學,另一個是營銷理論。本文將主要從數理統計學著手介紹,因為營銷理論(就是我們常見的5w2h,PEST分析等等方法論)的掌握,更多是思維框架的掌握,而真正能夠通曉營銷理論的,需要大量的經驗積累。而數理統計學是工具,可以手到擒來,馬上就用的。

上篇文章講到,數據分析大致可以分為描述性分析、診斷性分析、預測性分析,同樣的數據分析的方法論也大致分為:描述性數據分析、數理統計分析、數據挖掘分析。

本篇文章將就此展開談談這三種數據分析方法論(方法論沒有好壞高低之分,只有合適的。根據業務場景來選擇合適的分析方法。一定要以目標為導向,并不是手法越高級就越好。能用簡單分析的就不需要使用大數據挖掘。)

一、描述性數據分析方法

描述性數據分析可以用一言蔽之”一句話描述數據“。我們平時說的,這個月的平均訪問量是多少,環比增長了多少。用戶平均付費是多少,中位數是多少,眾位數是多少,四分位數是多少都屬于描述性統計分析。描述數據的集中趨勢還可以用方差、標準差。用一個指標,一句話概括數據特點。描述數據之間的簡單關系可以用相關性分析,如轉化率和用戶停留時間的正相關的(距離,以實際為準。一般也是這樣。)這邊大家都比較熟悉,不過多介紹。

二、數理統計分析方法

數理統計涉及較多的數學知識,但是其實常用的也就是概率論和微積分,本科的知識稍微復習一下還是容易掌握的。微積分只需要用到一元積分,用于計算概率分布。統計學中有許許多多的內容,在數據分析中,并不是所有都需要掌握。因為我們不是在做實驗室里科學實驗的數據分析。

1. 方差分析

方差分析,又稱為F檢驗。作用是研究因素對于數值型變量的影響。例如想要知道某次改版對于轉化率是否有顯著影響,可能從宏觀上看增長的數值不大,看不大出來影響有多大,這時候就可以用方差分析做對于改版這個因素的單因素方差分析。

2. 回歸分析

回歸分析比較好理解,簡單的說就是尋找到一個函數來擬合自變量和因變量的關系。例如想要做一次活動,假設優惠的價格x,銷售額為y。這兩者之間可能存在y=x+1(純舉例)這樣的函數關系式。回歸分析就是要找出這樣的函數關系,來指導活動的運營,提升ROI。

3. 因子分析

因子分析即從大量的變量中尋找共性因子的統計方法,因子表現為一種表征,通常是多個變量的集合。因子分析可以簡化數據,所以是一種降維的方式。常用的因子分析方法有重心法、最小平方法、最大似然法等。

三、數據挖掘分析方法

數據挖掘源于統計機器學習,還有人工智能的方法。之前寫過的人工智能相關的文章中有提到,AI=數據+算法=模型。數據挖掘也就是利用算法從數據中尋找規律。因為我們并不能總是能用常見的函數去擬合所有的規律,而太復雜的規律通過人工根本就是無法進行計算的。那么機器學習就可以做到。機器學習的原理其實就是定義一個損失函數,可以把損失函數簡單理解為錯誤率。然后枚舉所有的情況,找到錯誤率最低的模型。用在數據挖掘中,我們可以用到的機器學習算法一般有:

1. 聚類分析

俗話說,物以類聚。聚類分析是一種探索性的分析方法,由機器無監督地將樣本數據進行分類,再觀察其特征,從而幫助發現潛在的共性。聚類分析的方式也有很多,用不同方式進行的聚類分析結果也不盡相同。

2. 分類

分類應該是機器學習、人工智能中應用最廣泛的了。例如NLP中的情感分析、文章分類,CV中的醫療影像診斷,物品識別等等。又扯遠了,回到數據分析,常用于數據挖掘的分類算法有:

(1)決策樹

決策樹直觀上的理解就是從樣本建立分支規則。舉個簡單的例子,同事A有時候遲到有時候不遲到,你觀察到如果下雨了。A就遲到。如果沒有下雨,A就不遲到。主管只有在周一和周三在,如果主管在A就要挨罵了。那么用決策樹來預測A是否會挨罵(以上例子純屬YY)就是:

能夠構造這樣的決策數據的常用算法有C4.5、CART、CHAID、ID3等。

決策時擅長處理離散數據,并可以直觀出其中的關鍵變量。決策樹生成的規則也容易被人所理解。接下去要講的神經網絡就不是人可以理解的了。

(2)人工神經網絡

人工神經網絡是個黑箱模型,神經網絡是類似于大腦神經突觸連接的形式,僅僅是類似,不能把它理解得過于玄乎,本質上和腦神經的運作方式是相差很大的。人工神經網絡包括輸入層、輸出層、隱藏層。其中隱藏層就是就是對輸入層的輸入進行各種加權互聯,最終得出最逼近訓練集的結果。理論上可以逼近任何非線性的關系。能夠充分考慮到數據的各種特征。

(3)貝葉斯分類器

是否還記得貝葉斯公式

只要知道P(Y)、P(X)、P(X|Y)就能知道P(Y|X)的值了。前3個值可以通過歷史數據得到先驗概率,在先驗概率的基礎上就能對新的事件(數據)進行后驗概率的計算。

(4)支持向量機

SVM,是機器學習的重大成果。SVM將非線性的數據將數據映射到一個高維空間,在新的維度上,搜索一個線性最佳超平面,兩類數據總是能夠被超平面分開。

(5)隨機森林

隨機森林有著較高的準確率,魯棒性也好。隨機森林運用bootstrap方法從原始樣本中抽取樣本,對每個樣本進行決策樹建模,然后將決策樹組合,對每個決策樹分類出來的結果進行一種投票統計,最終得出分類結果。這個方式很形象的被叫做隨機森林。

3. 關聯規則

舉個例子就能明白什么是關聯規則了。大家都知道的“啤酒與尿布”的例子,關聯規則算法能夠找出多次重復、同時出現的關系。

4. 回歸分析

描述性分析中也有回歸分析,這邊回歸和描述性分析中回歸的區別主要是,這里指的是多元線性回歸和邏輯斯蒂回歸。典型的回歸問題是運費計算的問題, 快遞運費受地區、重量、物品類型、運送方式等多種因素的影響,這時候可以使用多元線性回歸來分析他們之間的關系。

本次的分享就到這里,本文大概梳理了統計數據分析的方法論,接下去的系列文章將會逐個對各種方式進行介紹。

相關閱讀

數據分析(1):三觀的建立

#專欄作家#

躚塵,人人都是產品經理專欄作家。人工智能產品經理,獨立音樂人,擅長需求分析、原型設計和項目管理。喜歡閱讀、思考、創作。網易云音樂主頁:躚塵。

本文原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自 Pexels,基于 CC0 協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 后續對方法論的詳細介紹呢??

    來自廣東 回復
  2. 聚類和分類有什么區別?

    回復
    1. 分類是監督類模型,初始樣本是有標簽的;聚類是無監督模型,初始樣本是無標簽的。

      來自上海 回復
  3. 這個分析用在運營上好使嗎?

    回復
  4. AI=數據+模型+算法 ?

    回復
    1. 不是。AI=數據+算法=模型。概括的描述。非官方非標準定義。

      來自福建 回復