數據產品經理之數據分析與挖掘
本文主要跟大家講講,如何通過數據分析和數據挖掘從數據中獲取相關信息和挖掘價值,enjoy~
自2014年以來,“大數據”連續六年進入國務院政府工作報告,彰顯出國家對于大數據戰略的重視。作為如今互聯網+過程中最火熱的關鍵詞之一,大數據越來越火,隨之而來的數據倉庫、數據安全、數據分析、數據挖掘等圍繞大數據的商業價值發掘利用相關的技術和知識越來越引起政府、企業和求職者的重視。
其中,作為數據產品經理必備的專業知識之一的數據分析可以分為廣義的數據分析和狹義的數據分析,廣義的數據分析就包括狹義的數據分析和數據挖掘,人們常常提到的數據分析是指狹義的數據分析,數據挖掘和數據分析都是從數據中提取一些有價值的信息,但互相的側重點又有所不同。
前面兩篇文章介紹了數據產品經理日常工作中必備的知識之常用的圖表設計(數據產品經理之圖表設計)和SQL語言(數據產品經理必備之SQL基礎 ?),本篇文章講一講怎么樣通過數據分析與挖掘從數據中獲取信息和發掘價值。
一、基本概念
(1)數據分析
數據分析是指根據分析目的,用適當的統計分析方法及工具,對收集來的數據進行處理與分析,提取有價值的信息,發揮數據的作用。
(2)數據挖掘
數據挖掘是指從大量的、有噪聲的、不完全的、模糊的和隨機的數據中,通過統計學、人工智能、機器學習等方法,挖掘出未知的、有價值的信息和知識的過程。
(3)統計分析方法
數據分析時需要選擇合適的統計分析方法進行數據的分析,常用統計分析方法有集中趨勢、離散程度、相關強度、參數估計、假設檢驗等,通過常用統計分析方法能夠描述數據的特征。
(4)數據挖掘方法
數據挖掘時需要運用數據挖掘方法來從數據中挖掘價值,常用數據挖掘的方法有分類、回歸、關聯、聚類等,這些方法能夠從不同的角度對數據進行挖掘。
二、統計分析方法
統計分析方法,按不同的分類標準可劃分為不同的類別,而常用的分類標準是功能標準,依此標準進行劃分,統計分析可分為描述統計和推斷統計。
描述統計是將研究中所得的數據加以整理、歸類、簡化或繪制成圖表,以此描述和歸納數據的特征及變量之間的關系的一種最基本的統計方法。描述統計主要涉及數據的集中趨勢、離散程度和相關強度,最常用的方法有平均數、標準差、相關系數等。
推斷統計指用概率形式來決斷數據之間是否存在某種關系及用樣本統計值來推測總體特征的一種重要的統計方法。推斷統計包括總體參數估計和假設檢驗,最常用的方法有Z檢驗、T檢驗、卡方檢驗等。
描述統計和推斷統計是統計分析時需要用到的方法,二者彼此聯系,相輔相成,描述統計是推斷統計的基礎,推斷統計是描述統計的升華。
1. 集中趨勢
集中趨勢又稱“數據的中心位置”、“集中量數”等,集中趨勢所反映的是一組資料中各種數據所具有的共同趨勢,即資料的各種數據所集聚的位置。因此,它是對變量數列進行分析的首要指標,它往往作為總體的代表水平同其他與之同質的總體進行比較。集中趨勢能夠對總體的某一特征具有代表性,表明所研究的數據在一定時間和空間條件下的共同性質和一般水平。
集中趨勢分析時常用的有平均數、中位數和眾數等。
2. 離散程度
離散程度是指一個分布壓縮和拉伸的程度。離散程度可以反應個體特例的情況,可以說明集中趨勢的代表性如何,還可在統計推斷時用來計算誤差的大小。另外,離散程度還被用來說明事物在發展變化過程中的均衡性、節奏性和穩定性等問題。
離散程度主要有方差、標準差和四分位距等。
3. 相關程度
相關程度是研究隨機變量之間的相關關系的一種統計方法,相關程度顯示兩個隨機變量之間線性關系的強度和方向,主要研究現象之間是否存在某種依存關系,并對具體有依存關系的現象探討其相關方向以及相關情況。
數據的相關程度分析時常見的相關系數有Pearson相關系數、Spearman等級相關系數、Kendall等級相關系數、凈相關、相關比等。
4. 參數估計
參數估計是根據從總體中抽取的隨機樣本來估計總體分布中未知參數的過程。在對數據進行統計分析時,對于知道其分布形式的總體,用若干未知參數來表示,研究總體分布,首先就要估計出參數的取值,這樣的問題就是參數估計問題。
參數估計從估計形式看,區分為點估計與區間估計;從構造估計量的方法講,有矩估計、最小二乘估計、似然估計、貝葉斯估計等。
5. 假設檢驗
假設檢驗是用于檢驗統計假設的一種方法。 而“統計假設”是可通過觀察一組隨機變量的模型進行檢驗的科學假說。 一旦能估計未知參數,就會希望根據結果對未知的真正參數值做出適當的推論。 統計上對參數的假設,就是對一個或多個參數的論述。
假設檢驗,又稱統計假設檢驗,是用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質差別造成的統計推斷方法。假設檢驗基本原理是先對總體的特征作出某種假設,然后通過抽樣研究的統計推理,對此假設應該被拒絕還是接受作出推斷。
假設檢驗的種類包括:t檢驗,Z檢驗,卡方檢驗,F檢驗等等。
三、數據挖掘方法
數據挖掘方法按照是否有目標變量可分為有監督學習的預測性方法和無監督學習的描述性方法。
預測性方法通過對所提供數據集應用特定方法分析所獲得的一個或一組數據模型,并將該模型用于預測未來新數據的有關性質,包括分類和回歸。
描述性方法以簡潔概述的方式表達數據中的存在一些有意義的性質,分為聚類和關聯。
1. 分類
分類是找出數據中的一組數據對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數據中的數據項映射到某個給定的類別中。
分類的輸出變量為離散型,常見的分類方法包括(樸素)貝葉斯、決策樹、邏輯回歸、KNN、SVM、支持向量機、神經網絡、隨機森林和邏輯回歸等。
分類可以應用到涉及到應用分類、趨勢預測中,如用戶分層、用戶商品推薦、用戶流失率、促銷活動響應等。
2. 回歸
回歸分析反映了數據中數據的屬性值的特性,通過函數表達數據映射的關系來發現屬性值之間的依賴關系。它可以應用到對數據的預測及相關關系的研究中去。
回歸的輸出變量為連續型,常見的回歸方法有線性回歸、多項式回歸、嶺回歸、套索回歸、彈性網絡回歸等
回歸可以應用到銷量預測、備貨管理中,如通過回歸分析對電商商品的銷售趨勢作出預測。
3. 聚類
聚類是把數據按照相似性歸納成若干類別,同一類中的數據彼此相似,不同類中的數據相異。聚類分析可以建立抽象概念,發現數據的分布模式,探索可能的數據屬性之間的相互關系。
聚類類似于分類,但與分類的目的不同,是針對數據的相似性和差異性將一組數據分為幾個類別。屬于同一類別的數據間的相似性很大,但不同類別之間數據的相似性很小,跨類的數據關聯性很低。
細分市場、細分客戶群體都屬于數據挖掘中的聚類問題,例如劃分聚類、層次聚類、密度聚類、網格聚類、基于模型聚類等。
聚類能夠實現對樣本的細分,使得同組內的樣本特征較為相似,不同組的樣本特征差異較大。例如零售場景中對客戶的細分,然后針對不同類別的客戶進行對應營銷。
4. 關聯
關聯是隱藏在數據項之間的關聯或相互關系,即可以根據一個數據項的出現推導出其他數據項的出現。關聯規則的挖掘過程主要包括兩個階段:
- 第一階段為從海量原始數據中找出所有的高頻項目組;
- 第二階段是從這些高頻項目組產生關聯規則。
關聯指的是發現數據的各部分之間的聯系和規則,常見的關聯分析算法包括Aprior算法、Carma算法,序列算法等。
關聯常用于預測客戶的需求,例如消費者常常會同時購買哪些產品,從而有助于商家的捆綁銷售。
本文由 @ Eric 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
大家期待已久的《數據產品經理實戰訓練營》終于上線啦!
本課程非常適合新手數據產品經理,或者想要轉崗的產品經理、數據分析師、研發、產品運營等人群。
課程會從基礎概念,到核心技能,再通過典型數據分析平臺的實戰,幫助大家構建完整的知識體系,掌握數據產品經理的基本功。
學完后你會掌握怎么建指標體系、指標字典,如何設計數據埋點、保證數據質量,規劃大數據分析平臺等實際工作技能~
現在就添加空空老師(微信id:anne012520),咨詢課程詳情并領取福利優惠吧!