大數據產品經理必備的數據挖掘知識概述(一)認識數據
數據挖掘是大數據產品經理必備的技能,本文作者將會為大家詳細地分享一些數據挖掘的相關知識。
了解數據挖掘知識是大數據產品經理必備的技能,經過了一段時間的對《數據挖掘》一書的深入學習,以及所負責項目中用到的數據挖掘內容,使我對數據挖掘有了更深一步的認識,但自認為還是小白階段。
路漫漫其修遠兮,在這里,先將總結出來的數據挖掘常見知識點與大家分享(也像大家推薦《數據挖掘》一書,本分享大多知識來源于此),后面陸續更新更多的知識點及項目案例。希望能與君共勉!
(此分享僅包含基礎概念知識,旨在幫助大數據產品經理快速了解數據挖掘知識,并能在工作中與算法和開發團隊順利合作,對于更深入的研究如統計學等知識后面有機會再與大家分享~)
第一部分 認識數據(1.1 認識數據 1.2 數據可視化 1.3數據相似性和相異性)
第二部分 數據預處理
第三部分 數據倉庫相關知識
第四部分 頻繁模式、關聯和相關性
第五部分 分類挖掘
第六部分 聚類分析
第七部分 離群點檢測
以上各部分,我將陸續與大家分享我的學習內容
第一部分 認識數據
1.1 認識數據
1.1.1 數據對象
什么是屬性:是一個數據字段,表示數據對象的一個特征。在文獻中,屬性、維、特征和變量可以互相地使用。機器學習文獻更傾向于使用術語“特征”,而統計學家則更愿意使用術語“變量”。數據挖掘和數據庫的專業人士則用“屬性”。例如,描述顧客對象的屬性可能包括customer_ID、name和address.
屬性向量:用來描述一個給定對象的一組屬性稱作屬性向量(或特征向量)。涉及的屬性(或變量)的數據分布稱作“單變量”,分布涉及兩個屬性為“雙變量”等等。
1.1.2 屬性類型
屬性類型:一個屬性的類型由該屬性可能具有的值得集合決定。屬性可以是標稱的、二元的、序數的或數值的。
(1)標稱屬性
標稱屬性的值是一些符號或是事物的名稱。每個值代表某種類別、編碼或狀態,因此標稱屬性又被看做是分類。這些值,不必具有意義的序。
例如:hari_color(頭發顏色)和marital_status(婚姻狀況),是兩個描述人的屬性。hari_color(頭發顏色)可能為黑色、棕色、紅色、赤褐色、白色、灰色等、屬性marital_status的值可能是單身、已婚、離異和喪偶。hair_color和marital_status都是標稱屬性,他們是無有意義的序。
(標稱屬性是有意義的序,并且不是定量的,因此,給定一個對象集,找出這種屬性的均值(平均值)或中位數(中值)沒有意義。然后,意見有意義的事情是使該屬性最常出現的值,這個值稱為眾數,是一種中心趨勢度量,后面我們將會介紹到)
(2)二元屬性
二元屬性是一種標稱屬性,只是兩個類別或狀態:0或1,其中0通常表示該屬性不出現,二1 表示出現。二元屬性又稱布爾屬性,如果兩種狀態對應于true和false的話。
(3)序數屬性
序數屬性其可能的值之間具有有意義的序或秩評定。其值如小、中、大;成績A+、A、A-、B+;軍階有列兵、一等兵、專業軍士、下士、中士等;
序數屬性的中心趨勢可以用它的眾數和中位數(有序序列的中間值)表示,但是不能定義均值。
(4)數值屬性
以上介紹的標稱、二元和序數屬性都是定性的。即,他們描述對象的特征,而不給出實際大小的數量。而數值屬性是定量的,即她可度量的量,用整數或實數值表示。數值屬性可以是區間標度的或比例標度的。
(5)離散屬性與連續屬性
機器學習領域開發的分類算法通常把屬性分成離散的或是連續的。每種類型都可以用不同的方法處理。離散屬性具有優先或無限可數個值,可以用或不用整數表示。如屬性hari_color、smoker、medical_test和drink_size都有有限個值,因此是離散的。
如果屬性不是離散的,則它是連續的。連續屬性一般使用浮點變量表示。
1.1.3 數據的基本統計與描述
(1)中心趨勢度量:均值、中位數和眾數
均值:數據集的最常用、最有效的數值度量是均值。
這對應于數據庫系統提供的內置聚集函數average(SQL的avg())。
有時對于每個值可以有一個權重相關聯,權重反應他們所依附的對應值的意義、重要性或出現的頻率,公式如下:
這稱做加權算數均值或加權平均。
中位數:對于傾斜(非對稱)數據,數據中心的更好度量是中位數。中位數是有序數據值得中間值。它把數據較高的一半與較低的一半分開的值。
假定給定某屬性X的N個值按遞增排序,如果N是奇數,則中位數是該序集中的中間值;如果N是偶數,則中位數不唯一,它是最中間的兩個值和它們之間的任意值。在X是數值屬性的情況下,嘉定約定,中位數取做最中間兩個值的平均值。
眾數:眾數是另一種中心趨勢度量。數據集的整數是集合中出現最頻繁的值。因此,可以對定性和定量屬性確定眾數??赡苁亲罡哳l率對應多個不同值,導致多個眾數。具有一個、兩個、三個眾數的數據集合分別稱為單峰的,雙峰的和三峰的。一般地,具有兩個或更多眾數的數據集是多峰的。在另一種極端的情況下,如果每個數據值僅出現一次,則它是沒有眾數的。
(2)度量數據散布:極差、四分位數、方差、標準方差、離群點
極差:設某數值屬性集合,極差位其最大值(max())與最小值(min())之差。
分位數:假設屬性X的數據以數值遞增排序,想象我們可以挑選某些數據點,以便把數據分布劃分成大小相等的連貫集。如圖:
四分位數:3個數據點,他們把數據分布劃分成4個相等部分,使得每部分表示數據分布的四分之一。通常稱為四分位數。
方差和標準方差:方差和標準方差都是數據散布度量,他們指出數據分布的散布程度。低標準方差以為數據觀察趨向于非常靠近均值,而高標準差表示數據散布在一個大的值域中。
本文由 @一毛硬幣 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
大家期待已久的《數據產品經理實戰訓練營》終于在起點學院(人人都是產品經理旗下教育機構)上線啦!
本課程非常適合新手數據產品經理,或者想要轉崗的產品經理、數據分析師、研發、產品運營等人群。
課程會從基礎概念,到核心技能,再通過典型數據分析平臺的實戰,幫助大家構建完整的知識體系,掌握數據產品經理的基本功。
學完后你會掌握怎么建指標體系、指標字典,如何設計數據埋點、保證數據質量,規劃大數據分析平臺等實際工作技能~
現在就添加空空老師(微信id:anne012520),咨詢課程詳情并領取福利優惠吧!
標稱屬性是無意義的序 是吧?
樓主在大數據這塊比較通透。能否加一下微信1471905628 我想咨詢幾個問題
感覺很高深啊,希望繼續更新!?。?/p>