如何七周成為數據分析師13:解鎖數據分析的正確姿勢(下)

3 評論 19580 瀏覽 76 收藏 12 分鐘

本文是《如何七周成為數據分析師》的第十三篇教程,如果想要了解寫作初衷,可以先行閱讀七周指南。溫馨提示:如果您已經熟悉統計學,大可不必再看這篇文章,或只挑選部分。

描述統計學,往往研究數據的集中和離散。其中,各數據出現次數的情況,也是重要的一個研究方向。

頻數分布表示互不重疊的組別中每一組項目的個數。在分類型數據中,頻數分布就是各個分類類目的總數。

Clipboard Image.png

上圖就是數據分析師的崗位,按城市統計出的頻數表,即各個城市的崗位數量。從應用角度看,數據透視表是專門用來計算頻數的。我們也能把頻數轉換成百分比占比,這更直觀。

如果將其轉換成圖表,叫做條形圖。餅圖也可以描述頻數,但是不常用。

Clipboard Image.png

數值型數據也適用于頻數分布。以薪資數據為例,因為薪資千差萬別,若粗暴地轉換成條形圖,就會喪失可讀性。

數值型數據必須經過分組轉換,將數據劃分到一個個區間范圍內,可以間接認為把數值其轉換成了分類數據。從業務角度理解,18和18.1、17.9的差異并不大,為什么不視為一組呢?

組數劃分一般選擇5~20組,數據量越大,劃分的組數就能越多。劃分的不同區間范圍叫做組寬,組寬是人為定義的,組寬最好等距。用1~80與81~100計算兩組的頻數,沒什么意義。

組寬和組數的選擇相輔相成,組數多,組寬相對小,反之亦然。組寬=(最大值-最小值)/組數。我們將案例數據的組寬定義為5,即0~4,5~9,10~14……

用Excel函數 = int(( salary +1)/5)即可正確獲得分組后的結果,0代表0~4,1代表5~9。另外一種方式是用frequency( )函數,以數組形式輸出。數據分析工具也能繪制頻數表。

Clipboard Image.png

因為每一個數據只能屬于一個組,所以要規定組的上下限。上文劃歸的0~4組寬,實際是零到除五之間的數值,包括4.99這類。因為數值型數據可以連續地劃分,分類數據沒有這顧慮。

分組的過程也叫數據分桶bin,它是常見的一種數據清洗過程。在機器學習中,能提高模型泛化能力。

將匯總的結果生成條形圖,調整系列樣式,系列重疊和間隙寬度均為0。它的正式名字叫直方圖。

Clipboard Image.png

條形圖和直方圖最大的區別在于矩形的間隔。直方圖的矩形沒有間隔,之間完全重合(圖中的白線是為了顯示清楚才加上的)。因為數值型數據的特點是連續性,不能有空檔造成斷開。

圖中的直方圖并不標準,橫坐標的數字應該為[0,5,10,15,20…]且位于白線下方。我這里略過了。

頻數既能用相對數表示,也能用百分比表示。區別在于縱軸。后者用于方便對比。

直方圖的一個重要應用是提供了分布信息。不同直方圖代表的業務意義不同。需要注意的是,分組將直接影響直方圖的外形。

Clipboard Image.png

標準型的形態往往是中間高,兩邊低,呈中間的集中趨勢。它代表一種穩定正常的形態。

Clipboard Image.png

雙峰型,一般是混合了多種數據源或者類別數據造成的。

Clipboard Image.png

鋸齒型,一般是觀察數據的手段和方法不穩定,才會造成直方圖的波動。

Clipboard Image.png

孤島型的直方圖,一般是業務上的非正常錯誤,比如工程零部件出了問題、產品出現了某Bug,造成凸出一塊。

Clipboard Image.png

陡峭型,往往是數據源缺失,或者被剔除一部分后,造成這種斷崖式的折斷。

Clipboard Image.png

偏峰型,分為左偏峰和右偏峰。我們也把它稱呼為偏態,上圖是一個右偏態。

偏態是分布形態中的一種重要數值度量。很多數據并不呈現完全對稱的分布,比如中國工資。

在統計學上,眾數和平均數之差可作為偏態的劃分指標之一。如果平均數大于眾數,稱為正偏態/左偏態;相反,則稱為負偏態/右偏態。

為了更好的描述偏態的傾斜程度,我們引入偏態系數sk,sk=0時不偏不斜。另外還有一個峰度系數ku,描述分布的扁平瘦窄,ku以3為標準基準。兩者組合,當?sk=0,ku=3時,分布呈正態;sk>0時,分布呈正偏態,sk<0時,分布呈負偏態;ku>3時曲線比較陡峭,ku<3時曲線比較平坦。

Clipboard Image.png

偏度和峰度的具體計算,用Excel的skew和kurt函數。數據分析庫的描述統計也行。

直方圖的左右偏度,對應著不同的業務場景。左偏的典型業務場景就是考試成績,大部分學生集中在60~90之間。而和錢有關的直方圖,基本是右偏,比如銷量、流水、消費等。

理論講完了,繼續用數據分析師的薪資實戰,偷懶用python代碼完成了,Excel作圖真的很累的……

先觀察整體的直方圖,我們將其切分成二十組(和上文Excel圖表的差異在于組寬組限的變化)。

Clipboard Image.png

這個數據同時呈現了雙峰型和右偏型的分布。雙峰型可能是因為我們混合了一二三線城市的數據,而右偏是因為薪資和錢有關,畢竟不是所有的數據分析師都能拿高薪。

單純過濾出北京的數據。

分布還是呈現亂七八糟的樣子,為什么呢?因為我們選取的薪資是網絡爬蟲獲取的薪資范圍求平均,并不是真實的水平(很多HR復制黏貼瞎設的),這是不可避免的誤差,那應該怎么辦呢?可以適當的調整組數。

Clipboard Image.png

組數為十后,分布正常了不少(實際工作中,可以把極大值排除再做直方圖)。那么接下來進入分析的環節,之前我們用了箱線圖,現在學習直方圖吧。它的奧秘也在于對比,通過對比不同的頻數,獲得洞察。選擇北京和上??匆幌?,縱軸改成百分比。

Clipboard Image.png

調成ggplot的色系更直觀一些,紅色代表北京,綠色代表上海。圖中明顯可以看出兩地在10~30之間的薪資差異。上海集中在10~20間,北京則是20~30區域更多。組數調大,可以分析地更細。

Clipboard Image.png

城市換成上海和深圳,則是另外一種解讀了。

到這里,描述統計的內容就結束了。描述統計是分析數據的一種技巧,包含數據的集中度量(平均數、中位數、眾數)、數據的離散(方差、標準差)、數據的分布(箱線圖、條形圖、直方圖)三塊。

希望大家養成使用描述統計的習慣,下一章,開始概率的世界:為什么你認為的,都是錯的。

相關閱讀

互聯網數據分析能力的養成,需一份七周的提綱

如何七周成為數據分析師01:常見的Excel函數全部涵蓋在這里了

如何七周成為數據分析師02:Excel技巧大揭秘

如何七周成為數據分析師03:手把手教你Excel實戰

如何七周成為數據分析師:Excel技巧之甘特圖繪制(項目管理)

如何七周成為數據分析師:Excel技巧之打造多級菜單

如何七周成為數據分析師04:數據可視化之經典圖表合集

如何七周成為數據分析師05:數據可視化之打造升職加薪的報表

如何七周成為數據分析師06:數據可視化之手把手打造BI

如何七周成為數據分析師07:快速掌握麥肯錫的分析思維

如何七周成為數據分析師08:如何建立數據分析的思維框架?

如何七周成為數據分析師09:寫給新人的數據庫指南

如何七周成為數據分析師10:SQL,從入門到熟練

如何七周成為數據分析師11:SQL,從熟練到掌握

如何七周成為數據分析師12:解鎖數據分析的正確姿勢(上)

#專欄作家#

秦路,微信公眾號ID:tracykanc,人人都是產品經理專欄作家。

本文由 @秦路?原創發布于人人都是產品經理。未經許可,禁止轉載。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 右偏態是正偏態吧

    來自江蘇 回復
  2. 哈哈 看來沒有人堅持看完

    來自廣東 回復
    1. 必須得堅持看完

      來自江蘇 回復