如何七周成為數據分析師12:解鎖數據分析的正確姿勢(上)
本文是《如何七周成為數據分析師》的第十二篇教程,如果想要了解寫作初衷,可以先行閱讀七周指南。溫馨提示:如果您已經熟悉統計學,大可不必再看這篇文章,或只挑選部分。
當獲得一份數據集時,你會怎么做?
立馬撩起袖管進行分析么?這不是一個好建議。無數的經驗告訴我們,如果分析師不先行了解數據集的質量,后續的推斷分析是事倍功半的。
正確的處理方法是先使用描述統計。
什么是描述統計學
它是一種綜合概括數據集的方式,包括數據的加工和顯示,數據集的分布特征等。它與推斷統計相呼應。
在進入統計學習前,先明確基礎概念。
數據可以分為分類型數據和數值型數據。分類型數據是識別變量的類型,比如男女、地區、各種類別;數值型數據是表示數值的大小和多少,比如年齡中的18、19、20歲。
最明顯的區分是,分類型數據不能使用加減法,而數值型數據可以。兩者在一定程度可以互相轉換。比如年齡,18歲是數值型數據,但它也可以轉換成分類數據「青少年」。我們也能用數值表示分類數據,比如0代表女,1代表男,它依舊沒有計算意義,更多是方便計算機存儲而已。
分類數據和數值數據的具體應用,會在往后的學習中繼續深入,本文先將主要精力放在數值型數據。
數據的度量
平均數是一種數據位置的度量,用以了解整體數據,這是小學就學到的內容??墒瞧骄鶖挡⒉皇且粋€權威的衡量指標,當我們提到全國平均工資的時候,我們都是被馬云爸爸王健林爸爸平均的普通人。
平均數容易受到極值的影響,因為數據集并不能保證「干凈」,各類運營數據經常受到擾動,比如薅羊毛黨就會拉高營銷活動的平均值。一般而言,可以用調整平均數(trimmed mean)消除異常波動,在數據集中刪除一定比例的極大值和極小值,比如5%,然后重新計算平均數。
它既然不靠譜,我們便請出中位數。將所有數據按升序排列后,位于中間的數值即中位數。當數據集是奇數,中位數是中間的數值,當數據集是偶數,中位數是中間兩個數的平均值。這也是小學的內容。
另外一種度量是眾數,它是數據集出現頻次最多的數據,當有多個眾數時,稱為多眾數。眾數使用的頻率低于前兩者,更多用于分類數據。
平均數、中位數、眾數構成了標準的衡量方法。但是還不夠。
數據分析師常將數據劃分為四個部分,每一部分包含25%的數據集,劃分的分割點叫做四分位數。
依次將數據升序排列,位于第25%位置的叫做第一四分位數Q1,位于第50%位置的叫做第二四分位數Q2,即中位數,位于第75%的叫做第三分位數Q3。這三個點,能輔助衡量數據的分布狀態。
數據的離散和變異
我們考慮一個新的問題,現在一家電商公司要賣兩個同類型的商品,它們的一周銷量(單位:個)如下:
- 商品A:10,10,10,11,12,12,12
- 商品B:3,5,6,11,16,17,19
它們的平均數一樣,中位數也一樣,可它們的真實情況呢?當然不。作為商品,我們更喜歡銷量穩定的。
方差是一種可以衡量數據「穩定性」的度量,更通俗的解釋是衡量數據的變異性,從圖形上說,也叫離散程度。
方差的計算公式是各個數據分別與其平均數之差的平方和的平均數。
上述公式是總體數據集的方差計算,當數據近為部分抽樣樣本時,n應該改為n-1。數據集足夠大時,兩者的誤差也可以忽略不計。
現在計算上文商品的方差。Excel中的方差公式為VARP( ),如果是樣本數據,則為VAR( )。不同Excel版本,函數會有微小差異。
方差越大,說明數據集的離散程度越大,商品A的銷量波動明顯比商品B穩定。方差的計算中,因為涉及到了平方和,所以單位的量綱是平方(商品A和B的方差,單位為個^2),它很難有直觀的詮釋。于是我們又引入標準差。
標準差是方差的開平方:
Excel中,標準差的計算函數為stdevp( ),如果是樣本數據,則為stdev( )。
方差和標準差的意義是相同的,但是標準差與原始數據的單位量綱相同,它更容易與平均數等度量比較。比如商品A的平均銷量為11個,標準差為0.85個,于是我們知道這個商品賣的比較穩。
切比雪夫定理指出,至少有75%的數據值與平均數的距離在2個標準差以內,至少有89%的數據與平均數在3個標準差之內,至少有94%的數據與平均數在4個標準差以內。這是一個非常方便的定理,能快速掌握數據包含的范圍。
假設上海地區的平均薪資是20k,標準差是5K,那么大約有90%的薪資,都在5k~35k的區間內。
如果數據本身符合正態(鐘形)分布,那么切比雪夫定理的估算將進一步準確:68%的數據落在距離平均數一個標準差內,95%的數據值落在距離平均數2個標準差之內,幾乎所有的數據落在三個標準差內。
在Excel中,有一個重要的工具叫數據分析庫(部分Excel版本需要安裝,自行搜索),里面封裝了大量的統計工具。
點擊描述統計,選擇需要計算的區域,設置為逐列,輸出區域選擇旁邊U2區塊。輸出計算結果。
列1的所有內容,均屬于描述統計中的各類度量。我們不用一個個函數去計算了。
方差和標準差是重要的概念,在后續的統計學中將繼續出現。
數據的箱線圖
回到度量,上文提到的內容,都屬于數值類的方法,可它們還是不夠直觀。
先匯總五類數據:最小值、第一四分位數Q1、中位數、第三四分位數Q3、最大值。
拿數據分析師的薪資數據作案例。
以上是清洗后的數據。我們用Excel函數計算這五個度量。分別是median( )、max( )、min( )、quartile( )。按城市區分。
通過數據,現在可以了解各城市的數據分析師薪資分布了,接下來把它們加工成箱線圖,它是最常用的描述統計圖表。
箱線圖通過我們求出的五個數據確定位置。
箱線圖的上下邊緣分別是最大值和最小值(實際不是,這里為了方便,先這樣理解),箱體的上下邊界則是25%分位數和75分位數。箱內橫線是中位數。異常值是箱線邊緣外的數值,需要直接排除。
Excel2016可以直接繪制箱線圖,如果是早期版本,有兩種作圖思路。
第一種,是利用股價圖。將圖表按25%分位數、最大值、最小值、75%分位數的順序排列。
然后直接生成圖表:
這個圖表是沒有中位數的,中位數需要添加上去。數據源新建一個系列,該系列應該調整到位于數據源的中間位置。
選擇中位數的數據系列格式,更改標記為「-」,大小為12榜,顏色為黑色。此時就有箱線圖的雛形了。
另外一種思路是利用散點圖的誤差線繪制,和甘特圖的原理一樣,大家自己練習吧。
其實從圖表中看到,雖然我們描繪出了箱線圖,但是不同城市的數據區別并不直觀,因為最大值撐高了箱線圖的邊緣。我們經常會遇到這些影響分析質量的異常值(過于異常的數值雖然存在合理性,但是很多分析必須移除掉它們)。我們需要清洗掉這批異常值。
定義四分位差IQR=Q3(75%分位數)—Q1(25%分位數),箱線圖的界限在(Q1-1.5IQR,Q3+1.5個IQR)處。界限外部所有值均為異常值。
bottom和top就是新的界限,對于在界限外部的數據,均認為是異常值。界限內部的數據則是箱線圖的主體,接下來找出界限內的最大值和最小值。比如上海的界限是-5~39之間,而界限內的數據實際范圍為1.5~37.5,那么就以1.5~37.5繪制箱形。
現在大家求出了真正的五個度量,可以重新繪制箱線圖(我們要用bottom和top求出范圍內新的最大值和最小值)。為了方便演示,我直接以Python生成(以前教過的BI也行,更好看)。
比Excel繪制的圖直觀多了。紅線位置,是各個城市中游水平的數據分析師能夠獲得的薪資標準,上邊的藍線區間為中上游,下邊的藍線區間為中下游,以此類推。簡而言之,人群被四等分了。
我們解讀一下:上海、北京、深圳的數據分析師,薪資范圍接近,但是中上游水平的人,北京地區能獲得更高的薪資,因為中位數的位置更高。西安、長沙、天津則不利于數據分析師的發展。杭州的水平接近北上深,但是薪資上限受到一定限制。
這張圖能一眼看出不少內容,想必大家已經明白箱線圖的作用了,它能讀出數據的整體分布和傾斜趨勢(偏態)。
通過圖表(直方圖、散點圖也算描述統計)快速解讀數據,是數據分析師的基礎能力之一。
大家想一下,如果是O2O的數據分析,能不能快速判斷各城市的業務狀況?如果是金融,能不能劃分人群看它們業務之間不同的分布?如果是電商,不同類目的營銷數據會有大的差異嗎?再配合不同的維度細分,發揮的價值大著呢。
箱線圖是一種非常優秀的圖表。雖然在Excel中會繁瑣一些(趕緊更新到2016),但是在Python和R語言,也就是十秒鐘的操作時間。
相關閱讀
如何七周成為數據分析師01:常見的Excel函數全部涵蓋在這里了
如何七周成為數據分析師:Excel技巧之甘特圖繪制(項目管理)
#專欄作家#
秦路,微信公眾號ID:tracykanc,人人都是產品經理專欄作家。
本文由 @秦路?原創發布于人人都是產品經理。未經許可,禁止轉載。
超級無敵好
寫的很好,但是圖掛了~
我們用Excel函數計算這五個度量。分別是median( )、max( )、min( )、quartile( )。按城市區分。這步驟有快捷一點兒的么?
啦啦啦
啦啦啦
學習了!大學時候學的統計學 全還給老師了。。