国产亚洲精品国产午夜福利,AV无码电影

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

如何七周成為數據分析師12：解鎖數據分析的正確姿勢（上）

秦路

2017-08-05

6 評論 27784 瀏覽 120 收藏

16 分鐘

本文是《如何七周成為數據分析師》的第十二篇教程，如果想要了解寫作初衷，可以先行閱讀七周指南。溫馨提示：如果您已經熟悉統計學，大可不必再看這篇文章，或只挑選部分。

當獲得一份數據集時，你會怎么做？

立馬撩起袖管進行分析么？這不是一個好建議。無數的經驗告訴我們，如果分析師不先行了解數據集的質量，后續的推斷分析是事倍功半的。

正確的處理方法是先使用描述統計。

什么是描述統計學

它是一種綜合概括數據集的方式，包括數據的加工和顯示，數據集的分布特征等。它與推斷統計相呼應。

在進入統計學習前，先明確基礎概念。

數據可以分為分類型數據和數值型數據。分類型數據是識別變量的類型，比如男女、地區、各種類別；數值型數據是表示數值的大小和多少，比如年齡中的18、19、20歲。

最明顯的區分是，分類型數據不能使用加減法，而數值型數據可以。兩者在一定程度可以互相轉換。比如年齡，18歲是數值型數據，但它也可以轉換成分類數據「青少年」。我們也能用數值表示分類數據，比如0代表女，1代表男，它依舊沒有計算意義，更多是方便計算機存儲而已。

分類數據和數值數據的具體應用，會在往后的學習中繼續深入，本文先將主要精力放在數值型數據。

數據的度量

平均數是一種數據位置的度量，用以了解整體數據，這是小學就學到的內容?？墒瞧骄鶖挡⒉皇且粋€權威的衡量指標，當我們提到全國平均工資的時候，我們都是被馬云爸爸王健林爸爸平均的普通人。

平均數容易受到極值的影響，因為數據集并不能保證「干凈」，各類運營數據經常受到擾動，比如薅羊毛黨就會拉高營銷活動的平均值。一般而言，可以用調整平均數（trimmed mean）消除異常波動，在數據集中刪除一定比例的極大值和極小值，比如5%，然后重新計算平均數。

它既然不靠譜，我們便請出中位數。將所有數據按升序排列后，位于中間的數值即中位數。當數據集是奇數，中位數是中間的數值，當數據集是偶數，中位數是中間兩個數的平均值。這也是小學的內容。

另外一種度量是眾數，它是數據集出現頻次最多的數據，當有多個眾數時，稱為多眾數。眾數使用的頻率低于前兩者，更多用于分類數據。

平均數、中位數、眾數構成了標準的衡量方法。但是還不夠。

數據分析師常將數據劃分為四個部分，每一部分包含25%的數據集，劃分的分割點叫做四分位數。

依次將數據升序排列，位于第25%位置的叫做第一四分位數Q1，位于第50%位置的叫做第二四分位數Q2，即中位數，位于第75%的叫做第三分位數Q3。這三個點，能輔助衡量數據的分布狀態。

數據的離散和變異

我們考慮一個新的問題，現在一家電商公司要賣兩個同類型的商品，它們的一周銷量（單位：個）如下：

商品A：10，10，10，11，12，12，12
商品B：3，5，6，11，16，17，19

它們的平均數一樣，中位數也一樣，可它們的真實情況呢？當然不。作為商品，我們更喜歡銷量穩定的。

方差是一種可以衡量數據「穩定性」的度量，更通俗的解釋是衡量數據的變異性，從圖形上說，也叫離散程度。

方差的計算公式是各個數據分別與其平均數之差的平方和的平均數。

上述公式是總體數據集的方差計算，當數據近為部分抽樣樣本時，n應該改為n-1。數據集足夠大時，兩者的誤差也可以忽略不計。

現在計算上文商品的方差。Excel中的方差公式為VARP( )，如果是樣本數據，則為VAR( )。不同Excel版本，函數會有微小差異。

Clipboard Image.png

方差越大，說明數據集的離散程度越大，商品A的銷量波動明顯比商品B穩定。方差的計算中，因為涉及到了平方和，所以單位的量綱是平方（商品A和B的方差，單位為個^2），它很難有直觀的詮釋。于是我們又引入標準差。

標準差是方差的開平方:

Excel中，標準差的計算函數為stdevp( )，如果是樣本數據，則為stdev( )。

方差和標準差的意義是相同的，但是標準差與原始數據的單位量綱相同，它更容易與平均數等度量比較。比如商品A的平均銷量為11個，標準差為0.85個，于是我們知道這個商品賣的比較穩。

切比雪夫定理指出，至少有75%的數據值與平均數的距離在2個標準差以內，至少有89%的數據與平均數在3個標準差之內，至少有94%的數據與平均數在4個標準差以內。這是一個非常方便的定理，能快速掌握數據包含的范圍。

假設上海地區的平均薪資是20k，標準差是5K，那么大約有90%的薪資，都在5k～35k的區間內。

如果數據本身符合正態（鐘形）分布，那么切比雪夫定理的估算將進一步準確：68%的數據落在距離平均數一個標準差內，95%的數據值落在距離平均數2個標準差之內，幾乎所有的數據落在三個標準差內。

在Excel中，有一個重要的工具叫數據分析庫（部分Excel版本需要安裝，自行搜索），里面封裝了大量的統計工具。

Clipboard Image.png

點擊描述統計，選擇需要計算的區域，設置為逐列，輸出區域選擇旁邊U2區塊。輸出計算結果。

Clipboard Image.png

列1的所有內容，均屬于描述統計中的各類度量。我們不用一個個函數去計算了。

方差和標準差是重要的概念，在后續的統計學中將繼續出現。

數據的箱線圖

回到度量，上文提到的內容，都屬于數值類的方法，可它們還是不夠直觀。

先匯總五類數據：最小值、第一四分位數Q1、中位數、第三四分位數Q3、最大值。

拿數據分析師的薪資數據作案例。

Clipboard Image.png

以上是清洗后的數據。我們用Excel函數計算這五個度量。分別是median( )、max( )、min( )、quartile( )。按城市區分。

Clipboard Image.png

通過數據，現在可以了解各城市的數據分析師薪資分布了，接下來把它們加工成箱線圖，它是最常用的描述統計圖表。

箱線圖通過我們求出的五個數據確定位置。

Clipboard Image.png

箱線圖的上下邊緣分別是最大值和最小值（實際不是，這里為了方便，先這樣理解），箱體的上下邊界則是25%分位數和75分位數。箱內橫線是中位數。異常值是箱線邊緣外的數值，需要直接排除。

Excel2016可以直接繪制箱線圖，如果是早期版本，有兩種作圖思路。

第一種，是利用股價圖。將圖表按25%分位數、最大值、最小值、75%分位數的順序排列。

Clipboard Image.png

然后直接生成圖表:

Clipboard Image.png

這個圖表是沒有中位數的，中位數需要添加上去。數據源新建一個系列，該系列應該調整到位于數據源的中間位置。

Clipboard Image.png

選擇中位數的數據系列格式，更改標記為「-」，大小為12榜，顏色為黑色。此時就有箱線圖的雛形了。

Clipboard Image.png

另外一種思路是利用散點圖的誤差線繪制，和甘特圖的原理一樣，大家自己練習吧。

其實從圖表中看到，雖然我們描繪出了箱線圖，但是不同城市的數據區別并不直觀，因為最大值撐高了箱線圖的邊緣。我們經常會遇到這些影響分析質量的異常值（過于異常的數值雖然存在合理性，但是很多分析必須移除掉它們）。我們需要清洗掉這批異常值。

定義四分位差IQR=Q3（75%分位數）—Q1（25%分位數），箱線圖的界限在（Q1-1.5IQR，Q3+1.5個IQR）處。界限外部所有值均為異常值。

Clipboard Image.png

bottom和top就是新的界限，對于在界限外部的數據，均認為是異常值。界限內部的數據則是箱線圖的主體，接下來找出界限內的最大值和最小值。比如上海的界限是-5～39之間，而界限內的數據實際范圍為1.5～37.5，那么就以1.5~37.5繪制箱形。

現在大家求出了真正的五個度量，可以重新繪制箱線圖（我們要用bottom和top求出范圍內新的最大值和最小值）。為了方便演示，我直接以Python生成（以前教過的BI也行，更好看）。

Clipboard Image.png

比Excel繪制的圖直觀多了。紅線位置，是各個城市中游水平的數據分析師能夠獲得的薪資標準，上邊的藍線區間為中上游，下邊的藍線區間為中下游，以此類推。簡而言之，人群被四等分了。

我們解讀一下：上海、北京、深圳的數據分析師，薪資范圍接近，但是中上游水平的人，北京地區能獲得更高的薪資，因為中位數的位置更高。西安、長沙、天津則不利于數據分析師的發展。杭州的水平接近北上深，但是薪資上限受到一定限制。

這張圖能一眼看出不少內容，想必大家已經明白箱線圖的作用了，它能讀出數據的整體分布和傾斜趨勢（偏態）。

通過圖表（直方圖、散點圖也算描述統計）快速解讀數據，是數據分析師的基礎能力之一。

大家想一下，如果是O2O的數據分析，能不能快速判斷各城市的業務狀況？如果是金融，能不能劃分人群看它們業務之間不同的分布？如果是電商，不同類目的營銷數據會有大的差異嗎？再配合不同的維度細分，發揮的價值大著呢。

箱線圖是一種非常優秀的圖表。雖然在Excel中會繁瑣一些（趕緊更新到2016），但是在Python和R語言，也就是十秒鐘的操作時間。

#專欄作家#

秦路，微信公眾號ID：tracykanc，人人都是產品經理專欄作家。

本文由 @秦路?原創發布于人人都是產品經理。未經許可，禁止轉載。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

秦路

小角色，公眾號:tracykanc

47篇作品 2489161總閱讀量

多媒體系列專題｜車載卡拉OK

12-181046 瀏覽

10塊錢解決兩餐飯，年輕人愛上“剩菜盲盒”

05-244126 瀏覽

NPS 幫到你了嗎

11-144751 瀏覽

AI+招聘｜Inflection和Anthropic已經在用這個AI原生產品挖掘人才

10-302266 瀏覽

To B企業內容營銷：明確營銷目的和客戶畫像

11-032515 瀏覽

評論

missy

超級無敵好

最近來自廣東回復
謝嵐鵬

寫的很好，但是圖掛了~

最近來自北京回復
坐禪的貓

我們用Excel函數計算這五個度量。分別是median( )、max( )、min( )、quartile( )。按城市區分。這步驟有快捷一點兒的么？

最近來自廣東回復
Wendy

啦啦啦

最近回復
1. Wendy 回復Wendy
  
  啦啦啦
  
  最近回復
醫美運營白斬雞

學習了！大學時候學的統計學全還給老師了。。

最近回復

如何七周成為數據分析師12：解鎖數據分析的正確姿勢（上）

什么是描述統計學

數據的度量

數據的離散和變異

數據的箱線圖

相關閱讀

#專欄作家#