如何七周成為數(shù)據(jù)分析師04:數(shù)據(jù)可視化之經(jīng)典圖表合集
本文是《如何七周成為數(shù)據(jù)分析師》的第四篇教程,如果想要了解寫(xiě)作初衷,可以先行閱讀七周指南。溫馨提示:如果您已經(jīng)熟悉數(shù)據(jù)可視化,大可不必再看這篇文章,或只挑選部分。
Excel的課程告一段落,今天開(kāi)始第二周的內(nèi)容,數(shù)據(jù)可視化階段。
數(shù)據(jù)可視化是一個(gè)熱門(mén)的概念,是分析師手中的優(yōu)秀工具。好的可視化是會(huì)講故事的,它向我們揭示了數(shù)據(jù)背后的規(guī)律。
大家對(duì)可視化的使用認(rèn)知或許來(lái)源于下面這張圖。雖然結(jié)構(gòu)清晰,但它只針對(duì)Excel圖表,不夠豐富。本文會(huì)結(jié)合數(shù)據(jù)分析師的使用場(chǎng)景展示更多的可視化案例。
為方便演示,文中絕大多數(shù)視圖為ECharts.js的范例。
了解可視化前,先知悉基礎(chǔ)概念。
維度
數(shù)據(jù)分析中經(jīng)常會(huì)提及維度。維度是觀察數(shù)據(jù)的角度和對(duì)數(shù)據(jù)的描述。我們可以說(shuō)地區(qū)是一種維度,這個(gè)維度包含上海北京這些城市。也可以認(rèn)為銷售額是一個(gè)維度,里面有各類銷售數(shù)據(jù)。
維度可以用時(shí)間、數(shù)值表示,也可以用文本,文本常作為類別。數(shù)據(jù)分析的本質(zhì)是各種維度的組合,我想了解和分析全國(guó)各地的銷售額,就需要將地區(qū)維度和銷售維度結(jié)合,如果想知道各個(gè)年份的變化,那么再加入時(shí)間維度。
說(shuō)的再透徹點(diǎn),Excel首行各字段就可以理解成維度。
互聯(lián)網(wǎng)行業(yè)的PV、UV、活躍數(shù)也能算作維度。
圖表的繪制依賴多個(gè)維度的組合。
維度類型和轉(zhuǎn)換
維度主要是三大類的數(shù)據(jù)結(jié)構(gòu):文本、時(shí)間、數(shù)值。地區(qū)的上海、北京就是文本維度(也可以稱為類別維度),銷售額度就是數(shù)值維度,時(shí)間更好理解了。不同圖表有維度使用限制。
數(shù)值維度可以通過(guò)其他維度加工計(jì)算得出,例如按地區(qū)維度,count出有多少是上海的,有多少是北京的。
維度可以互相轉(zhuǎn)換。比如年齡原本是數(shù)值型的維度,但是可以通過(guò)對(duì)年齡的劃分,將其分類為小孩、青年、老年三個(gè)年齡段,此時(shí)就轉(zhuǎn)換為文本維度。具體按照分析場(chǎng)景使用。
接下來(lái)介紹主要的可視化圖表。
主要的可視化圖表
1.散點(diǎn)圖
散點(diǎn)圖在報(bào)表中不常用到,但是在數(shù)據(jù)分析中可以算出鏡率最高的。散點(diǎn)圖通過(guò)坐標(biāo)軸,表示兩個(gè)變量之間的關(guān)系。繪制它依賴大量數(shù)據(jù)點(diǎn)的分布。
散點(diǎn)圖的優(yōu)勢(shì)是揭示數(shù)據(jù)間的關(guān)系,發(fā)覺(jué)變量與變量之間的關(guān)聯(lián)。
散點(diǎn)圖需要兩個(gè)數(shù)值維度表示X軸、Y軸,下圖范例就是身高和體重兩個(gè)維度。
為了進(jìn)行分析,該圖又引入性別維度,通過(guò)顏色來(lái)區(qū)分。
當(dāng)我們想知道兩個(gè)指標(biāo)互相之間有沒(méi)有關(guān)系,散點(diǎn)圖是最好的工具之一。因?yàn)樗庇^。尤其是大數(shù)據(jù)量,散點(diǎn)圖會(huì)有更精準(zhǔn)的結(jié)果。
后續(xù)的學(xué)習(xí)中,我們也會(huì)多次借用到散點(diǎn)圖,比如統(tǒng)計(jì)中的回歸分析,比如數(shù)據(jù)挖掘中的聚類。
2.折線圖
折線圖是觀察數(shù)據(jù)的趨勢(shì),它和時(shí)間是好基友,當(dāng)我們想要了解某一維度在時(shí)間上的規(guī)律或者趨勢(shì)時(shí),就用折線圖吧。
折線圖一般使用時(shí)間維度作為X軸,數(shù)值維度作為Y軸。
3.柱形圖
柱形圖是分析師最常用到的圖表之一,常用于多個(gè)維度的比較和變化。
文本維度/時(shí)間維度通常作為X軸。數(shù)值型維度作為Y軸。柱形圖至少需要一個(gè)數(shù)值型維度。
下圖就是柱形圖的對(duì)比分析,通過(guò)顏色區(qū)分類別。當(dāng)需要對(duì)比的維度過(guò)多,柱形圖是力不從心的。
柱形圖和折線圖在時(shí)間維度的分析中是可以互換的。但推薦使用折線圖,因?yàn)樗鼘?duì)趨勢(shì)的變化表達(dá)更清晰。
柱形圖還有許多豐富的應(yīng)用。例如堆積柱形圖,瀑布圖,橫向條形圖,橫軸正負(fù)圖等。
直方圖是柱形圖的特殊形式。它的數(shù)值坐標(biāo)軸是連續(xù)的,專用于統(tǒng)計(jì),表達(dá)的是數(shù)據(jù)分布情況。在統(tǒng)計(jì)學(xué)的內(nèi)容會(huì)專門(mén)講解。
4.地理圖
一切和空間屬性有關(guān)的分析都可以用到地理圖。比如各地區(qū)銷量,或者某商業(yè)區(qū)域店鋪密集度等。
地理圖一定需要用到坐標(biāo)維度??梢允墙?jīng)緯度、也可以是地域名稱(上海市、北京市)。坐標(biāo)粒度即能細(xì)到具體某條街道,也能寬到世界各國(guó)范圍。
除了經(jīng)緯度,地理圖的繪制離不開(kāi)地圖數(shù)據(jù),POI是很重要的要素。POI是“Point of Information”的縮寫(xiě),可以翻譯成信息點(diǎn),每個(gè)POI包含四方面信息,名稱、類別、經(jīng)度緯度、附近的酒店飯店商鋪等信息。借助POI,才能按地理維度展現(xiàn)數(shù)據(jù)。
5.餅圖
餅圖經(jīng)常表示一組數(shù)據(jù)的占比??梢杂蒙让?、圓環(huán)、或者多圓環(huán)嵌套。商務(wù)類的匯報(bào)中應(yīng)用較多。
為了表示占比,拼圖需要數(shù)值維度。
餅圖是有缺陷的,它擅長(zhǎng)表達(dá)某一占比較大的類別。但是不擅長(zhǎng)對(duì)比。30%和35%在餅圖上憑肉眼是難以分辨出區(qū)別的。當(dāng)類別過(guò)多,也不適宜在餅圖上表達(dá)。
對(duì)數(shù)據(jù)分析師來(lái)說(shuō),除了做報(bào)告,餅圖沒(méi)啥用。
6.雷達(dá)圖
也叫蛛網(wǎng)圖??赡苣型麄?cè)谟螒蛑锌吹剿容^多。它在商務(wù)、財(cái)務(wù)領(lǐng)域應(yīng)用較大,適合用在固定的框架內(nèi)表達(dá)某種已知的結(jié)果。常見(jiàn)于經(jīng)營(yíng)狀況,財(cái)務(wù)健康程度。
比如我對(duì)企業(yè)財(cái)務(wù)進(jìn)行分析,劃分出六大類:銷售、市場(chǎng)、研發(fā)、客服、技術(shù)、管理。通過(guò)雷達(dá)圖繪制出預(yù)算和實(shí)際開(kāi)銷的維度對(duì)比,會(huì)很清晰。如下圖:
7.箱線圖
箱線圖一般人了解的不多,它能準(zhǔn)確地反映數(shù)據(jù)維度的離散(最大數(shù)、最小數(shù)、中位數(shù)、四分?jǐn)?shù))情況。凡是離散的數(shù)據(jù)都適用箱線圖。
下圖就是箱線圖的典型應(yīng)用。線的上下兩端表示某組數(shù)據(jù)的最大值和最小值。箱的上下兩端表示這組數(shù)據(jù)中排在前25%位置和75%位置的數(shù)值。箱中間的橫線表示中位數(shù)。
假如你是一位互聯(lián)網(wǎng)電商分析師,你想知道某商品每天的賣出情況:該商品被用戶最多購(gòu)買了幾個(gè),大部分用戶購(gòu)買了幾個(gè),用戶最少購(gòu)買了幾個(gè)。箱線圖就能很清晰的表示出上面的幾個(gè)指標(biāo)以及變化。
繪制箱線圖,新人需要了解統(tǒng)計(jì)的基礎(chǔ)概念:最大值,最小值,中位數(shù),四分位數(shù)。這個(gè)會(huì)在后續(xù)講解。
8.熱力圖
以高亮形式展現(xiàn)數(shù)據(jù)。
最常見(jiàn)的例子就是用熱力圖表現(xiàn)道路交通狀況。老司機(jī)一眼就知道怎么開(kāi)車了。
互聯(lián)網(wǎng)產(chǎn)品中,熱力圖可以用于網(wǎng)站/APP的用戶行為分析,將瀏覽、點(diǎn)擊、訪問(wèn)頁(yè)面的操作以高亮的可視化形式表現(xiàn)。下圖就是用戶在Google搜索結(jié)果的點(diǎn)擊行為。
熱力圖需要位置信息,比如經(jīng)緯度坐標(biāo),或者屏幕位置坐標(biāo)。
9.關(guān)系圖
展現(xiàn)事物相關(guān)性和關(guān)聯(lián)性的圖表,比如社交關(guān)系鏈、品牌傳播、或者某種信息的流動(dòng)。
有一條微博,現(xiàn)在想研究它的傳播鏈:它是經(jīng)由哪幾個(gè)大V分享擴(kuò)散開(kāi)來(lái),大V前又有誰(shuí)分享過(guò)等,以此為基礎(chǔ)可以繪制出一幅發(fā)散的網(wǎng)狀圖,分析病毒營(yíng)銷的過(guò)程。
關(guān)系圖依賴大量的數(shù)據(jù),它本身沒(méi)有維度的概念。
10.矩形樹(shù)圖
上文說(shuō)過(guò),柱形圖不適合表達(dá)過(guò)多類目(比如上百)的數(shù)據(jù),那應(yīng)該怎么辦?矩形樹(shù)圖出現(xiàn)了。它直觀地以面積表示數(shù)值,以顏色表示類目。
下圖中各顏色系代表各個(gè)類目維度,類目維度下又有多個(gè)二級(jí)類目。如果用柱形圖表達(dá),簡(jiǎn)直是災(zāi)難。用矩形樹(shù)圖則輕輕松松。
電子商務(wù)、產(chǎn)品銷售等涉及大量品類的分析,都可以用到矩形樹(shù)圖。
11.?;鶊D
比較冷門(mén)的圖表,它常表示信息的變化和流動(dòng)狀態(tài)。
在我曾經(jīng)寫(xiě)過(guò)的《用戶運(yùn)營(yíng),如何做好活躍用戶的數(shù)據(jù)分析》中,用?;鶊D繪制了用戶活躍狀態(tài)的變化,這是用戶分層的可視化應(yīng)用。
其實(shí)數(shù)據(jù)分析師經(jīng)常接觸到?;鶊D,只是不知道它的正式名字,它就是Google網(wǎng)站分析中的用戶行為和流量分析。用戶從哪里來(lái),去了哪個(gè)頁(yè)面,在哪個(gè)頁(yè)面離開(kāi),最后停留在哪個(gè)頁(yè)面等。下圖就是桑基圖非常直觀的解釋。
這一塊內(nèi)容,會(huì)在第六周結(jié)合用戶行為講解。
12.漏斗圖
大名鼎鼎的轉(zhuǎn)化率可視化,它適用在固定流程的轉(zhuǎn)化分析,你也可以認(rèn)為它是?;鶊D的簡(jiǎn)化版。說(shuō)實(shí)話,隨著個(gè)性化推薦和精準(zhǔn)運(yùn)營(yíng)越來(lái)越多,漏斗轉(zhuǎn)化有它的局限性。
轉(zhuǎn)化率也可以用幾組數(shù)字表示,不一定做成漏斗圖。
除了上述可視化圖表,還有其他很多經(jīng)典,例如詞云圖、氣泡圖、K線圖等。也歡迎大家留言提供更好的圖表。我們使用圖表,不只是為了好看,雖然好看的報(bào)告面向老板和合作方很有優(yōu)勢(shì)。更多的是圍繞業(yè)務(wù)進(jìn)行分析,得到我們想要的結(jié)果。
沒(méi)有最好的可視化圖表,只有更好的分析方法。
有些數(shù)據(jù)可視化,Excel就能完成,有些則必須借助第三方工具或者編程。下一篇文章我會(huì)挑選部分圖表教大家如何Excel繪制。
相關(guān)閱讀
互聯(lián)網(wǎng)數(shù)據(jù)分析能力的養(yǎng)成,需一份七周的提綱
如何七周成為數(shù)據(jù)分析師01:常見(jiàn)的Excel函數(shù)全部涵蓋在這里了
如何七周成為數(shù)據(jù)分析師02:Excel技巧大揭秘
如何七周成為數(shù)據(jù)分析師03:手把手教你Excel實(shí)戰(zhàn)
如何七周成為數(shù)據(jù)分析師:Excel技巧之甘特圖繪制(項(xiàng)目管理)
如何七周成為數(shù)據(jù)分析師:Excel技巧之打造多級(jí)菜單
#專欄作家#
秦路,微信公眾號(hào)ID:tracykanc,人人都是產(chǎn)品經(jīng)理專欄作家。
本文由 @秦路?原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自PEXELS,基于CC0協(xié)議
看不了圖表阿
有問(wèn)題,圖表都看不了。
精簡(jiǎn)才是王道
然而一個(gè)圖表反應(yīng)的信息越多卻會(huì)導(dǎo)致思路越亂。
@秦路 受教,但請(qǐng)問(wèn),用什么工具做這些圖比較好
努力學(xué)習(xí)數(shù)據(jù),從EXCEL開(kāi)始進(jìn)階