數(shù)據(jù)之美 | 數(shù)據(jù)可視化三節(jié)課之二:可視化的使用
編輯導(dǎo)讀:對(duì)于經(jīng)常需要用數(shù)據(jù)、做分析、理邏輯的投資者來說,數(shù)據(jù)可視化是一項(xiàng)利器。它能夠幫助我們快速發(fā)現(xiàn)規(guī)律、找到原因,做出判斷。如何使用數(shù)據(jù)可視化呢?本文將從可視化方案的五大類進(jìn)行分析,希望對(duì)你有幫助。
上次屠夫以《可視化的意義》開啟了數(shù)據(jù)可視化系列,解答了3個(gè)問題:
- 「數(shù)據(jù)」可以用來做什么?
- 「分析」能解決哪些問題?
- 「可視化」的意義是什么?
今天,我們將推進(jìn)到「可視化的使用」,幫大家更好地理解這個(gè)工具。
一、可視化方案該怎么選?
上一節(jié)課里,屠夫總結(jié)過:
- 可視化可以輔助分析過程的推理
- 可視化可以輔助分析結(jié)果的表達(dá)
一方面是過程,一方面是結(jié)果,看似涇渭分明的兩部分,在實(shí)際的數(shù)據(jù)分析工作中是相輔相成的。
許多時(shí)候,我們做數(shù)據(jù)分析是帶有探索和挖掘性質(zhì)的,上一階段的分析結(jié)果可能會(huì)成為下一階段分析的方向。選出合適的可視化方案,不但有助于表達(dá)當(dāng)前階段的分析結(jié)果 (承前),還有助于開啟下一階段的分析思路 (啟后)。
想在數(shù)據(jù)分析中選出合適的可視化方案,得先了解我們的“選項(xiàng)”都有哪些??梢暬膱D表數(shù)量繁多,再加上可以使用的元素組合 (比如色彩),可謂千變?nèi)f化,逐一列舉自然是不可能的。但是,可視化方案其實(shí)可以歸納為「D·R·C·C·T」5大類。只要熟知這5大類,就能做到對(duì)數(shù)據(jù)可視化應(yīng)用自如。
二、Distribution · 分布
第一大類是D · Distribution,分布。
如果要選出自己最常用的可視化類型,屠夫的答案一定是「分布」。分布之于可視化,就如清蒸之于烹調(diào) ——方法不復(fù)雜,但最大限度地保留了食材的本來味道。它以最原汁原味的方式展現(xiàn)數(shù)據(jù)特征,讓我們對(duì)分析對(duì)象有初步認(rèn)知。
「分布」類可視化的典型代表包括散點(diǎn)圖、直方圖和箱線圖。這3種分布類可視化,其實(shí)我們在中學(xué)課程里都學(xué)過,但大部分人都低估了其作用。
來源:r-graph-gallery.com
比如這一張簡單的箱線圖,其實(shí)把4類數(shù)據(jù)的最小值、25%分位數(shù)、中位數(shù)、75%分位數(shù)、最大值和樣本量 (箱子的寬度) 全部展現(xiàn)在我們眼前:
- 考慮樣本量的多寡:D類最多,B類最少……
- 考慮value值的離散:B類最集中,C類最分散……
- 考慮value值的大小:A類最大者小于B類最小者……
「分布」類可視化方案中也有一些不常見的圖表,比如屠夫曾在《給我3枚硬幣》用過的平行坐標(biāo)系:
來源:columbia.edu
上面的平行坐標(biāo)系展現(xiàn)的是上世紀(jì)70、80年代的32款汽車在每加侖汽油行駛的里程 (mpg) 、氣缸數(shù) (cylinders) 、引擎大小 (displacement) 等維度下的分布情況。可以看出,當(dāng)時(shí)的汽車氣缸數(shù)分布比較集中 (4、6、8),但是車身重量 (weight) 的分布卻非常分散。又比如上半年大家經(jīng)常看的地理熱力圖?—— 結(jié)合地圖和顏色后,以簡單清晰的方式把數(shù)據(jù)分布展現(xiàn)出來:
來源:北京大學(xué)可視化與可視化分析實(shí)驗(yàn)室
「分布」類可視化,是解決數(shù)據(jù)分析問題的良好開端。屠夫并不指望這類可視化能獲得最終答案,但卻是邁向最終答案的第一步。一份數(shù)據(jù)集到手,無論分析的目標(biāo)是什么,先看看分布,準(zhǔn)沒錯(cuò)。
三、Relationship · 關(guān)系
第二大類是R · Relationship,關(guān)系。
「關(guān)系」類的可視化方案,側(cè)重展示的是數(shù)據(jù)的相關(guān)性和關(guān)聯(lián)關(guān)系。從廣義上說,任何一類可視化都可以通過添加“系列”實(shí)現(xiàn)展示數(shù)據(jù)的關(guān)系 ?(如果有的話)。
比如上面的例子,將多類數(shù)據(jù)的箱線圖放在一起,可以展示「分布」方面的「關(guān)系」;又比如,將多類數(shù)據(jù)的餅圖放在一起,可以展示「構(gòu)成」方面的「關(guān)系」;再比如,將多類數(shù)據(jù)的折線圖放在一起,可以展示「趨勢」方面的「關(guān)系」。
在實(shí)際應(yīng)用中,屠夫還是習(xí)慣將“「關(guān)系」類可視化方案”定義縮小一點(diǎn),歸納為“基于坐標(biāo)系”和“基于圖”兩種。基于坐標(biāo)系的「關(guān)系」類可視化方案,包括散點(diǎn)圖、氣泡圖、六邊形分箱圖、熱力圖和平行坐標(biāo)系等。六邊形分箱圖和平行坐標(biāo)系的使用比較少,熱力圖在上一節(jié)已經(jīng)提過,這里介紹一下氣泡圖。氣泡圖可以理解為散點(diǎn)圖的加強(qiáng)版 —— 將點(diǎn)換成圓,以圓的面積 (注意,不是半徑) 多展現(xiàn)一個(gè)維度的信息。
下面是一個(gè)氣泡圖的例子,作者加上了趨勢線來表達(dá)氣泡數(shù)據(jù)的相關(guān)性:
來源:instagram.com
基于圖的「關(guān)系」類可視化方案,包括力導(dǎo)向圖和弦圖。力導(dǎo)向圖的名字比較拗口,如果屠夫說“關(guān)系鏈”,許多人應(yīng)該會(huì)“哦”地一下恍然大悟。力導(dǎo)向圖用節(jié)點(diǎn)代表對(duì)象,用連線代表對(duì)象之間的關(guān)系。比如下面的力導(dǎo)向圖表達(dá)了抽象派藝術(shù)家們的社交關(guān)系,不難看出,關(guān)系網(wǎng)中最有影響力的關(guān)鍵節(jié)點(diǎn)是畢加索:
來源:moma.org
弦圖則顯得更優(yōu)雅一些 —— 將圓的每一段表示一個(gè)對(duì)象 (相當(dāng)于力導(dǎo)向圖中的節(jié)點(diǎn)),再用貝塞爾曲線表示對(duì)象之間的關(guān)系 (相當(dāng)于力導(dǎo)向圖中的直線)。下面的例子是以弦圖展現(xiàn)海外一些期刊之間的引用關(guān)系,屠夫選擇觀察《Science》的引用/被引用關(guān)系:
來源:well-formed.eigenfactor.org
四、Comparison · 比較
第三大類是C · Comparison,比較。
「比較」類的可視化方案,重點(diǎn)在于不同數(shù)據(jù)之間的對(duì)比、突出差異點(diǎn),和「關(guān)系」類的可視化方案正好是不同的出發(fā)角度。這類可視化方案一定繞不開的典型代表,是柱狀圖。屠夫在考察候選人的可視化功底時(shí),必問的一道題是:直方圖和柱狀圖有哪些區(qū)別?
我說的當(dāng)然不是名稱上的區(qū)別 (Histogram?V.S.?Bar Chart) :
- 從應(yīng)用角度,直方圖常用于「分布」,而柱狀圖常用于「比較」
- 從數(shù)據(jù)角度,直方圖適用于連續(xù)型變量,而柱狀圖更適合離散型變量
- 從制圖角度,直方圖的直方無間隔,而柱狀圖的柱形有間隔
來源:圖之典柱狀圖的應(yīng)用很廣泛,看起來似乎很枯燥。其實(shí)只要做簡單變化,柱狀圖的視覺效果也可以很驚艷,比如下面這張將柱狀圖和極坐標(biāo)系結(jié)合的圖表:
來源:behance.net
適合「比較」的圖表還有很多,包括上面提到過的熱力圖、氣泡圖等等,這里屠夫還想再舉的一例是雷達(dá)圖。雷達(dá)圖在許多游戲中出現(xiàn),常表示人物的多維度屬性或者能力值。既可以對(duì)比同一人物的不同維度,也可以對(duì)比不同人物的同一維度,看起來簡潔而直觀。
下圖是基于2013年NBA全明星球員繪制的雷達(dá)圖:
來源:fastcompany.net
五、Composition · 構(gòu)成
第四大類是C · Composition,構(gòu)成。
「構(gòu)成」類的可視化方案,重在展現(xiàn)整體里的構(gòu)成比例,最簡單的「構(gòu)成」例子非餅圖莫屬?;蛟S有同學(xué)會(huì)問,餅圖也展現(xiàn)了不同部分的大小比例,是不是也可以和柱狀圖一樣,作為「比較」類的可視化方案呢?
理論上可以,但屠夫不建議這么做。人眼對(duì)于面積和角度的感知敏感性遠(yuǎn)低于長度,而餅圖恰恰是運(yùn)用面積和角度進(jìn)行可視化表達(dá),在「比較」方面不夠顯著。
舉個(gè)例子,下面3種情形屬于“比較對(duì)象的數(shù)值接近”,我們從上面餅圖里獲得的對(duì)比效果,遠(yuǎn)不及下面的柱狀圖—— 雖然上下兩張圖,是基于相同數(shù)據(jù)繪制的。
來源:圖之典
實(shí)際分析里我們也會(huì)遇上“帶層級(jí)結(jié)構(gòu)的數(shù)據(jù)”,這時(shí)我們需要餅圖的加強(qiáng)版 —— 旭日?qǐng)D。旭日?qǐng)D又叫“多層餅圖”,以同心圓的多層來表示層級(jí)關(guān)系,內(nèi)層是外層的“父”,本質(zhì)上也是一種樹狀結(jié)構(gòu)。
比如下面這張圖展示了不同咖啡風(fēng)味的層級(jí)關(guān)系:
來源:jasondavies.com
較真的同學(xué)會(huì)發(fā)現(xiàn),餅圖運(yùn)用了圓的“圓心角”,旭日?qǐng)D以此為基礎(chǔ)套上“同心圓”,卻沒有發(fā)揮“半徑”。如果把圓的半徑也用于數(shù)據(jù)表達(dá),就會(huì)形成南丁格爾玫瑰圖。顧名思義,這是由著名的醫(yī)療改革家南丁格爾護(hù)士發(fā)明的一種圖表,用扇形的半徑來表達(dá)數(shù)據(jù)。
下面的例子是Facebook在2016年的用戶畫像,每一塊扇形表示一種數(shù)據(jù)維度,而人口統(tǒng)計(jì)學(xué)屬性 (性別、收入、年齡、學(xué)歷) 還使用了層疊:
來源:excelhowto.com
六、Trend · 趨勢
第五大類是T · Trend,趨勢。
「趨勢」類的可視化方案,重在描述數(shù)據(jù)隨某一維度變化而變化的情況?!澳骋痪S度”往往是「時(shí)間」,這樣的圖表就是我們經(jīng)常見到的折線圖了:
來源:澎湃新聞
注意了,屠夫只是說“往往是「時(shí)間」”,總會(huì)有例外。如果“某一維度”是「流程節(jié)點(diǎn)」,那么可以用?;鶊D來表達(dá):
來源:經(jīng)濟(jì)學(xué)人
上圖是經(jīng)濟(jì)學(xué)人對(duì)“難民流向”問題的可視化,其中藍(lán)色表示難民來源國家,黃色表示遷移目的地,綠色表示成功入境,紅色表示拒絕入境。
桑基圖在互聯(lián)網(wǎng)行業(yè)常用于用戶路徑分析,每一個(gè)節(jié)點(diǎn)可以表示一個(gè)功能頁面,而節(jié)點(diǎn)間的條狀帶表示有多少用戶沿著這個(gè)方向跳轉(zhuǎn)或流動(dòng)—— 這,也是一種“趨勢”。
把?;鶊D順時(shí)針旋轉(zhuǎn)90度,再挑選其中一種路徑進(jìn)行展示,就成了另一種圖表 ——?漏斗圖。依然是來自經(jīng)濟(jì)學(xué)人的可視化案例,這次是有關(guān)職場性別歧視 (薪資差距) 的分析,對(duì)比同類型工作中男女薪資差異。
漏斗從上至下分別是:
- 所有工作
- 同級(jí)別的工作
- 同級(jí)別且同公司的工作
- 同級(jí)別、同公司且同部門的工作
來源:經(jīng)濟(jì)學(xué)人
七、可視化方案5大類的總結(jié)
無論是在分析過程中輔助推理,還是在分析結(jié)果上輔助表達(dá),選取合適的可視化方案十分重要。
讓我們重新回顧一下5大類可視化方案及其作用吧~
【Distribution · 分布】?展現(xiàn)數(shù)據(jù)的分布情況,是洞察的基礎(chǔ)【Relationship · 關(guān)系】?表達(dá)數(shù)據(jù)之間的關(guān)系,突出的是關(guān)聯(lián)【Comparison · 比較】?對(duì)比數(shù)據(jù)的不同表現(xiàn),重點(diǎn)的是差異【Composition · 構(gòu)成】?呈現(xiàn)數(shù)據(jù)內(nèi)部的成分,關(guān)注的是比例【Trend · 趨勢】?考慮數(shù)據(jù)隨時(shí)間、流程等維度變化的情況在第二節(jié)課的最后,屠夫整理了一些常見圖表的可視化功能,大家不妨保存下來隨手查詢哦~
作者:屠夫1868,微信公眾號(hào):基業(yè)長紅
本文由 @屠夫1868 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Pexels,基于CC0協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!