數(shù)據(jù)之美 | 數(shù)據(jù)可視化三節(jié)課之二:可視化的使用
編輯導讀:對于經(jīng)常需要用數(shù)據(jù)、做分析、理邏輯的投資者來說,數(shù)據(jù)可視化是一項利器。它能夠幫助我們快速發(fā)現(xiàn)規(guī)律、找到原因,做出判斷。如何使用數(shù)據(jù)可視化呢?本文將從可視化方案的五大類進行分析,希望對你有幫助。
上次屠夫以《可視化的意義》開啟了數(shù)據(jù)可視化系列,解答了3個問題:
- 「數(shù)據(jù)」可以用來做什么?
- 「分析」能解決哪些問題?
- 「可視化」的意義是什么?
今天,我們將推進到「可視化的使用」,幫大家更好地理解這個工具。
一、可視化方案該怎么選?
上一節(jié)課里,屠夫總結(jié)過:
- 可視化可以輔助分析過程的推理
- 可視化可以輔助分析結(jié)果的表達
一方面是過程,一方面是結(jié)果,看似涇渭分明的兩部分,在實際的數(shù)據(jù)分析工作中是相輔相成的。
許多時候,我們做數(shù)據(jù)分析是帶有探索和挖掘性質(zhì)的,上一階段的分析結(jié)果可能會成為下一階段分析的方向。選出合適的可視化方案,不但有助于表達當前階段的分析結(jié)果 (承前),還有助于開啟下一階段的分析思路 (啟后)。
想在數(shù)據(jù)分析中選出合適的可視化方案,得先了解我們的“選項”都有哪些??梢暬膱D表數(shù)量繁多,再加上可以使用的元素組合 (比如色彩),可謂千變?nèi)f化,逐一列舉自然是不可能的。但是,可視化方案其實可以歸納為「D·R·C·C·T」5大類。只要熟知這5大類,就能做到對數(shù)據(jù)可視化應用自如。
二、Distribution · 分布
第一大類是D · Distribution,分布。
如果要選出自己最常用的可視化類型,屠夫的答案一定是「分布」。分布之于可視化,就如清蒸之于烹調(diào) ——方法不復雜,但最大限度地保留了食材的本來味道。它以最原汁原味的方式展現(xiàn)數(shù)據(jù)特征,讓我們對分析對象有初步認知。
「分布」類可視化的典型代表包括散點圖、直方圖和箱線圖。這3種分布類可視化,其實我們在中學課程里都學過,但大部分人都低估了其作用。
來源:r-graph-gallery.com
比如這一張簡單的箱線圖,其實把4類數(shù)據(jù)的最小值、25%分位數(shù)、中位數(shù)、75%分位數(shù)、最大值和樣本量 (箱子的寬度) 全部展現(xiàn)在我們眼前:
- 考慮樣本量的多寡:D類最多,B類最少……
- 考慮value值的離散:B類最集中,C類最分散……
- 考慮value值的大?。篈類最大者小于B類最小者……
「分布」類可視化方案中也有一些不常見的圖表,比如屠夫曾在《給我3枚硬幣》用過的平行坐標系:
來源:columbia.edu
上面的平行坐標系展現(xiàn)的是上世紀70、80年代的32款汽車在每加侖汽油行駛的里程 (mpg) 、氣缸數(shù) (cylinders) 、引擎大小 (displacement) 等維度下的分布情況??梢钥闯觯敃r的汽車氣缸數(shù)分布比較集中 (4、6、8),但是車身重量 (weight) 的分布卻非常分散。又比如上半年大家經(jīng)常看的地理熱力圖?—— 結(jié)合地圖和顏色后,以簡單清晰的方式把數(shù)據(jù)分布展現(xiàn)出來:
來源:北京大學可視化與可視化分析實驗室
「分布」類可視化,是解決數(shù)據(jù)分析問題的良好開端。屠夫并不指望這類可視化能獲得最終答案,但卻是邁向最終答案的第一步。一份數(shù)據(jù)集到手,無論分析的目標是什么,先看看分布,準沒錯。
三、Relationship · 關系
第二大類是R · Relationship,關系。
「關系」類的可視化方案,側(cè)重展示的是數(shù)據(jù)的相關性和關聯(lián)關系。從廣義上說,任何一類可視化都可以通過添加“系列”實現(xiàn)展示數(shù)據(jù)的關系 ?(如果有的話)。
比如上面的例子,將多類數(shù)據(jù)的箱線圖放在一起,可以展示「分布」方面的「關系」;又比如,將多類數(shù)據(jù)的餅圖放在一起,可以展示「構(gòu)成」方面的「關系」;再比如,將多類數(shù)據(jù)的折線圖放在一起,可以展示「趨勢」方面的「關系」。
在實際應用中,屠夫還是習慣將“「關系」類可視化方案”定義縮小一點,歸納為“基于坐標系”和“基于圖”兩種?;谧鴺讼档摹戈P系」類可視化方案,包括散點圖、氣泡圖、六邊形分箱圖、熱力圖和平行坐標系等。六邊形分箱圖和平行坐標系的使用比較少,熱力圖在上一節(jié)已經(jīng)提過,這里介紹一下氣泡圖。氣泡圖可以理解為散點圖的加強版 —— 將點換成圓,以圓的面積 (注意,不是半徑) 多展現(xiàn)一個維度的信息。
下面是一個氣泡圖的例子,作者加上了趨勢線來表達氣泡數(shù)據(jù)的相關性:
來源:instagram.com
基于圖的「關系」類可視化方案,包括力導向圖和弦圖。力導向圖的名字比較拗口,如果屠夫說“關系鏈”,許多人應該會“哦”地一下恍然大悟。力導向圖用節(jié)點代表對象,用連線代表對象之間的關系。比如下面的力導向圖表達了抽象派藝術家們的社交關系,不難看出,關系網(wǎng)中最有影響力的關鍵節(jié)點是畢加索:
來源:moma.org
弦圖則顯得更優(yōu)雅一些 —— 將圓的每一段表示一個對象 (相當于力導向圖中的節(jié)點),再用貝塞爾曲線表示對象之間的關系 (相當于力導向圖中的直線)。下面的例子是以弦圖展現(xiàn)海外一些期刊之間的引用關系,屠夫選擇觀察《Science》的引用/被引用關系:
來源:well-formed.eigenfactor.org
四、Comparison · 比較
第三大類是C · Comparison,比較。
「比較」類的可視化方案,重點在于不同數(shù)據(jù)之間的對比、突出差異點,和「關系」類的可視化方案正好是不同的出發(fā)角度。這類可視化方案一定繞不開的典型代表,是柱狀圖。屠夫在考察候選人的可視化功底時,必問的一道題是:直方圖和柱狀圖有哪些區(qū)別?
我說的當然不是名稱上的區(qū)別 (Histogram?V.S.?Bar Chart) :
- 從應用角度,直方圖常用于「分布」,而柱狀圖常用于「比較」
- 從數(shù)據(jù)角度,直方圖適用于連續(xù)型變量,而柱狀圖更適合離散型變量
- 從制圖角度,直方圖的直方無間隔,而柱狀圖的柱形有間隔
來源:圖之典柱狀圖的應用很廣泛,看起來似乎很枯燥。其實只要做簡單變化,柱狀圖的視覺效果也可以很驚艷,比如下面這張將柱狀圖和極坐標系結(jié)合的圖表:
來源:behance.net
適合「比較」的圖表還有很多,包括上面提到過的熱力圖、氣泡圖等等,這里屠夫還想再舉的一例是雷達圖。雷達圖在許多游戲中出現(xiàn),常表示人物的多維度屬性或者能力值。既可以對比同一人物的不同維度,也可以對比不同人物的同一維度,看起來簡潔而直觀。
下圖是基于2013年NBA全明星球員繪制的雷達圖:
來源:fastcompany.net
五、Composition · 構(gòu)成
第四大類是C · Composition,構(gòu)成。
「構(gòu)成」類的可視化方案,重在展現(xiàn)整體里的構(gòu)成比例,最簡單的「構(gòu)成」例子非餅圖莫屬?;蛟S有同學會問,餅圖也展現(xiàn)了不同部分的大小比例,是不是也可以和柱狀圖一樣,作為「比較」類的可視化方案呢?
理論上可以,但屠夫不建議這么做。人眼對于面積和角度的感知敏感性遠低于長度,而餅圖恰恰是運用面積和角度進行可視化表達,在「比較」方面不夠顯著。
舉個例子,下面3種情形屬于“比較對象的數(shù)值接近”,我們從上面餅圖里獲得的對比效果,遠不及下面的柱狀圖—— 雖然上下兩張圖,是基于相同數(shù)據(jù)繪制的。
來源:圖之典
實際分析里我們也會遇上“帶層級結(jié)構(gòu)的數(shù)據(jù)”,這時我們需要餅圖的加強版 —— 旭日圖。旭日圖又叫“多層餅圖”,以同心圓的多層來表示層級關系,內(nèi)層是外層的“父”,本質(zhì)上也是一種樹狀結(jié)構(gòu)。
比如下面這張圖展示了不同咖啡風味的層級關系:
來源:jasondavies.com
較真的同學會發(fā)現(xiàn),餅圖運用了圓的“圓心角”,旭日圖以此為基礎套上“同心圓”,卻沒有發(fā)揮“半徑”。如果把圓的半徑也用于數(shù)據(jù)表達,就會形成南丁格爾玫瑰圖。顧名思義,這是由著名的醫(yī)療改革家南丁格爾護士發(fā)明的一種圖表,用扇形的半徑來表達數(shù)據(jù)。
下面的例子是Facebook在2016年的用戶畫像,每一塊扇形表示一種數(shù)據(jù)維度,而人口統(tǒng)計學屬性 (性別、收入、年齡、學歷) 還使用了層疊:
來源:excelhowto.com
六、Trend · 趨勢
第五大類是T · Trend,趨勢。
「趨勢」類的可視化方案,重在描述數(shù)據(jù)隨某一維度變化而變化的情況?!澳骋痪S度”往往是「時間」,這樣的圖表就是我們經(jīng)常見到的折線圖了:
來源:澎湃新聞
注意了,屠夫只是說“往往是「時間」”,總會有例外。如果“某一維度”是「流程節(jié)點」,那么可以用?;鶊D來表達:
來源:經(jīng)濟學人
上圖是經(jīng)濟學人對“難民流向”問題的可視化,其中藍色表示難民來源國家,黃色表示遷移目的地,綠色表示成功入境,紅色表示拒絕入境。
?;鶊D在互聯(lián)網(wǎng)行業(yè)常用于用戶路徑分析,每一個節(jié)點可以表示一個功能頁面,而節(jié)點間的條狀帶表示有多少用戶沿著這個方向跳轉(zhuǎn)或流動—— 這,也是一種“趨勢”。
把?;鶊D順時針旋轉(zhuǎn)90度,再挑選其中一種路徑進行展示,就成了另一種圖表 ——?漏斗圖。依然是來自經(jīng)濟學人的可視化案例,這次是有關職場性別歧視 (薪資差距) 的分析,對比同類型工作中男女薪資差異。
漏斗從上至下分別是:
- 所有工作
- 同級別的工作
- 同級別且同公司的工作
- 同級別、同公司且同部門的工作
來源:經(jīng)濟學人
七、可視化方案5大類的總結(jié)
無論是在分析過程中輔助推理,還是在分析結(jié)果上輔助表達,選取合適的可視化方案十分重要。
讓我們重新回顧一下5大類可視化方案及其作用吧~
【Distribution · 分布】?展現(xiàn)數(shù)據(jù)的分布情況,是洞察的基礎【Relationship · 關系】?表達數(shù)據(jù)之間的關系,突出的是關聯(lián)【Comparison · 比較】?對比數(shù)據(jù)的不同表現(xiàn),重點的是差異【Composition · 構(gòu)成】?呈現(xiàn)數(shù)據(jù)內(nèi)部的成分,關注的是比例【Trend · 趨勢】?考慮數(shù)據(jù)隨時間、流程等維度變化的情況在第二節(jié)課的最后,屠夫整理了一些常見圖表的可視化功能,大家不妨保存下來隨手查詢哦~
作者:屠夫1868,微信公眾號:基業(yè)長紅
本文由 @屠夫1868 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Pexels,基于CC0協(xié)議。
- 目前還沒評論,等你發(fā)揮!