數(shù)據(jù)之美 | 數(shù)據(jù)可視化三節(jié)課之三:可視化的思考
編輯導(dǎo)語:在我們?nèi)粘9ぷ髦校瑪?shù)據(jù)可視化可以充分的幫助我們更快更便捷的理解數(shù)據(jù),輔助工作;前兩篇作者分析了可視化的意義和使用,本文是作者自己對(duì)于數(shù)據(jù)可視化的一些思考,我們一起來看一下。
金錢永不眠,屠夫問候各位早安。
一連三周的數(shù)據(jù)可視化系列在今天將迎來尾聲,在此之前我們先回顧一下上周《可視化的使用》為大家介紹的「D·R·C·C·T」:
- Distribution · 分布:展現(xiàn)數(shù)據(jù)的分布情況,是洞察的基礎(chǔ)。
- Relationship · 關(guān)系:表達(dá)數(shù)據(jù)之間的關(guān)系,突出的是關(guān)聯(lián)。
- Comparison · 比較:對(duì)比數(shù)據(jù)的不同表現(xiàn),重點(diǎn)的是差異。
- Composition · 構(gòu)成:呈現(xiàn)數(shù)據(jù)內(nèi)部的成分,關(guān)注的是比例。
- Trend · 趨勢(shì):考慮數(shù)據(jù)隨時(shí)間、流程等維度變化的情況。
這5個(gè)大類,既是可視化輔助表達(dá)的5種【目的】,也是可視化輔助推理的5種【思路】。
無論是將可視化用在結(jié)果表達(dá)還是過程分析,充分理解DRCCT,有助于我們?cè)谶x取可視化方案時(shí)有的放矢。
『數(shù)據(jù)可視化三節(jié)課』的最后一節(jié)課里,屠夫想分享自己對(duì)數(shù)據(jù)可視化的一些思考。
一、點(diǎn)與線
散點(diǎn)圖是最基礎(chǔ)的可視化方案之一,很多人卻把它用得很單調(diào)。
如果把“點(diǎn)”和“線”結(jié)合起來,往往會(huì)有奇效,比如說趨勢(shì)線:
來源:ECharts官方實(shí)例
除此之外,使用直線進(jìn)行標(biāo)注,也能讓散點(diǎn)圖的信息量大為豐富。
比如下面的例子里,標(biāo)注出男女樣本的平均值、最大值和最小值后,兩個(gè)群體的差異一目了然:
來源:ECharts官方實(shí)例
二、線與面
人眼對(duì)長(zhǎng)度的敏感性高于面積。
還是上次的例子,同樣想對(duì)比A~E這5類的數(shù)量多寡,上方的餅圖就遠(yuǎn)不及下方的柱狀圖。
所以,想使用可視化的「比較」功能時(shí),請(qǐng)盡量使用直線元素。
來源:圖之典·柱狀圖
另外,由于面積比長(zhǎng)度高出一個(gè)維度,會(huì)放大了可視化方案中的數(shù)值差異,這樣的情況可能發(fā)生在氣泡圖和南丁格爾玫瑰圖里。
在使用氣泡圖時(shí),屠夫通常將數(shù)值開平方后再作為氣泡半徑,讓 x=2a 的氣泡面積正好是 x=a 的兩倍,成比例地反映數(shù)值差異;而南丁格爾玫瑰圖本來就是為了放大差異、突出比較的,一般不做這樣的處理,但是會(huì)向圖表使用者說明情況。
比如下面的例子中,上海 (500+) 和北京 (200+) 在視覺上差了不止一倍,因?yàn)樽髡哌x取半徑長(zhǎng)度代表店鋪數(shù)量,而扇形面積卻和半徑的平方成正比。
來源:唐也欽,DT財(cái)經(jīng) (by 圖之典·南丁格爾玫瑰圖)
三、面與點(diǎn)
散點(diǎn)圖可能是最被低估的一種可視化方案,落到“面”上的“點(diǎn)”其實(shí)可以做很多文章。
通過控制散點(diǎn)的顏色深淺和半徑大小,全球最繁華的區(qū)域一目了然:
來源:ECharts官方實(shí)例
將點(diǎn)的移動(dòng)軌跡 (飛線)鋪到地圖上,又成了非常精彩的航線圖:
來源:ECharts官方實(shí)例
四、系列和堆疊
使用柱狀圖和折線圖時(shí),我們可以通過“系列”將多個(gè)樣本群體放在同一個(gè)坐標(biāo)系下,起到「比較」的作用:
來源:ECharts官方實(shí)例
對(duì)于區(qū)域圖 (折線下的區(qū)域用顏色填充) ,將多個(gè)系列堆疊在一起,可以在「趨勢(shì)」和「比較」之余,額外展示「構(gòu)成」:
來源:ECharts官方實(shí)例
五、下鉆和上卷
數(shù)據(jù)分析繞不開數(shù)據(jù)粒度問題,通常來說,可視化只能表達(dá)一個(gè)粒度的數(shù)據(jù)。
比如按年、按月、按周、按天匯總的營(yíng)收數(shù)據(jù),通常會(huì)分開在不同的圖表。
但是,我們可以通過「下鉆」和「上卷」將不同粒度的數(shù)據(jù),整合在一個(gè)可視化作品里。
比如下面旭日?qǐng)D的例子,點(diǎn)擊第1層分類 (設(shè)計(jì)/社科/心理……) ,可以觸發(fā)「下鉆」,旭日?qǐng)D變形至以第1層作為整體再展示向下層級(jí)的比例構(gòu)成。
這個(gè)例子不但可以再向下延伸 (第2層是星級(jí),3/4/5星),如果點(diǎn)擊旭日?qǐng)D正中央的圓,則會(huì)觸發(fā)「上卷」,將數(shù)據(jù)粒度往上一層:
來源:ECharts官方實(shí)例
六、時(shí)間軸
不同于平面圖表和數(shù)據(jù)大屏,BI (商業(yè)智能) 可以通過一些交互組件實(shí)現(xiàn)“超維度”的效果。
比如下面的氣泡圖,原本只能展現(xiàn)3個(gè)維度的信息:人均收入 (橫軸) 、平均壽命 (縱軸) 和總?cè)丝?(半徑)。
但是增加一條時(shí)間軸 (而且?guī)ё詣?dòng)播放功能),就可以額外增多一個(gè)維度 —— 時(shí)間 —— 大大強(qiáng)化了「對(duì)比」和「趨勢(shì)」的功能:
來源:ECharts官方實(shí)例
七、在線和離線
屠夫在工作中曾考慮過這么一個(gè)問題:如果一款BI的在線可視化足夠靈活和強(qiáng)大,它還有必要提供離線報(bào)表導(dǎo)出功能嗎?
答案是肯定的,原因很簡(jiǎn)單:為了突出重點(diǎn),可視化必定省略了部分元素。
文章里屠夫舉的所有例子,都是為了突出數(shù)據(jù)集的某些特征,而有選擇性地進(jìn)行展示;但是對(duì)于有一定分析經(jīng)驗(yàn)的人來說,可視化方案會(huì)限制了他們的觀察角度,遠(yuǎn)不如離線報(bào)表自由。
比如說,可視化方案中的數(shù)據(jù)波動(dòng)有明顯周期性,有經(jīng)驗(yàn)的分析師可能會(huì)導(dǎo)出離線報(bào)表,計(jì)算一下移動(dòng)平均值,可以更準(zhǔn)確地看到平滑后的真實(shí)數(shù)據(jù)趨勢(shì)。
再比如說,可視化方案中的數(shù)據(jù)出現(xiàn)明顯異常,有經(jīng)驗(yàn)的數(shù)據(jù)使用者也可能會(huì)導(dǎo)出離線報(bào)表,嘗試通過IQR方法進(jìn)行數(shù)據(jù)清洗,才再進(jìn)行可視化。
在屠夫看來,在線可視化和離線報(bào)表的差異,就好比“看紀(jì)錄片”和“親自旅游”。
前者是有人預(yù)設(shè)鏡頭,向你展現(xiàn)選定的畫面和場(chǎng)景;后者是親臨其境,靠自己去探索、去體驗(yàn)、去嘗試。
紀(jì)錄片可以看,但親自旅游,少不了。
作者:屠夫1868,微信公眾號(hào):基業(yè)長(zhǎng)紅
本文由 @屠夫1868 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Pexels,基于CC0協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!