遇見大數(shù)據(jù)可視化系列文章(2):數(shù)據(jù)可視化基礎(chǔ)研究
數(shù)據(jù)可視化的目的是有兩個:一個是更好地分享和傳達數(shù)據(jù)信息,二個是通過設(shè)計之美有效地縮短信息的傳達。這是可視化的最根本的目的,可視化的定義在不同人眼中是不一樣的。
近日星巴克與微信推出的社交禮品功能“用星說”,可以說刷遍了朋友圈。無論你愛不愛喝咖啡,星巴克似乎都成為了一種文化象征。上班族青睞,小清新喜歡,基本上大家看到綠色的人魚標志就能馬上認出它來。
雖然一直也有喝咖啡的習慣,但至今不知道星巴克菜單版上列的【摩卡】、【拿鐵】、【美式】、【卡布奇諾】等等有什么區(qū)別。直到看到下列圖,才很直觀的了解到每個咖啡類別的區(qū)別是什么。
類似上圖示,針對內(nèi)容復制,難以形象表達的信息,通過圖形簡單清晰地向受眾呈現(xiàn)出來,這種圖稱之為信息圖。
信息圖
信息圖本身是一個合成詞,由信息和圖兩個詞組成多稱之為(Infographics或Infographics Graphics),在40年代的時候就開始出現(xiàn),使用在報紙及新聞類雜志方面,其中杰出的代表阿根廷的信息圖先驅(qū)Alejandro Malofiej,在1993年西班牙設(shè)立了以他為名的主要針對信息圖表設(shè)計的Malofiej獎。
在報紙、雜志等紙質(zhì)媒體中,為了讓讀者感到新奇且直觀容易的理解,運用了大量的信息圖解的表現(xiàn)。
如下圖所示:
信息圖早已融入我們的日常生活中,目的為了創(chuàng)造方便舒適的生活環(huán)境,使人們的生活變得更加更加安全舒適。
為什么人們會對信息圖的傳播內(nèi)容更有效呢?主要原因是因為視覺是人類最強的信息輸入方式,人類感知周圍世界最強的方式,在Brain Rules《大腦法則》一書中,發(fā)展分子生物學家John Medina寫道:“視覺是迄今我們最主要的感官,占用了我們大腦中一半的資源?!毙畔D提供了一種語境的方法(Language of Context),通過展示多個維度數(shù)值并且相互比較來為受眾提供語境,使我們更高效的把內(nèi)容反射到大腦中。
后來隨著技術(shù)的發(fā)展,除了傳統(tǒng)的紙質(zhì)媒體出現(xiàn)了以互聯(lián)網(wǎng)為主的電腦,電視,手機,大屏終端等更多類型的電子媒體。信息圖的分類也逐步劃分為:圖解(Diagram) 、圖表(Chart) 、 表格(Table) 、統(tǒng)計圖(Graph) 、 地圖(Map)和圖形符號(Pictogram)這幾部分。
- 圖解Diagram?– 主要運用插圖對事物進行說明
- 圖表 Chart?– 運用圖形、線條及插圖等,闡明事物的相互關(guān)系
- 表格 Table?– 根據(jù)特定信息標準進行區(qū)分,設(shè)置縱軸與橫軸
- 統(tǒng)計圖 Graph?– 通過數(shù)值來表現(xiàn)變化趨勢或進行比較
- 地圖 Map?– 描述在特定區(qū)域和空間里的位置關(guān)系
- 圖形符號 Pictogram?– 不使用文字,運用圖畫直接傳達信息
在以紙質(zhì)媒體為主的報刊雜志的傳統(tǒng)行業(yè)中信息圖是對實際事物的描述, 而在互聯(lián)網(wǎng)行業(yè)中側(cè)更多的是對數(shù)據(jù)的描述。將數(shù)據(jù)圖形化的過程又稱之為數(shù)據(jù)可視化。把數(shù)據(jù),包括測量獲得的數(shù)值、圖像或是計算中涉及、產(chǎn)生的數(shù)字信息變?yōu)橹庇^的、以圖形圖像信息表示的、隨時間和空間變化的物理現(xiàn)象或物理量呈現(xiàn)出來。
我們來看一組簡單的數(shù)據(jù),比較下圖形和數(shù)據(jù)對于人腦感觀的差異。
這組數(shù)據(jù)包括I、II、III、IV,一共四組,每組有X和Y兩個維度。數(shù)據(jù)很簡單,但從數(shù)據(jù)上來看,你能說出這四組數(shù)據(jù)的區(qū)別嗎?
從數(shù)據(jù)上很難看出有什么區(qū)別,因為每組數(shù)據(jù)看上去都十分的相近。下面我們把這四組數(shù)據(jù)轉(zhuǎn)換成圖表來進行對比下。
通過圖表的比較,我們很容易就能找出這四組數(shù)據(jù)的區(qū)別了。I組數(shù)據(jù)呈現(xiàn)整體離散向上的趨勢。II組數(shù)據(jù)呈現(xiàn)弧度上升,然后再下降的趨勢。III組數(shù)據(jù)呈現(xiàn)線性上漲的趨勢,但有一個點突出。IV組數(shù)據(jù)呈現(xiàn)Y坐標不變X上升的趨勢,但有一點突出。
將數(shù)據(jù)圖形化后,大腦天然的會對圖形的不同點做出反應,從而更高效的理解數(shù)據(jù)帶來的意義。
我們再來看下其他例子:
將當前QQ的在線人數(shù),通過可視化的方式展示給用戶。把數(shù)據(jù)置于視覺控件中,這樣用戶就能很直觀的了解到QQ當前使用的人群分布在中國是怎么樣的,那里的人群分布多,那里的人群少。
Eric Fischer
針對Twitter?發(fā)短消息的位置和Flickr?拍照片的位置為數(shù)據(jù)源做的名為“看圖或說話”(SeeSomething or Say Something)的大數(shù)據(jù)可視化展示,通過簡單但大量的數(shù)據(jù),做出非常美的數(shù)據(jù)圖展示。
這種用圖形化對數(shù)據(jù)進行描述設(shè)計的過程,我們通常稱為【數(shù)據(jù)可視化】。有時候,可視化的結(jié)果可能只是一個條形圖表,但大多數(shù)的時候可視化的過程會很復雜的,因為數(shù)據(jù)本身可能會很復雜的。一般流程包括【數(shù)據(jù)收集】-【數(shù)據(jù)分析&清理】-【可視化設(shè)計】,從抽象的原始數(shù)據(jù)到可視化圖像。
要做出好的【數(shù)據(jù)可視化】,拆分出來核心要先了解什么是【數(shù)據(jù)】。
數(shù)據(jù)
數(shù)據(jù)是可視化的基礎(chǔ),它不僅僅是數(shù)字,要想把數(shù)據(jù)可視化,就必須知道它表達的是什么。根據(jù)Ben?Shneiderman的分類,信息可視化的數(shù)據(jù)分為以下幾類:
- 一維數(shù)據(jù):X軸一個維度如果1、2、3、4 ···
- 二維數(shù)據(jù):X,Y兩個二維度(1、2),(3、4),(5、6),(7、8)···
- 三維數(shù)據(jù):X,Y,Z三個維度(1、2、3),(4、5、6),(7、8、9) ···
- 多維數(shù)據(jù):X,Y,Z,···多個維度(1、2、3、4、···),(5、6、7、8、···)
- 時態(tài)數(shù)據(jù):具有數(shù)據(jù)屬性的數(shù)據(jù)集合。
- 層次數(shù)據(jù):具有等級或?qū)哟侮P(guān)系數(shù)據(jù)集合。
數(shù)據(jù)種類劃分是十分多的,但是這些數(shù)據(jù)都描述了現(xiàn)實的世界中的一部分,是現(xiàn)實世界的一個快照。除了類型,數(shù)據(jù)的數(shù)量級也影響這數(shù)據(jù)的表達結(jié)果。
小數(shù)據(jù)量(小于100)展示一下靜態(tài)結(jié)果,中數(shù)據(jù)量(1K~100K)呈現(xiàn)數(shù)據(jù)反映的事實,大數(shù)據(jù)量(大于1M+)用于研究分析,推測結(jié)果。
我們來看一個數(shù)據(jù):【2017年1月28號,成都PM2.5值245】,從這個數(shù)據(jù)里能看出什么,可能只是會覺得當天成都空氣質(zhì)量不好,我們可能會聯(lián)想到這個樣一個畫面。
好像就不能得出什么了。其實從單個小數(shù)據(jù)上來看,我們很難得到什么有價值的信息。
只能匹配出數(shù)據(jù)代表的當前的靜態(tài)狀態(tài)結(jié)果。所以要想發(fā)揮出數(shù)據(jù)可視化的作用,首先我們需要大量真實的數(shù)據(jù),知道數(shù)據(jù)的來龍去脈,把它作為一個整體來理解,關(guān)注全貌對原始數(shù)據(jù)了解得越多,打造的基礎(chǔ)就越堅實,也就越可能制作出令人信服的數(shù)據(jù)圖表。
OK,我們繼續(xù)豐富我們的原始數(shù)據(jù),在中國環(huán)境監(jiān)測總站(http://www.cnemc.cn/)的網(wǎng)站獲取到成都2017年整個1月份的PM2.5的數(shù)據(jù)。
中國環(huán)境監(jiān)測總站作為空氣質(zhì)量公開的數(shù)據(jù)來源,它提供了獲取數(shù)據(jù)的API接口。通過API接口我們可以獲取到原始數(shù)據(jù)。
原始數(shù)據(jù)一般包含的信息都比較多,什么PM2.5,、空氣質(zhì)量指數(shù)、PM10、一氧化碳、二氧化碳、臭氧、二氧化硫等等。我們只需要PM2.5的,所以清理數(shù)據(jù),把其他不必要的內(nèi)容去掉。然后導入到Excel表中,可以得到我們最終需要的數(shù)據(jù)。
有了【數(shù)據(jù)】下一步就可以開始做數(shù)據(jù)的【可視化】。
可視化
通俗地說,可視化設(shè)計的目的是“讓數(shù)據(jù)說話”,用圖形去講述數(shù)據(jù)的故事??梢暬且环N表達數(shù)據(jù)的方式,是現(xiàn)實世界的抽象表達。它像文字一樣,為我們講述各種各樣的故事。作為一種媒介,可視化已經(jīng)發(fā)展成為一種很好的故事講述方式。
我們把成都PM2.5的數(shù)據(jù),按照日期和當天的PM2.5指數(shù)做出最簡單圖形來,我們可以得到下面這類的圖表來。
這類的圖用Excel很簡單就能得到。我們可去修改下柱狀圖的配色,但它依然只是一個簡單的圖表,而不是好的可視化作品。
那什么是好的可視化作品呢?
好的可視化設(shè)計需要具備統(tǒng)計和設(shè)計方面的知識。沒有前者,可視化只是插圖和美術(shù)練習;沒有后者,可視化就只是研究分析結(jié)果。統(tǒng)計和設(shè)計的知識都只能幫助你完成數(shù)據(jù)圖形的一部分。
我們需要去講述數(shù)據(jù)的故事。那PM2.5代表的是什么,是當天天氣的情況,所以我們可以用天氣的維度去講述這個故事。
我們把成都2017年1月份的天氣照片的到,天氣好的時候天是藍色,PM2.5超標的時候是灰色。把它圖形化我們可以得到這樣一個展示,可以看出對于成都來說一個月中天氣好的時間是十分少的。
好的可視化設(shè)計能讓你有一見鐘情的感覺,你知道眼前的東西就是你想看到的。既可以是藝術(shù)的,同時又是真實的。而不是直接把數(shù)據(jù)轉(zhuǎn)換成圖表,找到數(shù)據(jù)和它所代表事物之間的關(guān)系按照“數(shù)字化敘事”去做設(shè)計,這是全面分析數(shù)據(jù)的關(guān)鍵,同樣還是深層次理解數(shù)據(jù)的關(guān)鍵。
我們在網(wǎng)上可以看到大量的優(yōu)秀的數(shù)據(jù)可視化圖,這些優(yōu)秀的作品都會以這種“數(shù)字化敘事”的方式,告訴用戶數(shù)據(jù)的意義。
這是哈佛做的一個數(shù)據(jù)可視化項目,將全球價15萬億美元的大宗交易表現(xiàn)在這里。地圖上的每個點都代表 1 億美元的進出口商品,十分的形象和震撼。
當然好的數(shù)據(jù)可視化圖都是不斷迭代優(yōu)化出來的,判斷是不是一個好的數(shù)據(jù)可視化可以按照以下的步驟去考慮?!灸阌惺裁磾?shù)據(jù)】 -> 【關(guān)于數(shù)據(jù)你想知道什么】 -> 【數(shù)據(jù)可視化的表現(xiàn)方式】 -> 【你看到了什么?有意義嗎?】。每一個問題的答案都取決于前一個答案,不斷的去問自己,每個環(huán)節(jié)有沒有問題,這樣才能做出最好的設(shè)計。
我們一直在講數(shù)據(jù)可視化的目的是有兩個:一個是更好地分享和傳達數(shù)據(jù)信息,二個是通過設(shè)計之美有效地縮短信息的傳達。這是可視化的最根本的目的,可視化的定義在不同人眼中是不一樣的。作為一個整體,可視化的廣度每天都在變化,但是這是一個新的領(lǐng)域,我們可以用一種全新的方式去認識世界的過程,數(shù)據(jù)可視化,改變對數(shù)據(jù)的呈現(xiàn)和思考方式。
參考資料
- 《圖解力》 – 木村博之
- 《數(shù)據(jù)之美》 – 邱南森
- 《可視化溝通》 – Randy Krun
- 《信息設(shè)計》 – Dopress Books
- Designing Data Visualizations with Noah Iliinsky – TED演講
- 信息可視化研究綜述 – 河北科技大學學報
相關(guān)閱讀
遇見大數(shù)據(jù)可視化系列文章(1):未來已來,變革中的數(shù)據(jù)可視化
作者:凱楊
來源:騰訊ISUX
我再來推薦一款,可視化圖表、2D/3D可視化Web前端開發(fā)平臺——數(shù)維圖(Sovit)
很有用,ヾ(≧?≦謝謝≧?≦)ノ。抱走大大。
有的信息圖太小了,看不清楚
所有圖都是裂的