干貨推薦|數據可視化的五個步驟
數據被稱作是最新的商業原材料「21世紀的石油」。商業領域、研究領域、技術發展領域使用的數據總量非常巨大,并持續增長。就Elsevier而言,每年從ScienceDirect下載的文章有7億篇,Scopus上的機構檔案有8萬個、研究人員檔案有 1 千 3 百萬,Mendeley上的研究人員檔案有 3 百萬。對于用戶來說,從這個數據海洋中抓到關鍵信息越來越難。
許多先進的可視化方式(如:網絡圖、3D 建模、堆疊地圖)被用于特定用途,例如 3D 醫療影像、模擬城市交通、救災監督。但無論一個可視化項目有多復雜,可視化的目的是幫助讀者識別所分析的數據中的一種模式或趨勢,而不是僅僅給他們提供冗長的描述,諸如:“ 2000 年 A 的利潤比 B 高出 2.9 % ,盡管 2001 年 A 的利潤增長了 25 % ,但 2001 年利潤比 B 低 3.5 % ”。出色的可視化項目應該總結信息,并把信息組織起來,讓讀者的注意力集中于關鍵點。
對于 Elsevier’s Analytical Services 的項目而言,我們一直在尋找提升數據分析和可視化的方式。例如,在我們對于研究表現的分析中有大量關于研究合作的數據;我們為 Science Europe 提供的報告(Comparative Benchmarking of European and US Research Collaboration and Researcher Mobility) 包含跨州合作以及國際合作的數據,這些數據不適合直接用二維表和X-Y圖展示。
為了探索數據背后的故事,我們使用了網絡關系圖來識別國家間的合作,并了解每個合作關系的影響。
本文提供一份包含五個步驟的數據可視化指南,為想用表格、圖形來傳播觀察結果、解讀分析結果的人士提供幫助。要記住,建立好的可視化項目是一個反復迭代的過程。
第1步-明確問題
開始創建一個可視化項目時,第一步是明確要回答的問題,又或者試著回答下面的問題“這個可視化項目會怎樣幫助讀者?”
表 1–數據集中的三條記錄
圖1-槽糕的可視化項目并不澄清事實,而是引人困惑。此圖中包含太多變量
清晰的問題可以有助于避免數據可視化的一個常見毛?。喊巡幌喔傻氖挛锓旁谝黄鸨容^。假設我們有這樣一個數據集(見表 1 ),其中包含一個機構的作者總數、出版物總數、引用總數和它們特定一年的增長率。
圖1是一個糟糕的可視化案例,所有的變量都被包含在一張表格中。在同一張圖中繪制出不同類型的多個變量,通常不是個好主意。
注意力分散的讀者會被誘導著去比較不相干的變量。
比如,觀察出所有機構的作者總數都少于出版物總數,這沒有任何意義,又或者發現 Athena University、Bravo University、Delta Institution 三個研究機構的出版物總數依次增長,也沒有意義。擁擠的圖表難以閱讀、難以處理。在有多個 Y 軸時就是如此,哪個變量對應哪個軸通常不清晰。簡而言之,槽糕的可視化項目并不澄清事實而是引人困惑。
第2步-從基本的可視化著手
確定可視化項目的目標后,下一步是建立一個基本的圖形。它可能是餅圖、線圖、流程圖、散點圖、表面圖、地圖、網絡圖等等,取決于手頭的數據是什么樣子。在明確圖表該傳達的核心信息時,需要明確以下幾件事:
- 我們試圖繪制什么變量?
- X 軸和軸代表什么?
- 數據點的大小有什么含義嗎?
- 顏色有什么含義嗎?
- 我們試圖確定與時間有關趨勢,還是變量之間的關系?
有些人使用不同類型的圖表實現相同目標,但并不推薦這樣做。不同類型的數據各自有其最適合的圖表類型。
比如,線形圖最適合表現與時間有關的趨勢,亦或是兩個變量的潛在關系。當數據集中的數據點過多時,使用散點圖進行可視化會比較容易。
此外,直方圖展示數據的分布。直方圖的形狀可能會根據不同組距改變,見圖 2 。(在繪制直方圖時,本質是在繪制柱狀圖來展示特定范圍內有多少數據點。這個范圍叫做組距。)
圖2-當組距變化,直方圖的形狀也發生變化。
組距太窄會導致起伏過多,讓讀者只盯著樹木卻看不到整個森林。此外,你會發現,在完成下一個步驟以后,你可能會想要修改或更換圖表類型。
第3步-確定最能提供信息指標
假設我們有另一個關于某研究機構出版物數量的數據庫(見表 2 )??梢暬^程中最關鍵的步驟是充分了解數據庫以及每個變量的含義。從表格中可以看出,在 A 領域(Subject A),此機構出版了 633 篇文章,占此機構全部文章的 39% ;相同時間內全球此領域共出版了 27738 篇文章,占全球總量的 44% 。 注意,B 列中的百分比累計超過 100% ,因為有些文章被標記為屬于多個領域。
在這個例子中,我們想了解此機構在各個領域發表了多少文章。出版數量是一個有用的指標,不僅如此,與下面這些指標對照會呈現出更多信息:
- 此領域的研究成果總量( B 列)
- 此領域的全球活躍程度
由此,我們可以確定一個相對活躍指標,1.0 代表全球平均活躍程度。高于 1.0 代表高于全球水平,低于 1.0 代表低于全球水平。用 B 列的數據除以 D 列,得到這個新的指標,見表 2 。
表2-用B列的數據除以D列,得到新的指標:相對活躍程度(E欄)。
第4步-選擇正確的圖表類型
現在我們可以用雷達圖來比較相對活躍指數,并著重觀察指數最高/最低的研究領域。例如,此機構在 G 領域的相對活躍指數最高( 1.8 ),但是,此領域的全球總量遠遠小于其他領域(見圖 3 )。雷達圖的另一個局限是,它暗示各軸之間存在關系,而在本案例中這關系并不存在(各領域并不相互關聯)。
圖3-相對活躍指數雷達圖
數據的規范化(如本例中的相對活躍指數)是一個很常見也很有效的數據轉換方法,但需要基于幫助讀者得出正確結論的目的使用。如在此例中,僅僅發現目標機構對某個小領域非常重視沒太大意義。
我們可以把出版量和活躍程度在同一個圖表中展示,以理解各領域的活躍程度。使用圖 4 的玫瑰圖,各塊的面積表示文章數量,半徑長短表示相對活躍指數。注意在此例中,半徑軸是二次的(而圖 3 中是典型線性的)。圖中可以看出,B 領域十分突出,擁有最大的數量(由面積表示)和最高的相對活躍程度(由半徑長度表示)。
圖4-玫瑰圖。此圖中各塊面積表示文章數量,半徑長短表示相對活躍指數(E列)。
第5步-將注意力引向關鍵信息
用肉眼衡量半徑長度可能并不容易。由于在本例中,相對活躍指數的 1.0 代表此領域的全球活躍程度,我們可以通過給出 1.0 的參照值來引導讀者,見圖 5 。這樣很容易看出哪些領域的半徑超出參考線。
圖5-帶有相對活躍指數參考線的玫瑰圖
我們還可以使用顏色幫助讀者識別出版物最多的領域。如圖例所示,一塊的顏色深淺由出版物數量決定。為了便于識別,我們還可以把各領域名稱作為標簽(見圖 6 )。
圖6-玫瑰圖中的顏色深淺代表出版物數量(顏色越亮,出版物越多)
結論
數據可視化的方法有很多。新的工具和圖表類型不斷出現,每種都試圖創造出比之前更有吸引力、更有利于傳播信息的圖表。我們的建議是記住以下原則:可視化項目應該去總結關鍵信息并使之更清晰直白,而不應該令人困惑,或用大量的信息讓讀者的大腦超載。
原作者:Georgin Lau and Lei Pan
翻譯:王鵬宇
via:Datartisan數據工匠
原文地址:http://www.36dsj.com/archives/39986
- 目前還沒評論,等你發揮!