亚洲亚洲人成网站,亚洲一区二区三区国产精品无码

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

干貨推薦｜數據可視化的五個步驟

白桃汽水不加冰

2016-01-15

0 評論 18099 瀏覽 163 收藏

12 分鐘

數據被稱作是最新的商業原材料「21世紀的石油」。商業領域、研究領域、技術發展領域使用的數據總量非常巨大，并持續增長。就Elsevier而言，每年從ScienceDirect下載的文章有7億篇，Scopus上的機構檔案有8萬個、研究人員檔案有 1 千 3 百萬，Mendeley上的研究人員檔案有 3 百萬。對于用戶來說，從這個數據海洋中抓到關鍵信息越來越難。

許多先進的可視化方式(如：網絡圖、3D 建模、堆疊地圖)被用于特定用途，例如 3D 醫療影像、模擬城市交通、救災監督。但無論一個可視化項目有多復雜，可視化的目的是幫助讀者識別所分析的數據中的一種模式或趨勢，而不是僅僅給他們提供冗長的描述，諸如：“ 2000 年 A 的利潤比 B 高出 2.9 % ，盡管 2001 年 A 的利潤增長了 25 % ，但 2001 年利潤比 B 低 3.5 % ”。出色的可視化項目應該總結信息，并把信息組織起來，讓讀者的注意力集中于關鍵點。

對于 Elsevier’s Analytical Services 的項目而言，我們一直在尋找提升數據分析和可視化的方式。例如，在我們對于研究表現的分析中有大量關于研究合作的數據;我們為 Science Europe 提供的報告(Comparative Benchmarking of European and US Research Collaboration and Researcher Mobility) 包含跨州合作以及國際合作的數據，這些數據不適合直接用二維表和X-Y圖展示。

為了探索數據背后的故事，我們使用了網絡關系圖來識別國家間的合作，并了解每個合作關系的影響。

本文提供一份包含五個步驟的數據可視化指南，為想用表格、圖形來傳播觀察結果、解讀分析結果的人士提供幫助。要記住，建立好的可視化項目是一個反復迭代的過程。

第1步-明確問題

開始創建一個可視化項目時，第一步是明確要回答的問題，又或者試著回答下面的問題“這個可視化項目會怎樣幫助讀者?”

3條數據記錄

表 1–數據集中的三條記錄

較差的直方圖

圖1-槽糕的可視化項目并不澄清事實，而是引人困惑。此圖中包含太多變量

清晰的問題可以有助于避免數據可視化的一個常見毛?。喊巡幌喔傻氖挛锓旁谝黄鸨容^。假設我們有這樣一個數據集(見表 1 )，其中包含一個機構的作者總數、出版物總數、引用總數和它們特定一年的增長率。

圖1是一個糟糕的可視化案例，所有的變量都被包含在一張表格中。在同一張圖中繪制出不同類型的多個變量，通常不是個好主意。

注意力分散的讀者會被誘導著去比較不相干的變量。

比如，觀察出所有機構的作者總數都少于出版物總數，這沒有任何意義，又或者發現 Athena University、Bravo University、Delta Institution 三個研究機構的出版物總數依次增長，也沒有意義。擁擠的圖表難以閱讀、難以處理。在有多個 Y 軸時就是如此，哪個變量對應哪個軸通常不清晰。簡而言之，槽糕的可視化項目并不澄清事實而是引人困惑。

第2步-從基本的可視化著手

確定可視化項目的目標后，下一步是建立一個基本的圖形。它可能是餅圖、線圖、流程圖、散點圖、表面圖、地圖、網絡圖等等，取決于手頭的數據是什么樣子。在明確圖表該傳達的核心信息時，需要明確以下幾件事：

我們試圖繪制什么變量?
X 軸和軸代表什么?
數據點的大小有什么含義嗎?
顏色有什么含義嗎?
我們試圖確定與時間有關趨勢，還是變量之間的關系?

有些人使用不同類型的圖表實現相同目標，但并不推薦這樣做。不同類型的數據各自有其最適合的圖表類型。

比如，線形圖最適合表現與時間有關的趨勢，亦或是兩個變量的潛在關系。當數據集中的數據點過多時，使用散點圖進行可視化會比較容易。

此外，直方圖展示數據的分布。直方圖的形狀可能會根據不同組距改變，見圖 2 。(在繪制直方圖時，本質是在繪制柱狀圖來展示特定范圍內有多少數據點。這個范圍叫做組距。)

直方圖

圖2-當組距變化，直方圖的形狀也發生變化。

組距太窄會導致起伏過多，讓讀者只盯著樹木卻看不到整個森林。此外，你會發現，在完成下一個步驟以后，你可能會想要修改或更換圖表類型。

第3步-確定最能提供信息指標

假設我們有另一個關于某研究機構出版物數量的數據庫(見表 2 )?？梢暬^程中最關鍵的步驟是充分了解數據庫以及每個變量的含義。從表格中可以看出，在 A 領域(Subject A)，此機構出版了 633 篇文章，占此機構全部文章的 39% ;相同時間內全球此領域共出版了 27738 篇文章，占全球總量的 44% 。注意，B 列中的百分比累計超過 100% ，因為有些文章被標記為屬于多個領域。

在這個例子中，我們想了解此機構在各個領域發表了多少文章。出版數量是一個有用的指標，不僅如此，與下面這些指標對照會呈現出更多信息：

此領域的研究成果總量( B 列)
此領域的全球活躍程度

由此，我們可以確定一個相對活躍指標，1.0 代表全球平均活躍程度。高于 1.0 代表高于全球水平，低于 1.0 代表低于全球水平。用 B 列的數據除以 D 列，得到這個新的指標，見表 2 。

數據庫

表2-用B列的數據除以D列，得到新的指標：相對活躍程度(E欄)。

第4步-選擇正確的圖表類型

現在我們可以用雷達圖來比較相對活躍指數，并著重觀察指數最高/最低的研究領域。例如，此機構在 G 領域的相對活躍指數最高( 1.8 )，但是，此領域的全球總量遠遠小于其他領域(見圖 3 )。雷達圖的另一個局限是，它暗示各軸之間存在關系，而在本案例中這關系并不存在(各領域并不相互關聯)。

雷達圖

圖3-相對活躍指數雷達圖

數據的規范化(如本例中的相對活躍指數)是一個很常見也很有效的數據轉換方法，但需要基于幫助讀者得出正確結論的目的使用。如在此例中，僅僅發現目標機構對某個小領域非常重視沒太大意義。

我們可以把出版量和活躍程度在同一個圖表中展示，以理解各領域的活躍程度。使用圖 4 的玫瑰圖，各塊的面積表示文章數量，半徑長短表示相對活躍指數。注意在此例中，半徑軸是二次的(而圖 3 中是典型線性的)。圖中可以看出，B 領域十分突出，擁有最大的數量(由面積表示)和最高的相對活躍程度(由半徑長度表示)。

玫瑰圖