平行坐標系:高維數據可視化分析的必備殺手锏

3 評論 4990 瀏覽 7 收藏 11 分鐘

編輯導語:數據可視化并不是簡單的把數據變成圖表,而是以數據為視角,看待世界,換句話說,數據可視化的客體是數據。如果能夠很好的運用平行坐標系,便能高效地進行高維數據可視化分析。

今天聊聊一種不太常見但又挺好用的可視化圖形:平行坐標系。

關于數據可視化,我們很久之前分享過Excel基礎圖表以及Excel進階圖表,都是Excel支持的我們常用的一些圖表邏輯。今天分享一個數據人應該見過但是不那么熟悉的圖形:平行坐標系(Parallel Coordinates)。

一、定義及適用場景

首先,聊聊平行坐標系的一些整體概述內容。

1. 基礎定義

平行坐標系,是一種含有多個垂直平行坐標軸的統計圖表。每個垂直坐標軸表示一個字段(維度),每個字段(維度)又用刻度來標明范圍,如下示例圖。

平行坐標系:高維數據可視化分析的必備殺手锏

這樣,一個多維的數據可以很容易地在每一條軸上找到“落點”,從而連接起來,形成一條折線。隨著數據增多,折線堆疊,分析者則有可能從中發現特性和規律,比如發現數據之間的聚類關系。

2. 歷史發展

大約在一百多年前,就已經有人運用平行坐標,來對復雜事件做可視化。

平行坐標系:高維數據可視化分析的必備殺手锏

在20世紀70年代,作為一種統計圖表,平行坐標系被特拉維夫大學的Alfred Inselberg系統發展起來。

3. 適用場景

平行坐標圖最適用于多維數據(尤其是維度大于3個時,3個以內的維度可以用散點圖)的分析和比較。例如,多個學科、多個考核指標、多個關鍵參數等。

當然,前提是用來比較的對象都具有這些維度。比如,一個經典的案例(下文中的場景案例2),是用平行坐標系來比較世界各國汽車在性能上的差異。對于汽車而言,這些維度是共有的(包括耗油量、汽缸數、加速度等等),因而適合比較。

二、圖表詳細邏輯

我們以一個例子,理解一下圖表的數據邏輯。

例如,某班主任想分析班級學生的優劣勢科目,以及每個學生的偏科情況。下面是具體數據表:

平行坐標系:高維數據可視化分析的必備殺手锏

做完平行坐標圖后:

平行坐標系:高維數據可視化分析的必備殺手锏

平行坐標系的每個坐標軸,很可能有不同的數據范圍,這一點很容易造成讀者誤解。作圖時,最好顯著標明每一根軸上的最小值、最大值。

使用平行坐標系時,如何確定軸的順序,是可以人為決定的。一般來說,順序會影響閱讀的感知和判斷。兩根坐標軸隔得越近,人們對二者的對比就感知地越強烈。因此,要得出最合適、美觀的排序方式,往往需要經過多次的試驗和比較。反過來講,嘗試不同的排布方式,也可能有助于得出更多的結論。

三、與其他圖表的關系

下面我們看一看平行坐標系和其他比較相似的圖表的對比。

1. 與折線圖

平行坐標系與折線圖完全不同。

平行坐標系:高維數據可視化分析的必備殺手锏

折線圖的數據是通過時間組織起來的(每個數據點之間包含著時間前后的關系),但平行坐標軸并沒有時間序列,它的坐標軸是可以人為設定順序的,點與點之間也沒有因果關系,折線并不代表趨勢。各個坐標軸之間也沒有因果關系。

2. 與桑吉圖

桑吉圖在之前的 路徑分析 中有過介紹。

平行坐標系:高維數據可視化分析的必備殺手锏

看著挺像的,但是桑吉圖有個重要的邏輯是:每個豎軸前后是有順序關系的,而平行坐標系沒有先后順序。

因此,桑吉圖更多作為用戶路徑先后順序的分析,以及層次拆分的分析。

3. 與雷達圖

其實,平行坐標系和雷達圖是最相近的。

平行坐標系:高維數據可視化分析的必備殺手锏

雷達圖表示的是多個維度上的分布情況,平行坐標系也是。因此可以將平行坐標系理解成雷達圖的展開。大多數情況下,這兩者確實可以互換。

四、劣勢以及交互提升

平行坐標系的弊端在于折線太多、看上去十分龐雜,過于凌亂。但平行坐標系在處理多維數據上的優勢,仍然是其他統計圖難以比擬的。尤其是,當平行坐標系配合交互功能使用時,其價值就會立刻顯現。

最好的解決方法是加入交互——“Brushing”,用戶可以通過“刷”的方法,在坐標軸上“刷”出他們想要探索的部分。基本操作是,用戶可以在每一根垂直坐標軸上“刷”出自己想要的范圍,處于范圍內的折線高亮,其余的呈灰度。這樣一來,我們既可以看到所有折線堆疊出來的整體景觀,又可以自由定制想看的范圍,可以說是“見樹又見林”。

當然,交互的設計可以不限于此,比如下圖將平行坐標系與表格結合起來,對于小型的數據集來說,會更加一目了然。

平行坐標系:高維數據可視化分析的必備殺手锏

此外,如下圖所示,也可以通過技術將繁雜的折線“捆”在一起(Bundling Technique),這樣,人們的視覺就更能集中于起始的刻度。

平行坐標系:高維數據可視化分析的必備殺手锏

五、典型案例

最后,我們看兩個典型的利用平行坐標系的案例。

1. 歷年世界500強排名

下圖總結了1955-2010年來的世界五百強公司排名、收入和利潤情況。

平行坐標系:高維數據可視化分析的必備殺手锏

每一根豎軸代表一年的排名,通過將每家公司歷年的排名描點、連線,就形成了一條折線。鼠標滑動時,相應的公司會高亮顯示,方便讀者探索它的興衰變化。例如上圖中,我們看到可口可樂公司的排名,盡管有所波動,但始終位于高位,并且穩中有升,在1994年達到巔峰,之后有所回落。

原文鏈接:https://fathom.info/fortune500/

2. 汽車參數對比

在平行坐標系的眾多簡介中,幾乎都會涉及到這個汽車的案例——數據包括上世紀70、80年代的32款汽車,以及這些汽車的氣缸數(cylinders)、引擎大?。╠isplacement)、每加侖汽油行駛的里程(MPG)、功率(horsepower)、重量(weight)等等。

平行坐標系:高維數據可視化分析的必備殺手锏

從圖中(Evans, no date),我們可以清晰地看出一些關系,例如從里程與氣缸數呈負相關、氣缸數與功率呈正相關。再比如,隨著時間發展,汽車越來越輕了。通過“Brushing”功能,還有更多新奇發現。

關于平行坐標系,我們就先介紹這些吧。如果大家對可視化圖表感興趣,后面我作為系列展開多分享分享。我覺得這種基礎的數據產品以及數據分析的知識點,還是有必要扎實掌握的。

#專欄作家#

NK冬至,公眾號:首席數據科學家,人人都是產品經理專欄作家。在金融領域、電商領域有豐富數據及產品經驗。擅長數據分析、數據產品等相關內容。

本文原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 當我們需要對所使用的高位數據進行數據分析的時候往往感到束手無策。

    來自山東 回復
  2. 太酷了,作者的這些文章,碼住學習了,希望能夠多掌握一些知識

    來自云南 回復
    1. 感謝關注~歡迎關注同名公號

      回復