簡單5步,輕松學會數據可視化

0 評論 8405 瀏覽 14 收藏 23 分鐘

作者對現有的可視化工具專職為部分數據可視化人群和職能的現象不滿意,認為不能孤立的看數據處理的每個步驟下的數據可視化。他認為最好的看待數據可視化的方式就是不要受限于角色或工具,而是專注于在數據處理過程中哪里需要使用到數據可視化。作者介紹了在數據生命周期中,數據可視化是如何參與到每個階段并產生影響力的。

如今你能看到的任何地方,特別是在數據驅動的組織機構,你會發現數據可視化。

數據可視化是現代公司締造影響力的關鍵要素,存在于每個工具和工作流程里。

它不僅僅是數據工程師、數據科學家、數據分析員的工作中重要的部分,也是那些職位名稱中不帶“數據”的人的工作重要部分。數據可視化出現在產品演示中,在 Slack 上的臨時通訊中、在提交給股東的領導層報告中,甚至在營銷材料中。我們希望改變人們經常在數據可視化中看到的以工具為中心和以角色為中心的設計方法,這些方法強迫用戶在工具間或者不同角色的權限墻中來回跳躍。

在 Noteable,我們很清楚地設計了視覺可視化來反映當今人們在工作中如何使用數據,而不是他們在 15 年前如何使用數據。無論數據工作者的職位名稱是什么,無論數據消費者在解決的問題是什么,我們正在研究他們的期望是如何增長并融合的。

我們希望改變人們經常在數據可視化中看到的以工具為中心和以角色為中心的設計方法,這些方法強迫用戶在工具間或者不同角色的權限墻中來回跳躍。我們感覺通過從其他方法中引入優勢,會鼓勵數據可視化表達的多樣性。

這意味著,即使我們在開發一個計算筆記本【1】產品,我們仍然需要跳出傳統筆記本的局限性,去看數據可視化,并將其置于更廣闊的背景下,即每個人如何使用數據可視化。

(【1】計算筆記本(computational notebook):指能讓用戶將說明文本、數學方程、代碼和可視化內容全部組合到一個易于共享的文檔中的工具。是特別適合數據科學使用的平臺,能讓數據科學家在同一個文檔中編寫代碼、分析數據和插入可視化。)

一、現有的工具往往傾向到具體工作/職能

創建可視化數據的設計工具無處不在的呈現與反映在各方面并沒有改變。

現有可用的工具通常與某個具體的使用案例相關,并針對案例進行優化。如果你是數據科學家,你會專注于驗證方法,通常你會使用 Jupyter notebooks 或者 RStudio;如果你是分析師,你可能會使用 Tableau 或者 Looker;如果你需要制作說明圖表,你是軟件開發你可能會使用 D3,如果你不是開發你可能會選擇 Powerpoint;如果你從業于金融或人力資源,你可能會選擇Excel。

二、很多工具在數據科學興起前已存在

這些工具是在數據素養更低、數據驅動的組織機構更少、以及技術限制導致工具功能受限時設計的。

當行業繼續發展,很多工具隨之發展的過程和特定的數據、數據處理方法及專業角色結合得太過緊密,導致這些工具讓人感覺過于專業化,例如主要為數據分析師使用的BI(商業智能)工具。

數據處理方法和工具的緊密耦合也是數據角色演變后的結果,隨著它們的成熟,反而加強了讓工具定義工作:研究生課程宣傳如何通過學習 python 計算筆記本成為一名數據科學家,訓練營告訴你要學 D3 軟件這樣你才可以成為一名數據可視化開發,無數的工作坊幫助你學習 Tableau 軟件來成為一名分析師。

但是由 分析師 / 數據科學家 / 產品經理 所做的工作并不是離散的、孤立的數據可視化片刻。在這些領域中用的某一數據處理方法在本質上和在另一領域用到的沒有任何不同。恰恰相反:如果將一種方法中使用到的技能和方法結合到另一種方法中,可能會非常有用。

我們看到這些步驟是孤立的,不是因為這是使用它們的最佳方式,而是因為它們目前是處于孤立狀態下運行的。這就是為什么我們應該避開“分析師做的數據可視化與數據科學家做的不一樣”的觀點。我們看到這些步驟是孤立的,不是因為這是使用它們的最佳方式,而是因為它們目前是處于孤立狀態下運行的。這就是便利規則被創建的原因,例如“不要用餅圖”或“從不使用彩虹配色方案”或“最大化你的 數據墨水比 【2】”。

即使在孤立狀態之外的進行數據分析任務時,這些便利規則仍會受到挑戰,但這些步驟是將原始數據轉化為洞察和行動的過程的一部分。這個過程橫跨從早期對數據的完全探索到最后給股東和領導層的匯報。

(【2】數據墨水比(Data-Ink-Ratio):圖形中的數據墨水量除以圖形中的總墨水量,即在展示介質/頁面上,用于展示數據所用的“墨水”量與介質/頁面上全部“墨水”量之間的比值。其中數據墨水指的是圖表中不可刪除的核心內容。數據墨水比值越大,即意味著數據可視化圖表中的冗余信息越少,不可刪除的核心內容越多。)

三、數據可視化生命周期

簡單5步,輕松學會數據可視化

最好的看待數據可視化的方式就是不要受限于角色或工具,而是專注于數據處理過程中哪里需要使用到數據可視化。

這些孤立離散的步驟中每一個都需要數據可視化的特別功能,從對原始數據的探索數據分析,到驗證數據的假設、解釋數據模式,再到將生成的圖表產品化為定期的報告和其他數據資源。

組織或機構試圖尋找數據的日子早已將一去不復返了,現在他們輕易能獲得大量數據,而挑戰變成了:如何從中定位正確的數據并將這些數據摘要給到正確的人。讓我們來看下每個步驟,了解當今數據可視化如何應用與支撐工作。

1. 探索性數據分析

簡單5步,輕松學會數據可視化

探索性數據分析(EDA)指的是 當數據可視化是用來理解數據的模式和形狀,而不是來解釋解釋這些模式。

當它最常放在數據科學的背景下討論時(使用例如 ggplot2 和 vega-lite 等工具優化數據處理方法),它的最佳案例是數據訪問問題。組織或機構試圖尋找數據的日子早已將一去不復返了,現在他們輕易能獲得大量數據,而挑戰變成了:如何從中定位正確的數據并將這些數據摘要給到正確的人。

為了支持探索性數據分析,數據工程師持續性的工作就是部署數據可視化來展示數據源的形狀、數據的沿襲【5】、以及它們如何加入到其他數據中。

在數據集還是分析師/數據科學家的眼中獨有的秘密之前,數據工程師早已在創建數據集并評估數據健康時用上了數據可視化。在這些數據源的視覺表達中,部分可能會繼續保留來提供有關數據源狀態的持續性報告,但一旦數據集【3】合或 數據工作流 【4】完工,大部分的此階段數據可視化會被拋棄。

【3】數據集(dataset):一組數據的集合,通常以表格形式出現。每一列代表一個特定變量。每一行都對應于某一成員的數據集的問題。

【4】數據工作流(data pipeline):數據工作流溝通了數據源和數據應用的目標,包含了一家公司內部的數據流動全過程。它是一個貫穿了整個數據產品或者數據系統的一個管道,它連接了不同的數據處理分析的各個環節,將整個龐雜的系統變得井然有序,便于管理和擴展,因此讓使用者能夠集中精力從數據中獲取所需要的信息,而不是把精力花費在管理日常數據和管理數據庫方面。

【5】數據延襲(data lineage):通常定義為一種數據生命周期,其中包括數據的來源以及數據隨時間推移的位置。該術語還可以描述數據經過不同過程時會發生什么。

用來構建這類模式的工具,例如 Superset,強調直接插入您的數據,讓您可以在不同的圖表和設置之間快速切換。這種快速高效地可視化任何數據集的能力,無論它是關于什么的,再怎么強調都不為過。

任何數據可視化處理的第一步幾乎總是先看一看表格的一些行,不是因為這是可視化數據的最佳方式,而是因為表格幾乎適用于所有數據集。

通常股東僅需要訪問并概覽數據,他們會接受表格視圖,因為這快捷又方便。探索性數據分析(EDA)在數據科學的領域特別突出,它在一開始與上面已經描述的類似,但很快就轉向更集中的方法,這些方法屬于數據可視化生命周期的下一步。

2. 假說的生成和驗證

簡單5步,輕松學會數據可視化

數據可視化中最和工作相關的方面是生成和驗證假說。

這和探索性數據分析(EDA)很像,但是更加具體,因為它在單純的探索之外更深入數據的清晰申明。在數據科學的工作流程里,假說的生成和驗證是通過具有分面等強大功能和處理幾乎能處理所有類型數據的工具 —— 比如 ggplot2 和 vega —— 來完成的。這些工具通常還提供可用的功能來展示統計數據的顯著性和不確定性,這是數據可視化生命周期里的其他部分所缺少的。統計測試,特別是 A/B 測試,可能會使用更定制化的界面并利用統計摘要的復雜表格來展示,為了方便那些非數據科學家進行假說的驗證。

機器學習是數據可視化在假設生成部分占有重要地位的另一個主要領域。數據可視化可能提供非常不同的形式來支持機器學習的工作流程:目標是優化特定數字(例如混淆矩陣的某些方面)以驗證你的假說,然后對隨機樣本進行可視化來嘗試確認沒有偏差。

3. 說明圖

簡單5步,輕松學會數據可視化
驗證假說是不夠的,你必須向觀眾解釋它。

可能存在同樣有效的競爭方法,即使沒有,公司也沒有無限的資源來追求每一種驗證方法。數據可視化僅讓建立它的人能理解是不夠的,它需要被那些參與到圍繞可視化數據決策的的人們所無障礙地理解并相信。

這是從業人員真正的盲點領域,他們會很驚訝在他們分析中用到的圖表在報告中沒有那么有效。即使這個假說簡單到是“這件事很重要”,下一件需要做到的事就是讓這個假說對于不熟悉原始創建者的數據集和方法的受眾而言更加清楚。

你可以使用正式的 BI (商業智能)工具以及數據可視化庫來完成此操作,它們能風格化并裝飾那些在早期步驟中創建的簡樸且雜亂的圖表。

有效的說明圖依賴于所有有效溝通的法則:編輯、上下文(情景)和清晰度。在前期數據分析探索中使用到(用來展示盡可能多的值)的配色方案被更深思熟慮過的顏色所取代,這些顏色強調了被分析的數據中的關鍵主題。圖表中元素上的標簽(比如如坐標軸)的格式更經過深思熟慮并弱化(不要那么視覺顯眼)。

遵循無數的數據可視化指南中描述的最佳實踐,圖表獲得了一個標題和一些文本來配合讀者。

注釋和上下文圖表進一步說明和簡單圖表不同,說明圖是為更多人設計的,而不僅僅是為了原始圖表創建者們。

4. 產品化

簡單5步,輕松學會數據可視化

讓圖表變得可閱讀并不是最后一件事,因為它需要讓它的受眾閱讀和分發。

大部分數據可視化指南忽略了這步,除非他們處理看板(dashboard)—— 他們真心地認為數據可視化的產品化的唯一方式就是把圖表都塞到看板里。但是圖表們有其他觸達到它們受眾的形式,無論是通過自動郵件、演講還是備忘錄。

產品化改變了圖表,它能讓圖表:增強合作(比如可以評論)、便于分享、易于交互和自動更新(或者用郵件報告的方式定期發布)。

因此,產品化可能就像讓在 Apple 和 Netflix 這樣公司里的數據可視化工程師們去搭建一個完全定制化的分享應用一樣,非常復雜和昂貴?;蛘弋a品化可能就像截圖一個圖表并把它塞到一個用于會議分享的文檔里一樣簡單。

現代的BI(商業智能)工具有能改進共享(它們工具構建的)看板的功能,其中還包括將看板共享為電子郵件報告。在定制化的應用和標準化的BI(商業智能)工具之間,還有例如 Dash 和 Streamlit 這樣的看板庫,可以快速地從上文提到的探索性數據分析(EDA)和假說生成這兩個模式中生成看板。除此之外,最有爭議的莫過于將圖表的圖片嵌入文檔了。

數據可視化的產品化,能像在 Notion, Coda, Quip, Confluence 或者 Google Docs 中插入圖表一樣簡單嗎?

在很多情況下,便于分享和提供評論功能,是產品化的核心需求,但這已經通過在線文檔里的靜態截圖完成了。這是最優解嗎?還差得遠了。圖表不能夠再繼續動態更新、截圖的人們可能會不小心裁剪掉關鍵信息。但很明顯,鑒于這種能夠在圖表上分享和評論的方法的頻率,收益仍大于缺陷。

5. 戰略方向

簡單5步,輕松學會數據可視化

產品化可能看上去也像是在數據額可視化生命周期里的最后一步,但不是。

除了在演講中的直接影響力之外,圖表還(消極地和積極地)有助于使用數據的知識共享、最佳實踐和指南。圖表是一個公司的生命之血。如果公司想要改進它如何使用數據可視化,他們只能在評估如何使用數據可視化時才能做到這一點。

即使沒有積極的數據可視化評估,圖表仍然影響著一個公司的戰略方向。因為圖表提純和強調了指標。這些我們展示的指標、特別是在數據可視化生命周期中從探索活到產品化的指標,是認真投資的結果。

它們影響決策,但也影響著之后的指標。這就是為什么數據可視化是指標設計的一個關鍵方面。類似地,數據本身以及數據的轉變需要可視化。數據沿襲(數據生命周期)不僅包括ETL【6】過程中創建的數據、也包括讓數據在語義上足夠有意義來讓公司使用且決策的必需步驟。

(【6】ETL:是英文Extract-Transform-Load的縮寫,用來描述將數據從來源端經過抽?。╡xtract)、轉換(transform)、加載(load)至目的端的過程。)

最后,每個公司產生的圖表是公司里的人需要看的。這似乎是一個顯而易見的觀點,但圖表通過提高或限制數據素養的方式表示數據。

如果你的所有圖表都是條形圖或者折線圖,那么你所有的指標都只會是那些可以在那些條形圖和折線圖圖表上出現的那種,并且你所有的決策都將是基于這些指標的那種。

但是,如果你有顯示不確定性、分層數據、地型圖、過程圖、地圖和其他數據類型的圖表,那么你的公司將能夠根據此類數據做出決策。

因此,即使圖表已成功被部署,它仍然會影響你公司的數據素養。如果你想了解更多相關信息,請查看我的文章——《圖表能做什么》。

四、支持整個數據可視化生命周期

我決定與他人共同創立 Noteable 公司的原因之一是我堅信受眾和數據工具的融合,這是我在 2018 年 Tapestry 的主題演講中提出的觀點。在我嘗試預測未來時,我建議將“Dashtellingbooks”作為數據講故事、看板和計算筆記本的融合。自從那時起,我意識到構建支持現代數據可視化的產品不僅僅只需要不同工具形式的簡單組合。

在數據可視化上,我們需要關注的不僅僅是工具的產出;我們需要考慮這些工具如何適應現代數據方法,數據可視化發生在數據生命周期的每個點,而不僅僅是在最后。這就是我們在 Noteable 公司處理數據可視化的方式。這就是每個想要利用數據可視化的公司都應該采用的處理方式。

在 Noteable 公司,我們正在創建一個能支持整個數據可視化生命周期的工具:我們利用計算筆記本的力量來讓我們的用戶能探索、解釋和拓展他們的數據。

對于數據可視化生命周期的每一個階段,在未來我會寫得更加詳細,并闡明如何以整體化的方式去處理數據可視化的產品設計與應用設計,能更好地使用戶能夠充分利用數據可視化生命周期。

原文地址:https://medium.com/noteableio/designing-for-the-data-visualization-lifecycle-42d854cbf7d4

譯者:陳羽姿;微信公眾號:TCC翻譯情報局(ID:TCC-design)

本文由@TCC翻譯情報局 翻譯發布于人人都是產品經理,未經許可,禁止轉載

題圖來自 Unsplash,基于 CC0 協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!