如何運行數據可視化項目

0 評論 4050 瀏覽 10 收藏 12 分鐘

編輯導讀:產品每天都會產生海量的數據,將這雜亂的數據用圖表或者動畫等可視化的方式展現出來,提升可讀性。那么,如何運行一個數據可視化項目呢?本文作者從自身工作經歷出發,對此進行分析,希望對你有幫助。

每個數據可視化項目都始于需求,無論需求來自問題還是決策,每個項目都有特定的流程。首先,每個項目都需要數據進行可視化。在每個數據可視化項目中,都需要考慮許多因素來最大程度地降低風險并確保項目成功。

本文將解釋其中的許多概念以及可用于特定類型業務的一些用例。探索的關鍵主題之一是風險,因為在決定使用哪些數據以及特定圖表類型如何最好地表征數據時,最小化風險是一個關鍵因素。除了風險之外,團隊還可能面臨與數據無關的某些限制。需要考慮團隊中的人員和技能,因為這可能會限制可視化可以呈現給哪些受眾。

在設計數據分析項目時,我們常常想知道首先從哪里開始?從數據收集、清理、探索、分析和可視化,需要做很多工作才能獲得對業務可操作且有利可圖的洞察力。

步驟 1:了解業務問題

在項目開始時,重點是清楚了解工作的整體范圍、業務目標、利益相關者正在尋求的信息、他們希望你使用的分析類型以及關鍵的可交付成果。在開始分析之前定義這些元素很重要,因為它有助于提供更好的洞察力。此外,一開始就搞清楚很重要,因為在項目完成之前可能沒有另一個提問的機會。

步驟 2:了解數據集

此階段從初始數據收集開始,然后進行數據質量檢查、數據探索等活動,以發現對數據的初步見解,或檢測有趣的子集以形成隱藏信息的假設。我們可以使用多種工具來理解數據。根據數據集的大小,我們可以使用 Excel 來管理可管理的數據集,或者使用更嚴格的工具,如 R、Python、Alteryx、Tableau Prep 或 Tableau Desktop 來探索和準備數據以供進一步分析。

要記住的關鍵事項是確定關鍵變量以研究數據、查找錯誤(遺漏的數據、邏輯上沒有意義的數據、重復的行,甚至拼寫錯誤)或任何需要修改的缺失變量所以我們可以正確地清理數據。

重要的是要注意,在企業/業務環境中工作時,讓對源系統具有敏銳知識的人員(例如 DBA)參與進來會有所幫助,他們可以幫助理解和提取數據。

步驟 3:數據準備

一旦組織了數據并確定了所有關鍵變量,我們就可以開始清理數據集。在這里,我們將處理缺失值(替換為均值、刪除行或替換為最符合邏輯的值)、創建新變量以幫助對數據進行分類并刪除重復項。數據準備任務可能會執行多次,并且沒有任何規定的順序。在此步驟之后,最終數據集已準備好輸入建模工具進行進一步分析。

從業務角度來看,在整個數據準備過程中,需要不斷加深對數據結構、內容、關系和派生規則的理解。必須驗證數據是否處于可用狀態,并且可以管理其缺陷,并了解將其轉換為用于報告和可視化的有用數據集需要什么。在這種情況下,利用數據剖析可以幫助探索企業源系統中的實際內容和關系。數據分析可以像編寫一些 SQL 語句一樣簡單,也可以像專用工具一樣復雜。例如,Tableau 的數據準備是用于分析小型項目數據的絕佳工具。對于企業,很多ETL供應商提供了多種工具,可以根據業務的需要和預算進行選擇。

步驟 4:建模

在這一步中,我們將使用各種建模技術來測試數據并尋找給定目標的答案。通常,同一數據挖掘問題類型有多種技術,對數據形式有一些特定要求。常見模型包括線性回歸、決策樹和隨機建模等。

步驟 5:驗證

一旦我們完成構建模型(或多個模型)并進行最終部署,就必須徹底評估模型并審查構建模型所執行的步驟,以確保其正確實現業務目標。模型是否正常工作?數據是否需要更多清洗?你找到客戶想要回答的結果了嗎?如果沒有,可能需要再次執行前面的步驟。

在此步驟中,關鍵是確定問題、定義、轉換規則和數據質量挑戰,并將其記錄下來以備將來參考。從商業角度來看,這樣的文檔對于未來的用戶很有用。維護問題列表并驗證數據驗證期間面臨的新問題可以顯著提高項目質量,并有助于擴大未來改進的范圍并定義業務的基礎設施需求。

步驟 6:可視化

模型的創建通常不是項目的結束。即使模型的目的是增加對數據的了解,也需要以對客戶有用的方式組織和呈現派生的信息。根據要求,此步驟可以像生成報告一樣簡單,也可以像實施可重復的數據評分(例如段分配)或數據挖掘過程一樣復雜。

在許多情況下,數據可視化對于將你的發現傳達給客戶至關重要。并非所有客戶都精通數據,而 EasyV、Tableau 等交互式可視化工具對于向客戶說明你的結論非常有用,能夠用你的數據講故事,有助于向客戶解釋你的發現的價值。

與任何其他項目一樣,清楚地確定業務目標很重要。將流程分解為多個步驟將確保我們為客戶提供最好的可交付成果。

第 7 步:文檔

數據可視化項目中步驟的一個重要補充是文檔。與課堂上完成的項目類似,該文檔應簡要描述項目、數據來源、數據概況和質量、數據的局限性或在數據使用過程中出現的情況、引入的關鍵轉換和模型及其影響或有用性,提高可視化質量。最后,本文檔還應注意在處理數據或創建可在未來解決的特定可視化時遇到的問題。

數據可視化項目流程概述:

在啟動任何項目之前,最重要的是讓合適的參與者參與進來。這些參與者可以是委托數據可視化項目的企業主或將積極使用數據可視化的主要利益相關者。業務代表的參與對于首先確定項目需求并實現需求和成功定義的共同點最為重要。參與和協作極大地增加了由此產生的可視化解決業務需求的可能性。同樣,組織的數據用戶也應該參與其中,尤其是在討論他們負責管理的數據時。創建數據可視化應該是一個高度迭代和動態的過程。

從數據可視化中尋找洞察力:

可視化能夠發現模式和洞察力,這些模式和洞察力可能是已知的和顯而易見的,也可能是新的和出乎意料的。人們應該尋求可用于講故事的見解,而不僅僅是期望可視化本身來說明一個故事。洞察力可以代表不同的事物,例如故事的開頭或數據中的錯誤,因此,為了確保從數據和可視化中找到洞察力的有效方法,以下步驟很有幫助并且可以重復。

1.可視化允許對數據集進行獨特的處理,并且可以通過多種不同的方式完成,例如圖表、表格、地圖和圖形。例如,轉發的信息應該提供有助于查看者做出商業決策的寶貴見解。帳戶規劃領域的領導者喬恩·斯蒂爾 (Jon Steel) 對查看和理解數據表示以下看法:“在廣告公司的背景下,規劃人員與其他人一樣查看相同信息并看到不同內容的能力是無價的。他們需要能夠獲取各種信息,將其隨機排列,并以新的模式重新排列,直到出現有趣的東西?!绷己玫?strong>數據可視化不僅能傳達可操作的信息,還能幫助您看到其他人可能看不到的東西。

2.分析和解釋所看到的。在此步驟中,問自己以下問題:我可以在這張圖片中看到什么?是我的預期嗎?有什么有趣的圖案嗎?這在數據上下文中意味著什么?這些問題不僅可以幫助你在可視化中找到意義,而且還可以向你表明,盡管可視化看起來不錯,但可視化并沒有告訴你與數據相關的任何內容。

3.記錄見解和步驟。這一步的記錄可以在你查看數據之前開始。通常,我們在開始使用數據集之前對數據集有期望和假設,并且選擇特定數據是有原因的。這些想法可以被記錄下來,讓我們能夠識別我們的先入之見,并通過找到我們預期的東西來降低誤讀數據的風險。文檔是最關鍵但也是最容易被跳過的步驟。文檔提供了創建圖表的上下文,從而消除了查看多組圖表時可能出現的任何混淆。記錄時需要注意的一些事項包括: 為什么我創建了這個圖表?我對數據做了什么來創建它?這張圖表告訴我什么?

4.轉換數據集。此步驟允許探索更多模式和發現。根據先前步驟形成的見解,可能會出現更多有關數據或發現的問題,并且可能需要進一步檢查或分析。這可以通過諸如縮放(將數據點聚合為單個組)、過濾和異常值去除等轉換來完成。

 

本文由 @阿木木 原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自Pexels,基于 CC0 協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!