五個方面,聊聊大數據可視化的初體驗
數據可視化常常需要通過統計圖來展現,不同類型的統計圖有著不同的使用場景以及使用方法。
距離上一次投稿快9個月了(感謝那些給我評論的人,還有給我賞的人),那時候我剛畢業正在一家醫院里工作,后來還是想要做一名產品經理。于是,在去年的中秋節我成功獲得了做醫療大數據產品的工作。剛入職的時候心里特別忐忑不安,怕做不好這份工作,現在也會因為想懂而無從下手的各種技術變得焦慮。在這半年的時光里,我的工作基本是根據課題項目的需求畫原型,并且是大數據可視化的前端頁面設計,有時候將項目的需求內容轉換到產品需求,再搭建好頁面結構和框架就會頭疼好幾天。接著將各種統計指標呈現在頁面上,如何美觀而又一目了然地展示這些結果,并能清晰地實現課題項目的目標,以及完整、直觀、生動地呈現產品要表達的“故事”,這是可視化和交互設計的重點內容。經過幾個項目的實踐,我想總結一下目前自己對可視化圖表和交互設計上的一些心得,希望收到大家的指點。
回憶以前學習和制作的統計圖,都是最基本的只有X軸、Y軸的單因素變量數據的靜態圖?,F在發現大數據之美就在于可以選擇多種維度、多種角度去發現數據變化規律,并通過比較分析,又能得到很多不同的結果。
數據可視化,常用統計圖來展現,包括折線圖、柱狀圖、餅圖、扇形圖、散點圖、雷達圖、統計地圖、儀表盤、漏斗圖、字符云等,這些類型經過不同的定義和交互設計,能夠衍生出多種統計圖的表達形式。但是想要熟練應用和衍生出統計圖,需要以清晰掌握各類型統計圖的含義和作用為前提,才能不僅滿足需求,更能滿足審美、及行業或學科的特性。
根據我的理解,我將統計圖分成以下5個方面來闡述我的一些工作中的心得體會。
一、折線圖
1. 基礎圖形展示
圖1是最基本的折線圖,如果將折線畫的光滑一點,就變成一條曲線,這時候我們也把它叫做曲線圖,如圖2。
圖1
圖2
2. 作用和價值
不論是折線,還是曲線,一眼看去,腦海就會想接下去的線條會向上,還是向下呢?
因此,折線圖的價值就在于呈現一個或者多個指標變量的發展和變化趨勢,并且能直觀的知道低谷值和高峰值。例如:股市漲跌、心律變化等場景就可以應用折線圖。
3. 變量要求和用法
既然是反應趨勢,且畫的線是連續的,那么自變量一定是可以切分相同間隔的連續變量或者周期變量。
4. 依據需求編故事
根據折線圖的作用和價值,故事的開頭自然是“隨著時間的變化”、“伴隨著年齡的增長”、“在這一段時間,某變量出現了低谷值和高峰值,根據標準區間可以進行告警”等。
5. 我的衍生折線圖及交互設計
如果有指標變量的單位或定義不同,也可以在右邊同樣加另一個Y軸,前提是不進行該指標變量與其他指標變量的比較,只是單獨想看該變量的自身發展趨勢。圖3,三個因變量單位和定義是一致的(只有一個縱軸),那么在同一年份,可以比較這三者數值大小。
圖2,將右邊的折線圖看作成一個畫板,點擊左邊的變量就可以出現該指標變量歷年情況,左邊框里統計的是總數。因此該衍生圖是一種總分效果圖,我覺得交互設計特別棒的點在于:一張簡單的圖和數據,可以像剝洋蔥一樣一層一層的扒開,并且每一層都有不同的內容。
二、柱狀圖
1. 基礎圖形展示
柱狀圖又稱條形圖、直方圖、柱形圖,以每個等寬長方形的長度不同來呈現因變量(統計指標)的數值大小的一種統計圖。通過對數據的分類組合,可以出現多個長方形為一組、且每組內的指標變量一致的柱狀圖,如圖6。
圖5
圖6
2. 作用和價值
看到柱狀圖,給人的感覺就是想把每條色塊(長方形)進行對比,看看誰高誰低。因此,柱狀圖最大的價值就在于它能夠顯示各組之間的比較情況。
然而如果自變量特征同于折線圖,那么柱狀圖也可以呈現數據變化趨勢。這時候就出現和折線圖相同的功能,因此連接每個長方形頂部中點,即能馬上可以做出折線圖。我們高中學過的正態分布,也用到柱狀圖來解釋。
3. 變量要求和用法
柱狀圖中每個長方形代表了一組數據,即因變量數據。每個長方形之間是不會重疊的,會保持良好的距離。因此與折線圖不同的是,柱狀圖的自變量類型可以是分類不連續的。比如圖6,橫軸的文字是對這三個長方形組成數據進行的定義。
4. 依據需求編故事
突然想到在做畢設的直方圖時候,如果實驗結果沒有你想要的那樣,那么故事編為:“雖然這兩組數據在統計學上沒有顯著性差異(P>0.05),但是在數值上兩者是有差異的,可能由于混雜因素或者系統帶來的誤差,導致并沒有出現顯著性差異。某組的指標在數值上更多或少,某干預措施可能對于改善/提高什么是有幫助的,仍需要重復實驗,并控制誤差?!?/p>
5. 我的衍生統計圖和交互設計
柱狀圖的衍生方向特別多,交互設計上也是豐富多彩。根據我目前做過的項目需求,列出5種不同的使用場景。
1)組數不多
側重全部展示每個組的數據,每組數據結果在需求上都重要,可以一目了然所有數據的大小。這時候無論從美觀,還是需求展示上考慮,組數不宜過多。例如:
圖7,自變量為地區,展示每個地區的指標數據。
圖8,自變量為各種費用名稱。頂部的時間軸可以拖動展示每一年的費用情況。
2)組數很多,但是在需求上每組指標數據我們可能只需要把握topN前面的數據結果。
如圖9,自變量為癌癥名稱和地區,展示了排列前面的某地區5年生存率較低的癌癥。
3)組數多,并且還想引入其他變量進行比較,如時間、年齡、性別等,展示各組指標數據升降變化。
如圖10,比較兩個年份,不同地區,發病率最高的肺癌類型。這張圖描述的故事有:從地區角度看,可以展示每年每個地區發病率最高的肺癌類型,用以解決“某年某地區肺癌中發病率最高的類型”,從而對于該地區的疾控中心可以根據發病率最高的類型進行精準干預;而從時間出發,可以比較兩個年份之間某地區發病率最高的肺癌類型的發病是升高還是下降,用以解決評價干預效果等需求。
圖11想要表達的故事和圖10一致,只是變量不一樣。
4)細分因變量(將指標進行分類)
如圖12,把每個年份對應的橫軸區域想像成泳道,在泳道內有不同的色塊,不同的色塊代表指標(用藥總費用)的分類情況,并且每個色塊長方形的等寬,長度依據費用占比來決定。該柱狀圖,不僅可以比較總用藥費用隨著時間的變化,還可以看到這筆錢的大頭去了哪里,也可以看到每一年用的藥物比重變化情況。
5)柱狀圖交互
如圖13,我把交互設計在時間上(當然可以設計在很多地方,根據需求來),通過點擊時間,可以出現下面的信息。這里發現交互設計的另一個優點,就是可以精煉統計圖的信息量。圖13上面的柱狀圖可以不用標注縱軸的尺度,只用看每個時間段各類指標結果的數值大小和變化,具體想要查看具體數值,我們可以采用點擊或其他觸發動作直接出一個列表(一張列表,連色塊的定義都有了)。
三、餅圖
1. 基礎圖形展示
餅圖通過將一個圓餅按照數據分類的占比劃分成多個扇形區塊,整個圓餅代表所有分類數據的總和,每個扇形區塊的弧度由該分類數據占總數的比值而定,所有扇形區塊的占比加起來等于100%。
圖14
2. 作用和價值
餅圖很像切蛋糕,整個蛋糕為總量(100%),而蛋糕上被切成幾塊,每塊的大小,由多少人吃,每個人能吃多少決定。因此,餅圖的價值在于能夠快速了解分類數據的占比情況,可以觀察占比多的是哪類數據,哪類數據占比小,可以忽略不計。
3. 變量要求和用法
餅圖的變量需要能夠按照某個維度,進行分類,也就是餅圖代表的是一種分類資料的占比統計。
4. 依據需求編故事
根據餅圖的作用和價值,故事可以有:“下個月減少某方面的開支,增加某方面的投資“;”一半以上的單身女性選擇婚前自己買房,出現了新的社會現象”等。
5. 我的衍生統計圖與交互設計
環狀餅圖和半徑不同的餅圖,在日常工作學習中會經??吹健F渌挠袑⒚總€扇形區塊進行形狀變形的餅圖,例如花瓣餅圖;還有限定角度范圍的餅圖,例如圖18。
圖17
圖18
四、漏斗形
1. 基礎圖形展示
漏斗圖由高度相同的等腰梯形組成,自上而下的排列是根據一定的邏輯順序排列的,比如:用戶留存量、用戶轉化率、推進業務的完成情況等。梯形的面積由該梯形所對應的變量數據決定。
圖19
圖20
2. 作用和價值
顧名思義,漏斗圖的作用和漏斗類似。生活中看到的沙漏,一開始漏斗里是滿滿的沙子,隨著時間,沙子慢慢漏到了下面,直到沒有為止。因此,漏斗圖的價值在于呈現一件事發展狀況的邏輯順序,每到一個時間點或者任務環節或其他,這件事變化如何。從整個漏斗圖可以直觀地看出哪個時間點或者任務環節上出現了問題,漏斗圖的最底部也可以看出該事件最終使以什么狀態結束。從而找出問題所在,發現可優化的地方。
3. 變量要求和用法
漏斗圖的變量類型一定是有邏輯順序關系的,這種關系還是一種流程上的層級關系,比如時間順序、事情發展順序等,適用于事件流程比較規范、環節多、周期長的單流向分析。
4. 依據需求編故事
根據漏斗圖的作用和價值,故事會有:“用戶到底在哪個頁面上離開的多,在哪個頁面上停留的多”;“各個招聘環節上,哪個環節上淘汰的人較多”;“項目進展到最后,哪個環節上可以做優化”。
5. 我的衍生統計圖和交互設計
圖21,因為對于癌癥的治療效果評價,要用生存率作為指標,并且每一年的存活的人數肯定是在遞減的,因此我選擇漏斗圖。通過這個圖可以看整個癌癥人群的生存率變化,也可以分性別、年齡段觀察癌癥的生存率變化。
圖22,漏斗圖的形狀改變了,將等腰梯形設計成圓形,但是它的作用和漏斗圖一致,當然它也可以有其他用法。因此,統計圖的應用脫離不了它的基本使用規則,但是通過不同角度定義可以衍生出在這個基本用法上的其他用法。
五、儀表盤
1. 基本圖形展示
儀表盤圖表就像汽車的速度表一樣,有一個圓形的表盤及相應的刻度,有一個指針指向當前數值??潭扰c指標變量所定義的類型有關,如圖23,因為是率(完成率),構成比的關系,那么刻度的最大值是100%;如果是將指標變量劃分成一種等級,如圖24,那么按照順時針方向將等級從低到高排列。
圖23
圖24
2. 作用和價值
儀表盤是一種擬物化的表現方式,就像寫作時候用的修辭手法,可以更生動、更直觀、更容易被人們所理解和記住。
我們可以聯想到生活中遇到的汽車儀表盤、家里的水表、溫度表等,汽車儀表盤可以顯示當前的車速;水表可以顯示當前的用水量;溫度表可以顯示當前的氣溫,因此儀表盤的最基本的價值在于它能呈現某指標變量當前數值。往往在應用的時候還會對指標變量數值進行等級劃分,從而了解當前數值在總體上處于什么樣的狀態,以根據這種狀態采取一定的措施,比如當前的溫度該穿什么衣服。此外,儀表盤還有實時監測的作用。
3. 變量要求和用法
儀表盤常見的指標變量類型是分類資料的占比情況,如合格率,以及進度類型資料,如完成率、上傳率。
此外還可以度量當前指標數值在總體中的狀態,常用到四分位法,將總體的數據從小到大排列,然后將四分位(25%、50%、75%、100%)上的數值計算出,最后根據這些數值進行等級劃分。
目前我接觸到的指標是患者當前的健康風險等級,患者的健康風險根據人群的健康風險值四分位數劃分的等級,觀察他的健康風險值在哪個等級上。
4. 依據需求編故事
根據儀表盤的作用和價值,故事的時間不是從很久很久以前,而應該是“當前”“現在”“此時此刻”“當前的數值,判斷當前的狀態,根據狀態采取相應的措施”。
5. 我的衍生統計圖和交互設計
圖25,健康分險指標,沒有用儀表盤的形狀,但是作用原理和儀表盤一致。此圖的做法就如5.3里所闡述的。
圖26,上傳率指標,可觀察每個業務類型數據上傳的情況。
六、散點圖
1. 基本圖形展示
散點圖,由X/Y軸和許多的點構成,圖上的點是根據坐標值(X,Y)橫確定的,數據點會比較多。
圖27
2. 作用和價值
1)推斷變量關系、剔除異常數據:
散點圖的價值在于根據每個點的分布情況,推斷和假設所有點的變量存在什么關系,主要的關系分為:正相關、負相關、不相關、線性相關、指數相關等,這時候我們就可以根據散點圖剔除異常數據,將正常的數據進行分析。這時候根據相關性可以建立一些公式。
2)充分展示每個數據:
如果不關注變量間的關系,而是觀察個體的數值在總體中的表現情況,比如占比。那么散點圖就衍化成氣泡圖,氣泡大小由占比情況決定。
3. 變量要求和用法
若是為了推斷自變量和因變量間的關系,因此首先需要數據量多。
若是展示個體表現,那么變量也要是一種分類資料,以求得分類占比情況。
4. 依據需求編故事
根據散點圖的作用和價值,故事應該會有推測和假設的意圖“增加某因素,會增加某結果的發生(Y=kX+t)”;“隨著時間的過去,傷痛會淡去的(Y=-kX+t)”;“越努力,越幸運(Y=kX2)”。
5. 我的衍生統計圖和交互設計
目前,我應用的是散點圖衍化另一種圖,就是氣泡圖,展示每個數據點的情況。氣泡圖可以引入的變量很多,從氣泡的大小、氣泡的顏色來定義,同時可以對每個氣泡的具體情況做交互設計,展示更多維度的數據情況。這時候可能也會聯想到“字符云”的功能,和圖28 類似。
七、地圖
利用地圖來統計變量數值,從而解決問題的,我聯想到了流行病學經典案例——1854年,John Snow利用標點地圖法對倫敦西部西敏市蘇活區霍亂爆發的研究,最后根據水泵的位置,確定霍亂是經水傳播的,從而控制了霍亂。因此地圖形式的統計圖價值在于,能夠為某區發生某件事(指標變量)的分布規律提供強力的證據。
常見的地圖統計圖,有地圖加氣泡的統計圖、地圖加熱力圖的統計圖、地圖等級統計圖等。
圖30
圖31
八、雷達圖
雷達圖也是一種擬物表現手法的統計圖,圖形類似蜘蛛網,圖上的點就像是蜘蛛們從網的中心出發爬到自己的位置休息。常見的雷達圖會用在評價表上,比如心理學評價一個人的性格、職業傾向、個人能力等特征。
此外,雷達圖的功能可以等同于餅圖,各軸上的點表示占比;可以等同于折線圖,各軸上的點表示該指標變量的數值。如果有兩組以上的數據,呈現在雷達圖上,可以比較它們在哪個指標變量上出現差異。個人認為,雷達圖最有價值的地方就是用于評價/評估能力、性能、特性等狀況。
因為雷達圖是一種多邊形,邊不能太多了,太多的話,雷達圖要畫的特別大,才能把變量值展現地清楚,所以指標變量的分析維度太多,不適合用雷達圖。
圖33
九、其他
其他的統計圖還包括樹形圖、關系圖(如圖33順位變遷圖)、箱形圖等二維圖形,還有用3D展示的統計圖對于指標數據結果的展示更富有表現力。希望以后自己能學習和應用,也希望自己也能在基礎統計圖上衍生出新的統計圖,更希望自己今后能學習掌握更多的工具,輸出自己的心得體會。
圖34
以上就是我的大數據可視化初體驗,有很多不足,繼續深入學習吧。
十、總結
統計圖千變萬化,同一個統計圖,經過不同的設計和定義,就可以出現新的圖形和展現方式。
但是每個統計圖都有自己獨特作用和使用場景,這種獨特之處才是它最有價值的地方,因此根據需求,挖掘數據指標變量的關系,才能合情合理的使用最佳的統計圖。前端的展示也是豐富多彩,經過不同的觸發動作,不僅可以深度剖析數據,還可以精簡統計圖的展示效果。
最后,更想說大數據特別偉大,比如海量的醫療大數據,如果不去挖掘,它們就沉睡在那里,只是每天在數量上的不斷增加;但是經過大數據技術,可以研發很多的功能產品,回饋各角色與醫療相關的人。
本文由 @果凍 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自 Unsplash,基于 CC0 協議
你好,我也是做B端的小白,想轉載這篇文章,可以么?
不好意思才看到消息,轉載去哪里啊?
??
轉載到我的公眾號上,一是我到時候查看和學習的時候比較方便,另外是我匯總整理,也方便和我一樣的小白學習
嗯嗯好呀
1903841331你可以加我微信,和你細聊
加你了
童鞋您好,我是搞電信大數據可視化的,有空可以交流學習一下嗎
不好意思才看到信息,可以??! ??
辛苦了,我們上海的人應該搞個群
??希望自己能多懂點技術吧……
樓主好,作為一個剛接觸的純小白,想弱弱的問下樓主針對初入門的小白有什么建議嗎,因為新事物信息量太大,真的不知道從何下手
新事物是啥呀?沒看懂問題的關鍵點呢,不好意思
樓主是用什么軟件做出的圖呢?
我用的Axure
前輩你好??,本人目前打算學習數據分析,請問有什么好建議送給我嘛,Thankyou
??我還不到前輩的分量,數據分析,如果是技術那邊,好像要學點編程語言吧,R 語言,python 之類的,還有統計分析,概率之類的,數據庫管理等等,如果是偏需求的話,就要理解業務上的數據分析到底怎么去做,框架啊,指標啊,就是依靠現有的數據編故事,一個很圓滿,客戶需要的,然后就是產品設計,怎么展現這些指標,目前我就做需求部分的。技術打算慢慢學,感覺懂點技術,知道干嘛的,就好了。然后就是寫文檔,我們需求方主要都是政府和高校,都是課題,所以還要會寫一些有關偏學術的文章。這些是我目前碰到的一些工作內容,不知道對你有沒有幫助。
什么情況,上滑就白屏
沒有哇
同上滑就白屏
??我自己看的時候還挺好的。
在哪里白屏