大數據產品經理必備的數據挖掘知識概述(一)認識數據之數據可視化
數據經過獲取、存儲、分析之后,最終目的還是為了給用戶進行展示,以達到決策依據的目的。那么如何有效的將數據展示給用戶呢?——數據可視化。
以下內容承接上一篇文章大數據產品經理必備的數據挖掘知識概述(一)認識數據。
1.2 數據可視化
數據經過獲取、存儲、分析,其最終目的是為了給用戶進行展示,以達到決策依據的目的。
那么如何有效的將數據展示給用戶呢?數據可視化,旨在合理利用圖形清洗有效的表達數據的含義。
本節我們從一維到多維數據開始討論一些基本數據可視化的表示方法,包括直方圖、散點圖、基于像素的技術、基本圖符的技術、幾何投影技術以及層次可視化和基于圖形的可視化技術,以此討論復雜數據對象和關系的可視化展示。(文中知識大多摘自《數據挖掘》一書,感興趣的同學可以直接閱讀此書)
1.2.1 基本的統計描述可視化
首先我們先研究常見的基本的統計描述圖形,包括分位數圖、分位數-分位數圖、直方圖和散點圖。這些圖有助于可視化地審視數據,對于數據預處理是有用的。前三種圖顯示一元分布(即,一個屬性的數據),而散點圖顯示二元分布(即涉及兩個屬性)。
分位數圖,是一種觀察單變量數據分布的簡單有效方法。首先,它顯示給定屬性的所有數據(允許用戶評估總的情況和不尋常的出現);其次,它繪制分位數信息。
如下圖:
分位數-分位數圖,或q-q圖對著另一個對應的分數,繪制一個單變量分布的分位數。它是一種強有力的可視化工具,使得用戶可以觀察從一個分布到另一個帆布是否漂移。
如下圖顯示給定時間段內兩個不同部門銷售的商品的單價數據的分位數-分位數圖。每個點對應于每個數據集的相同的分位數,并對該分位數顯示部門1和部門2的銷售商品單價。
通過上圖,在Q1我們看到部門1的銷售的商品單價部門2低。換言之,部門1銷售的商品25%低于或等于60美元,而在部門2銷售的商品50%低于或等于78美元,而在部門2銷售的商品50%低于或等于85美元。
一般地,我們注意到部門1的分布相對于部門2的一個漂移,因為部門1的銷售的商品單價趨向于部門2低。
直方圖,或成頻率直方圖,出現久遠使用廣泛。不做贅述。
盡管直方圖被廣泛應用,但是對于比較單變量觀測組,它可能不如分位數圖、q-q圖和盒方圖有效。
散點圖,是確定兩個數值變量之間看上去是否存在聯系、模式或趨勢的最有效的圖形方式之一。
用于觀察點鏃和離群點,或考察相關聯系的可能性。如下圖,對于兩個屬性X,Y,如果標繪點的模式從左下到右上傾斜,則意味X的值隨Y的值增加而增加,暗示正相關,如果標繪點的模式從左上到右下傾斜,則意味X隨Y值減小而增加,暗示負相關。可以畫一條最佳擬合的線,研究變量之間的相關性。
散點圖可以用來發現屬性之間的相關性
三種情況,其中每個數據集中兩個屬性之間都不存在觀察到的相關性。
基本的數據描述圖形展示(如分位數圖、直方圖和散點圖)提供了數據總體情況的有價值的洞察,有助于識別噪聲和離群點,對數據清理特別有用。
1.2.2 基于像素的可視化技術
前面討論的是單變量數據,對于一個m維數據集,基于像素的技術在屏幕上創建M個窗口,每維一個。記錄的m個維值映射到這些窗口中對應位置上的m個像素。像素的顏色反應對應的值。諸如此以像素的顏色反映維值稱為基于像素的可視化技術。
例如,顧客信息表,包含4個維度:in_come(收入),credit_limit(信貸額度),transaction_volume(成交量)和age(年齡)。我們能夠通過可視化技術分析income與其他屬性之間的相關性嗎?
我們可以對所有顧客按收入的遞增序排序,并使用這個序,在4個可視化窗口安排顧客數據,如下圖。值越小,顏色越淡。
使用基于像素的可視化,我們可以很容易的得到如下觀察:credit_limit隨income增加而增加;收入處于中部區間的顧客更可能購物;income與age之間沒有明顯的相關性;
其他形式,如空間填充曲線、圓弓分割技術等;(感興趣的同學可以做更深入的學習)
一些頻繁使用的二維空間填充曲線;
圓弓技術:a)在圓弓內表示一個數據記錄;b)在圓弓內安排像素。
1.2.3 幾何投影可視化技術
對于基于像素的可視化技術存在一個缺點即他們對于我們理解的多維空間的數據分布幫助不大,不是很容易理解。比如他們并不顯示在多維子空間是否存在稠密區域。
幾何投影技術可幫助用戶更好的發現和理解多維數據集的有趣投影。幾何投影技術的首要挑戰是設法解決如何在二維顯示上可視化高維空間。
散點圖:使用笛卡兒坐標顯示二維數據點。使用不同的顏色或形狀表示不同的數據點,可以增加第三維。例如兩個空間屬性X,Y,而第三維用不同的形狀顯示。通過這種可視化技術,我們可以看“+”“X”類型的點趨向于一起出現。
二維數據集使用散點圖可視化,資料來源:www.cs.sfu.ca/jpei/public-tions/rareevent-geoinformatica06.pdf
散點圖使用笛卡兒坐標系的三個坐標軸,如果也使用顏色,它可是顯示4維數據點。如下圖:
三維數據集使用散點圖可視化
散點矩陣圖:對于維數超過4的數據集,散點圖一般不太有效。散點圖矩陣是散點圖的一種擴充,提供每個維與所有其他維的可視化。
如下圖顯示的是一種花的數據集。共450個樣本,取自3種花。共5個維度:萼片長度和寬度、花瓣長度和寬度,以及種屬。
散點圖矩陣可視化
平行坐標:隨著維數的增加,散點圖矩陣變得不太有效。平行坐標可以處理更高的維度,其繪制n個等距離、互相平行的軸,每維一個。數據記錄用折線表示,與每個軸在對應相關維值得點上相交,如下圖:
使用平行坐標可視化,資料來源:http://support.sas.com/documentation/cdl/en/grstatproc/61948/THML/default/images/gsgscmat.gif
1.2.4 基于圖符的可視化技術
基于圖符的可視化技術使用少量圖符表示多維數據集。我們討論兩種圖符技術,切爾諾夫臉和人物線條畫。
切爾諾夫臉是統計學家赫爾曼.切爾諾夫于1973年引進的。它把多達18個維的數據以卡通人臉顯示,有助于揭示數據中的趨勢。
維可以映射到如下面部特征:眼的大笑、兩眼的距離、鼻子長度、眼球大小、眉毛傾斜、眼睛偏離程度和頭部偏離程度。切爾諾夫臉利用人的思維能力,識別面部特征的微笑差異并立即消化理解許多面部特征。
缺點是未顯示具體的數據值。
切爾諾夫臉,每張臉表示一個N維數據點(n<=18)
已經提出非對稱的切諾夫臉作為原來技術的擴展,感興趣的同學可以深入學習。
人物線條臉是可視化技術把多維數據映射到5-段人物線條畫,其中每個畫都有四肢和一個軀體。兩個維被映射到顯示軸(x和y軸),而其余的維映射到四肢和長度。
下圖顯示人口普查數據,其中age和income被銀蛇到顯示軸,而其他維被映射到任務線條畫。如果數據項關于兩個顯示維度相對稠密,則結果可視化顯示紋理模式,反映數據趨勢。
用人物線條畫表示的人口統計數據,資料來源:G.Grinstein教授,馬薩諸塞州大學(費弗爾)計算機科學系
1.2.5 層次可視化展示
迄今為止所討論的可視化技術都關注同時可視化多個維,然而,對于大型高緯數據集,很難同時可視化所有維,層次可視化技術把所有維劃分成子集(即子空間),這些子空間按層次可視化。
“世界中的世界”又稱n-Vision,是一種具有代表性的可視化方法。
假設我們想對6維數據集可視化,其中維是F,X1,….X5,我們想觀察維F如何隨其他維變化,我們可以把所有維固定為某選定的值,比如C3,…C5,然后可以使用一個三維圖(稱做世界)對所有維進行可視化,如圖,內世界的原點位于外世界的點(C3,C4,C5)處;為世界是一個三維圖,使用為X3,X4,X5。
用戶可以在外世界中交互地改變內世界的原點的位置,然后觀察內世界的變化結果。此外,用戶可以改變內世界和外世界使用的維。給定更多維,可以使用更多的世界層,這就是該方法稱做“世界中的世界”的原因。
“世界中的世界”又稱n-Vision資料來源:http://graphics.cs.columbia.edu/projects/AutoVisual/1.dipstick.5.gif
層次可視化方法的另一個例子是樹圖(tree-map),它把層次數據顯示成嵌套矩形的集合。
例如下圖,顯示了對Google新聞報道可視化的樹圖。所有的新聞報道組織成7個類別,每個顯示在一個維-顏色的舉行中。在每個類別內(即在最頂層每個舉行內),新聞報道進一步劃分成較小的子類別。
新聞圖:使用屬兔對Google新聞報道標題可視化。資料來源:www.cs.umd.edu/class、spring2005/cmsc838s/viz4all/ss/newsmap.png
1.2.6 可視化復雜對象和關系
可視化技術除了對于數值數據,還包括對非數值數據的可視化技術,如文本和社會網絡可視化已經成為可利用的,且備受關注。
許多可視化技術專門用戶非數值類數據,如Web上許多對諸如圖片、博客和產品評論加標簽。
標簽云,是用戶產生的標簽統計量的可視化技術。在標簽云中,標簽通常按字母次序或用戶指定的次數列舉。如下圖,顯示了一個對Web站點使用的流行標簽可視化的標簽云。
使用標簽云對Web站點上使用的流行標簽可視化。資料來源:www.flickr.com/photos/tags/2010年1月23日快照
通常,標簽云用法有兩種,一是對于單個術語,我們可以使用標簽的大小表示該標簽被不同的用戶用于該術語的次數,二是在多個術語上,可視化標簽統計量時,我們可以使用標簽的大小表示該標簽使用的次數,即標簽的人氣。
除了復雜的數據之外,數據項之間的復雜關系也可視化提出了挑戰。
例如,下圖使用疾病影響圖來可視化疾病之間的相關性。圖中的結點是疾病,每個結點的大小與對應疾病的流行程度成正比。如果對應的疾病具有強相關性,兩個結點用一條邊連接。邊的寬度與兩個對應的疾病的相關程度成正比。
NHANES數據集中20歲以上的人的疾病影響圖
綜上所述,可視化技術為探索數據提供了有效的工具。我們介紹了一些流行的方法和他們的基本思想。有許多現成的工具和方法。
此外,可視化可以用于數據挖掘的若干方面。除了數據可視化之外,可視化也可以用于表現挖掘過程、從挖掘方法得到的模式,以及用戶與數據交互??梢暬诰蚴且粋€重要的研究開發方向。
本文由 @一毛硬幣 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
大家期待已久的《數據產品經理實戰訓練營》終于在起點學院(人人都是產品經理旗下教育機構)上線啦!
本課程非常適合新手數據產品經理,或者想要轉崗的產品經理、數據分析師、研發、產品運營等人群。
課程會從基礎概念,到核心技能,再通過典型數據分析平臺的實戰,幫助大家構建完整的知識體系,掌握數據產品經理的基本功。
學完后你會掌握怎么建指標體系、指標字典,如何設計數據埋點、保證數據質量,規劃大數據分析平臺等實際工作技能~
現在就添加空空老師(微信id:anne012520),咨詢課程詳情并領取福利優惠吧!