談?wù)劥髷?shù)據(jù)認(rèn)知
大數(shù)據(jù)(big data),IT行業(yè)術(shù)語,是指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
大數(shù)據(jù)分析通俗的講就是將海量混雜的數(shù)據(jù),通過利用各類手段統(tǒng)一協(xié)調(diào)成一個(gè)有機(jī)整體,然后以不同的可視化分析工具直觀呈現(xiàn)給用戶,讓其通俗易懂的發(fā)現(xiàn)數(shù)據(jù)中的一些關(guān)鍵因素點(diǎn)。以保障相關(guān)人員提升工作效率及分析數(shù)據(jù)核心指標(biāo),并且為企業(yè)帶來收益價(jià)值點(diǎn)。
5V特點(diǎn)
大數(shù)據(jù)的5V特點(diǎn)(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價(jià)值密度)、Veracity(真實(shí)性)。
來源網(wǎng)絡(luò)
大量化Volume:非結(jié)構(gòu)數(shù)據(jù)的超大規(guī)模和增長,總數(shù)據(jù)的80~90% ,比結(jié)構(gòu)化數(shù)據(jù)增長快10倍到50倍,是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍。IDC預(yù)計(jì)到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量。
很多人日常用到或者了解到的僅限于bit、Byte、KB、MB,其實(shí)在其之上還有更多維度的統(tǒng)計(jì),例如:最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它們按照進(jìn)率1024(2的十次方)來計(jì)算:
舉一個(gè)例子:
一般情況下,大數(shù)據(jù)是以PB EB ZB為單位進(jìn)行計(jì)量的:1PB相當(dāng)于50%的全美學(xué)術(shù)研究圖書館藏書的信息內(nèi)容;5EB相當(dāng)于至今全世界人類所講過的話語;1ZB如同全世界海灘沙子數(shù)量總和;1YB相當(dāng)于7000位人類體內(nèi)的微細(xì)胞總和。
- 價(jià)值化Value :大量的不相關(guān)信息,對(duì)未來趨勢(shì)與模式的可預(yù)測(cè)分析,深度復(fù)雜分析,快速提煉出海量數(shù)據(jù)資源中的那部分有價(jià)值的信息,為客戶帶來真正的受益點(diǎn)。(例如:機(jī)器學(xué)習(xí)、人工智能、數(shù)據(jù)匯聚等)
- 多樣化Variety :大數(shù)據(jù)的異構(gòu)和多樣化,很多不同的形式(結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù))呈現(xiàn)方式也不僅僅限于文本、圖像、接口、文件、數(shù)據(jù)庫類、標(biāo)準(zhǔn)格式等。
- 快速化Velocity:?實(shí)時(shí)分析而非批量式分析,數(shù)據(jù)的快速提取、清洗、匯聚、標(biāo)簽化、具體到人事物中,立竿見影而非事后見效。時(shí)刻都會(huì)處理萬億級(jí)以上的數(shù)據(jù),因此具有時(shí)效性,高速處理、響應(yīng)迅速。
- 真實(shí)性Veracity:大數(shù)據(jù)中的內(nèi)容是與真實(shí)世界中的發(fā)生息息相關(guān)的,研究大數(shù)據(jù)就是從龐大的網(wǎng)絡(luò)數(shù)據(jù)中提取出能夠解釋和預(yù)測(cè)現(xiàn)實(shí)事件的過程。提高數(shù)據(jù)的準(zhǔn)確、可依賴程度,保證數(shù)據(jù)質(zhì)量。也可以作為未來某種趨勢(shì)的預(yù)判及以數(shù)據(jù)來提取到真正的需求點(diǎn)。
價(jià)值體現(xiàn)
大數(shù)據(jù)可以實(shí)現(xiàn)的應(yīng)用可以概括為兩個(gè)方向:一個(gè)是精準(zhǔn)化定制;第二個(gè)是預(yù)測(cè)。
精準(zhǔn)化定制定制可根據(jù)不同業(yè)務(wù)需求進(jìn)行設(shè)計(jì)開發(fā),通過數(shù)據(jù)去解決一些行業(yè)應(yīng)用難點(diǎn),例如:智慧城市、可視化大屏、警務(wù)大數(shù)據(jù)、金融大數(shù)據(jù)等,更多居于toB領(lǐng)域。
而預(yù)測(cè)類:比如像通過搜索引擎搜索同樣的內(nèi)容,每個(gè)人的結(jié)果卻是大不相同的。會(huì)利用大數(shù)據(jù)推薦算法等模型來進(jìn)行推送。再比如精準(zhǔn)營銷、百度的推廣、淘寶的喜歡推薦,或者你到了一個(gè)地方,自動(dòng)給你推薦周邊的消費(fèi)設(shè)施等等。頭條新聞信息推薦等等,更多趨向于toC領(lǐng)域。
圖片源于神策
人物畫像分析,通過對(duì)人物的準(zhǔn)確、全方位的刻畫,深入挖掘其數(shù)據(jù)間的內(nèi)在關(guān)系,將零散雜亂的信息組織成有機(jī)整體??焖俜治龀鋈宋锏母黝悓傩灾笜?biāo):身份信息、行動(dòng)軌跡、經(jīng)濟(jì)情況、活動(dòng)偏好、等級(jí)劃分等,有效地利用分析結(jié)果,發(fā)現(xiàn)關(guān)鍵數(shù)據(jù)指標(biāo)。
數(shù)據(jù)匯聚、分析、保護(hù)
數(shù)據(jù)聚合針對(duì)內(nèi)外部數(shù)據(jù)進(jìn)行多維數(shù)據(jù)快速匯聚??赏ㄟ^實(shí)時(shí)接口、文件自動(dòng)導(dǎo)入、主動(dòng)查詢等方式接入。并可對(duì)各類格式的數(shù)據(jù)進(jìn)行智能清洗入庫。
匯聚時(shí),需要對(duì)各類來源數(shù)據(jù)進(jìn)行精準(zhǔn)提?。豪缋靡恍┲悄芙K端采集設(shè)備,提取入庫后,對(duì)海量數(shù)據(jù)進(jìn)行快速的清洗處理,將其以結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)為主體劃分,而后進(jìn)行標(biāo)簽化劃分,利用圖數(shù)據(jù)庫賦予其不同標(biāo)簽,再下發(fā)到具體分析的人事物中,以多樣可視化分析圖表的形態(tài)直觀展示數(shù)據(jù)結(jié)果。
可視化分析可通過利用不同的分析工具,以關(guān)系圖、時(shí)序圖、位置軌跡、詞云、時(shí)光軸、畫像分析、可視化大屏等可視化方式進(jìn)行分析。(針對(duì)不同的需求,可利用將多個(gè)工具結(jié)合進(jìn)行全維度數(shù)據(jù)分析)
數(shù)據(jù)分級(jí)保護(hù)針對(duì)數(shù)據(jù)在應(yīng)用時(shí)進(jìn)行分級(jí)和脫敏過濾,保障數(shù)據(jù)安全。從數(shù)據(jù)提取、清洗、入庫、分類、標(biāo)簽化并具體到人事物環(huán)境進(jìn)行層層加密處理,保障全流程安全。
具體可分為:數(shù)據(jù)安全、應(yīng)用安全、環(huán)境安全等方面。
工具的選用
1. 基礎(chǔ)工具
傳統(tǒng)分析/商業(yè)統(tǒng)計(jì):
Excel、SPSS、SAS 這三者對(duì)于研究人員而言并不陌生。
- Excel作為電子表格軟件,適合簡(jiǎn)單統(tǒng)計(jì)匯總需求,由于其方便好用,功能也能滿足很多場(chǎng)景需要,所以一直受用于廣大用戶基本統(tǒng)計(jì)分析。
- SPSS(SPSS Statistics)和SAS作為商業(yè)統(tǒng)計(jì)軟件,提供研究常用的經(jīng)典統(tǒng)計(jì)分析(如回歸、方差、因子、多變量分析等)處理。SPSS 輕量、易于使用,但功能相對(duì)較少,適合常規(guī)基本統(tǒng)計(jì)分析。
- SAS 功能豐富而強(qiáng)大(包括繪圖能力),且支持編程擴(kuò)展其分析能力,適合復(fù)雜與高要求的統(tǒng)計(jì)性分析。
以上幾種軟件屬于傳統(tǒng)性的數(shù)據(jù)統(tǒng)計(jì)軟件,此處不做過多的解說。要進(jìn)行具體的數(shù)據(jù)匯聚并且可視化展示還需要利用一些可視化工具軟件,如下:
2. 可視化工具
Echats:
- 千萬級(jí)數(shù)據(jù)可視化渲染能力;
- SVG + Canvas 雙引擎動(dòng)力更佳;
- 數(shù)據(jù)樣式分離及扁平配置讓開發(fā)更便捷;
- 首創(chuàng)無障礙訪問支持;
- 微信小程序、PPT,哪里都能用;
- 數(shù)據(jù)自由刷選:自由選擇數(shù)據(jù),發(fā)掘數(shù)據(jù)背后的更多秘密;
- 多圖表聯(lián)動(dòng)查看:對(duì)多個(gè)圖表數(shù)據(jù)聯(lián)動(dòng)查看,進(jìn)行多維有效分析。
來源網(wǎng)絡(luò)
當(dāng)前接入是免費(fèi)形式,通過選取不同的可視化工具類圖展示符合業(yè)務(wù)需求的類后,進(jìn)行數(shù)據(jù)的呈現(xiàn),由于非矢量關(guān)系圖標(biāo)化,若數(shù)據(jù)過多時(shí)會(huì)存在前臺(tái)渲染加載卡頓情況。
Highcharts:兼容 IE6+、完美支持移動(dòng)端、圖表類型豐富、方便快捷的 HTML5 交互性圖表庫。
來源網(wǎng)絡(luò)
會(huì)有部分收費(fèi)對(duì)接資源,基本展示與Echat相近,界面體驗(yàn)更友情化。
AntV:
GraphinStudio 是基于 Graphin 開發(fā)的通用關(guān)系分析平臺(tái),具有關(guān)系擴(kuò)散,關(guān)系發(fā)現(xiàn),布局切換等功能。
來源網(wǎng)絡(luò)
- 完善的圖形語法:數(shù)據(jù)到圖形的映射,能夠繪制出所有的圖表。
- 全新的交互語法:通過觸發(fā)和反饋機(jī)制可以組合出各種交互行為,對(duì)數(shù)據(jù)進(jìn)行探索。
- 強(qiáng)大的 View 模塊:可支持開發(fā)個(gè)性化的數(shù)據(jù)多維分析圖形。
- 雙引擎渲染:Canvas 或 SVG 任意切換。
- 可視化組件體系:面向交互、體驗(yàn)優(yōu)雅。
- 全面擁抱 TypeScript:提供完整的類型定義文件。
相對(duì)來功能展示更強(qiáng)大,可以支持不同圖形標(biāo)簽選擇,關(guān)系屬性關(guān)聯(lián),更加靈活的展示分析結(jié)果信息。
3. 不同圖表的選用
通過圖表形式展現(xiàn)數(shù)據(jù),幫助用戶快速、準(zhǔn)確理解信息。準(zhǔn)確、快速是可視化的關(guān)鍵。借助于圖形化手段,清晰有效地傳達(dá)與溝通信息同時(shí)對(duì)數(shù)據(jù)進(jìn)行交互分析。
(1)柱形圖
通過柱狀圖,可以清晰展示各個(gè)數(shù)據(jù)類型的統(tǒng)計(jì)數(shù)據(jù)信息,并且可以直觀進(jìn)行對(duì)比,發(fā)現(xiàn)趨勢(shì)
來源網(wǎng)絡(luò)
適合的數(shù)據(jù):一個(gè)分類數(shù)據(jù)字段、一個(gè)連續(xù)數(shù)據(jù)字段。
功能:對(duì)比分類數(shù)據(jù)的數(shù)值大小。
數(shù)據(jù)與圖形的映射:
- 橫軸可展示具體的時(shí)間維度區(qū)間
- 縱軸可展示數(shù)據(jù)量的多少
- 不同類別可以不同色塊進(jìn)行區(qū)分
適合的數(shù)據(jù)條數(shù):根據(jù)頁面大小靈活設(shè)計(jì),建議不超過1個(gè)月數(shù)據(jù)區(qū)間。
(2)散點(diǎn)圖
散點(diǎn)圖也叫 X-Y 圖,它將所有的數(shù)據(jù)以點(diǎn)的形式展現(xiàn)在直角坐標(biāo)系上,以顯示變量之間的相互影響程度,點(diǎn)的位置由變量的數(shù)值決定。
來源網(wǎng)絡(luò)
適合的數(shù)據(jù):兩個(gè)連續(xù)數(shù)據(jù)字段
橫軸可展示具體的時(shí)間維度區(qū)間或者不同的屬性描述,縱軸可展示數(shù)據(jù)量的多少。不同類別可以不同色塊進(jìn)行區(qū)分。
備注:可更具實(shí)際情況對(duì)點(diǎn)的形狀進(jìn)行分類字段的映射。點(diǎn)的顏色進(jìn)行分類或連續(xù)字段的映射。
可視化分析
1. 用戶畫像產(chǎn)品
用戶畫像: User Profile用戶畫像是通過搜集和分析用戶行為喜好、靜態(tài)屬性信息和消費(fèi)習(xí)慣信息等數(shù)據(jù),將用戶的特征信息抽象化的進(jìn)行展示。
用戶畫像的標(biāo)簽表征用戶的興趣、愛好、習(xí)慣特點(diǎn),為標(biāo)簽計(jì)算權(quán)重來表示用戶對(duì)標(biāo)簽特征的需求程度,使用戶的特征得到量化。更多區(qū)域用戶消費(fèi)行為的分析統(tǒng)計(jì),可預(yù)判用戶的消費(fèi)特性,通過數(shù)據(jù)分析結(jié)果來幫助運(yùn)營人員抓住用戶消費(fèi)痛點(diǎn)。
來源網(wǎng)絡(luò)
2. 推薦系統(tǒng)
推薦系統(tǒng)有很多中,其中有一種是用戶畫像的用處,即利用用戶畫像做個(gè)性化推薦、廣告推薦、活動(dòng)推薦、內(nèi)容推薦等。利用相關(guān)的算法,可以幫助其廣告精準(zhǔn)推廣營銷,精確推送給用戶其所喜好的閱讀信息等
像今日頭條有自己強(qiáng)大的算法模式:
- 我們初期可以根據(jù)相關(guān)的線性函數(shù)來做數(shù)值推理或者用戶群中劃分;
- 根據(jù)喜好相同的不同用戶去推送各自不同的相似欄目信息內(nèi)容;
- 通過后臺(tái)大數(shù)據(jù)的匯總,進(jìn)行抽樣隨機(jī)選擇的方式,推理出高概率相符信息內(nèi)容進(jìn)行推送。
來源網(wǎng)絡(luò)
3. 可視化大屏
來源網(wǎng)絡(luò)
上圖為可視化大屏展示,其中可針對(duì)不同業(yè)務(wù)需求進(jìn)行定制化開發(fā):(可用于企業(yè)高端效果展示,關(guān)鍵數(shù)據(jù)指標(biāo)可視化展示,工作匯報(bào)總結(jié),領(lǐng)導(dǎo)檢驗(yàn)等)
- 3D實(shí)時(shí)數(shù)據(jù)模型可視化數(shù)據(jù)展示,采用逼真的視覺效果呈現(xiàn)幫助用戶理解、展現(xiàn)科技創(chuàng)新形象;
- 提供多種數(shù)據(jù)交互場(chǎng)景,可進(jìn)行三維視角觀測(cè)、切換、拖拽、縮放等交互方式,縮短用戶對(duì)態(tài)勢(shì)認(rèn)知成本,提升決策效率;
- 地圖以區(qū)域定制化展現(xiàn)整體數(shù)據(jù)分布動(dòng)態(tài);各類標(biāo)簽屬性進(jìn)行相關(guān)數(shù)據(jù)的展示。多維關(guān)鍵數(shù)據(jù)指標(biāo)為整體數(shù)據(jù)大屏做支撐;
- 可視化大屏屬于定制化功能模塊,可支持3D炫酷建模效果,城市全景地圖下探,街道立體效果展現(xiàn)及關(guān)鍵數(shù)據(jù)可視化特殊標(biāo)識(shí)。
總結(jié)
此次是對(duì)大數(shù)據(jù)認(rèn)知的一個(gè)較為寬泛的闡述,后續(xù)會(huì)進(jìn)行各個(gè)模塊的細(xì)化說明。其實(shí)數(shù)據(jù)總是與我們息息相關(guān),通過大數(shù)據(jù)是為我們提供一個(gè)有效的手段來使得各類價(jià)值信息呈現(xiàn)更為明確。大數(shù)據(jù)離我們并不遙遠(yuǎn),仍需不斷地去探索與發(fā)現(xiàn)其潛在價(jià)值與意義。
本文由 @?Leon 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
初學(xué)習(xí),了解了很多