數(shù)治千問 | 1.什么是大數(shù)據(jù)?
這篇文章,作者用一個餐館里做菜的比喻,給我們詳細解釋了大數(shù)據(jù)的整個處理過程。這種通俗易懂的方式,希望能幫到大家。
大數(shù)據(jù)是一個相對抽象和復雜的概念,我希望用一種通俗易懂的方式介紹一下大數(shù)據(jù)。大數(shù)據(jù)的整個處理過程其實和在一家餐館里做菜是一樣的道理,同樣需要買菜、洗菜、切菜、配菜、炒菜、上色擺盤等步驟,下面介紹一下這幾個步驟。
首先是大數(shù)據(jù)買菜,買菜的過程很重要并不簡單,俗稱“數(shù)據(jù)獲取”或“數(shù)據(jù)采集”。
在 “大數(shù)據(jù)餐館” 里,數(shù)據(jù)獲取渠道多種多樣,就如同餐館從不同的供應(yīng)商那里獲取食材,“大數(shù)據(jù)餐館” 的數(shù)據(jù)食材可以從數(shù)據(jù)庫、hodoop、云等多個渠道獲取。
這些供應(yīng)商提供的食材水準又不一樣,就像數(shù)據(jù)的類型,也是不一樣的。
- 有初步加工過的食材,如包裝好的菜和肉,類似于結(jié)構(gòu)化數(shù)據(jù),有明確的格式和內(nèi)容;
- 有過過一遍水的食材,如沒有包裝但是不帶泥的蔬菜,類似于半結(jié)構(gòu)化數(shù)據(jù),較為規(guī)整但是也需要處理;
- 也有沒處理過的食材,如帶泥的蔬菜和活的雞鴨魚,類似于非結(jié)構(gòu)化數(shù)據(jù),沒有固定的格式,需要進一步整理和加工。
- 買菜的頻次也需要考慮,就像數(shù)據(jù)的獲取頻率,一天取一次、每小時取一次、還是每秒取一次等等。
第二是大數(shù)據(jù)存菜,就像是餐館的倉庫,買回來的食材要有足夠的空間來存放,并且要保證食材的新鮮度和安全性,俗稱“數(shù)據(jù)存儲”。
對于大數(shù)據(jù)而言,存儲系統(tǒng)如Hadoop的HDFS(分布式文件系統(tǒng))等,就提供了這樣的空間。它可以將海量的數(shù)據(jù)分散存儲在多個節(jié)點上,就像把食材分類存放在倉庫的不同區(qū)域不同的貨架上,這樣做的好處是可以應(yīng)對大量的數(shù)據(jù),并且當一個存儲節(jié)點出現(xiàn)故障時,不會影響整個數(shù)據(jù)的存儲,就像倉庫的一個貨架損壞,其他貨架上的食材仍然可以正常使用。
不同類型的數(shù)據(jù)有不同的存儲方式:結(jié)構(gòu)化數(shù)據(jù)可能存儲在關(guān)系型數(shù)據(jù)庫中,而非結(jié)構(gòu)化數(shù)據(jù)(如文本、圖像)可能存儲在專門的文件系統(tǒng)或?qū)ο蟠鎯χ校@就好比不同的食材需要放在不同的倉庫區(qū)域一樣,干貨放在常溫區(qū)、生鮮放在冷藏區(qū)、肉類放在冷凍區(qū)。
第三是大數(shù)據(jù)摘菜洗菜,我們不能把帶泥的菜或者帶毛的肉直接下鍋,這樣是沒法吃的,也不能用變質(zhì)的食材炒菜,那樣有可能影響菜的口感,甚至造成一些事故,所以說摘菜洗菜是必須的過程。
同理,原始數(shù)據(jù)很少能拿過來直接使用,臟數(shù)據(jù)也不能直接用來炒菜,避免在后續(xù)使用過程中造成不當影響,這個步驟俗稱“數(shù)據(jù)清洗”或者“數(shù)據(jù)預處理”,清洗后才能實現(xiàn)后續(xù)的分析挖掘。
第四是大數(shù)據(jù)切菜配菜,在餐館中,廚師會根據(jù)不同的菜品需求將食材切成合適的形狀和大小,然后進行搭配組合,以達到最佳的烹飪效果。
在大數(shù)據(jù)處理中,這一步就相當于 “數(shù)據(jù)處理與轉(zhuǎn)換”。
對于大數(shù)據(jù)來說,數(shù)據(jù)可能來自不同的來源,具有不同的格式和結(jié)構(gòu)。通過數(shù)據(jù)處理與轉(zhuǎn)換,可以將數(shù)據(jù)進行標準化、格式化,使其符合后續(xù)分析的要求。例如,將不同單位的數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為相同的單位,將日期格式統(tǒng)一為特定的標準格式等。
同時,還可以根據(jù)分析的需求對數(shù)據(jù)進行篩選、聚合、拆分等操作,就像廚師根據(jù)菜品需求對食材進行切分和搭配一樣。
第五是大數(shù)據(jù)炒菜,廚師在廚房里運用各種烹飪技巧和調(diào)料,將切配好的食材加工成美味的菜肴。
在大數(shù)據(jù)領(lǐng)域,這一步對應(yīng)著 “數(shù)據(jù)分析與挖掘”。
數(shù)據(jù)分析與挖掘是大數(shù)據(jù)處理的核心環(huán)節(jié),通過使用各種分析方法和算法,從大量的數(shù)據(jù)中提取有價值的信息和知識。例如,使用統(tǒng)計分析方法計算數(shù)據(jù)的均值、方差、相關(guān)性等指標,以了解數(shù)據(jù)的基本特征;運用機器學習算法進行分類、聚類、預測等任務(wù),以發(fā)現(xiàn)數(shù)據(jù)中的模式和規(guī)律。
就像廚師通過不同的烹飪方法和調(diào)料組合創(chuàng)造出各種美味的菜肴一樣,數(shù)據(jù)分析人員通過各種分析手段從數(shù)據(jù)中挖掘出有價值的洞察。
第六是大數(shù)據(jù)上色擺盤,一道美味的菜肴不僅要味道好,還要有吸引人的外觀。
在餐館中,廚師會精心地對菜肴進行上色和擺盤,使其更加美觀誘人。對于大數(shù)據(jù)來說,這一步就是 “數(shù)據(jù)可視化”。數(shù)據(jù)可視化將分析挖掘得到的結(jié)果以直觀、易懂的圖形、圖表等形式展示出來,讓用戶能夠快速理解數(shù)據(jù)的含義和價值。
例如,通過柱狀圖、折線圖、餅圖等可視化工具展示數(shù)據(jù)的分布、趨勢和比例關(guān)系等。就像精美的擺盤可以提升菜肴的吸引力一樣,數(shù)據(jù)可視化可以增強數(shù)據(jù)的可讀性和可理解性,幫助用戶更好地做出決策。
通過將大數(shù)據(jù)處理過程類比為餐館做菜,我們可以清晰地看到每一個環(huán)節(jié)的重要性和相互關(guān)系。大數(shù)據(jù)就像烹飪藝術(shù),從獲取食材般的數(shù)據(jù)采集,到存儲食材的數(shù)據(jù)存儲,再到清洗、處理、分析挖掘,直至最后的可視化呈現(xiàn),就如同做出一道色香味俱佳的菜肴。
這一系列步驟緊密相連,任何一環(huán)出現(xiàn)問題都可能影響最終的 “菜品質(zhì)量”,即數(shù)據(jù)價值的有效挖掘和利用。
無論是企業(yè)決策、科研探索還是社會治理,理解和掌握大數(shù)據(jù)處理的流程,都能幫助我們從海量數(shù)據(jù)中烹飪出屬于自己的“美味佳肴”,為我們的行動和選擇提供有力的支撐和指引。
那前面呢,主要介紹了大數(shù)據(jù)如同做菜一般的處理流程,也就是將原始數(shù)據(jù)這一 “原料” 加工為有價值 “產(chǎn)品” 的過程。
然而,這僅僅是其中一部分,距離完整構(gòu)建一個 “大數(shù)據(jù)餐館” 還有差距。要真正經(jīng)營一家餐館,僅僅掌握做菜方法遠遠不夠,還需要采購員精心挑選食材、廚師施展廚藝、服務(wù)人員為顧客提供周到服務(wù)等各類人員的協(xié)同參與。
與之類似,在大數(shù)據(jù)領(lǐng)域,我們也需要相應(yīng)的人員來保障其順利運行,同時還需要配備合適的設(shè)備來支持這些人員開展工作。人員與設(shè)備,二者都是這個 “大數(shù)據(jù)餐館” 不可或缺的重要組成部分。
那么,在這個 “大數(shù)據(jù)餐館” 中,人在各個環(huán)節(jié)都扮演著怎樣的角色?
數(shù)據(jù)采集人員(采購員)
就像餐館的采購員負責尋找和獲取高質(zhì)量的食材一樣,數(shù)據(jù)采集人員要負責從各種數(shù)據(jù)源收集數(shù)據(jù)。他們需要了解不同的數(shù)據(jù)來源,并且能夠使用合適的工具和技術(shù)來獲取數(shù)據(jù)。例如,對于從網(wǎng)站日志中采集數(shù)據(jù),他們要熟悉日志采集軟件的使用,能夠確保數(shù)據(jù)的完整性和準確性。這些人員還需要關(guān)注數(shù)據(jù)采集的合法性和合規(guī)性,就像采購員要確保食材來源合法一樣,避免數(shù)據(jù)隱私泄露等問題。
數(shù)據(jù)存儲工程師(倉庫管理員)
類似于餐館倉庫管理員負責倉庫的規(guī)劃、食材的存放和管理,數(shù)據(jù)存儲工程師要設(shè)計和維護數(shù)據(jù)存儲系統(tǒng)。他們需要精通像 Hadoop 的 HDFS 等分布式存儲系統(tǒng),能夠合理地分配存儲資源,確保海量數(shù)據(jù)有足夠的空間存儲。當數(shù)據(jù)存儲出現(xiàn)問題,如存儲節(jié)點故障或數(shù)據(jù)丟失時,他們要像倉庫管理員處理食材損壞或丟失一樣,及時采取措施進行恢復和修復。并且,他們還要負責數(shù)據(jù)存儲的安全性,設(shè)置訪問權(quán)限,防止未經(jīng)授權(quán)的訪問,就像倉庫管理員要保證倉庫的安全一樣。
數(shù)據(jù)清洗專家(洗菜工)
數(shù)據(jù)清洗專家如同餐館里認真負責的洗菜工,他們的任務(wù)是仔細檢查和清理數(shù)據(jù)中的 “污垢”。這些 “污垢” 包括缺失值、錯誤值、重復數(shù)據(jù)和格式不規(guī)范的數(shù)據(jù)。
他們要運用各種數(shù)據(jù)清洗工具和方法,如使用數(shù)據(jù)清洗軟件來識別和處理缺失值,通過編寫腳本或使用專門的工具來檢查數(shù)據(jù)的邏輯錯誤并進行糾正。他們的工作質(zhì)量直接影響后續(xù)數(shù)據(jù)處理的效果,就像洗菜工如果沒有把菜洗干凈,會影響菜肴的質(zhì)量一樣。
數(shù)據(jù)處理與分析人員(廚師)
數(shù)據(jù)處理與分析人員是大數(shù)據(jù) “餐館” 的核心角色,就像廚師是餐館的靈魂一樣。他們要熟練掌握各種數(shù)據(jù)處理框架(如 MapReduce、Spark)和數(shù)據(jù)分析方法(如統(tǒng)計分析、機器學習算法)。他們將清洗后的 “食材”(數(shù)據(jù))進行精心的 “烹飪”(處理和分析),挖掘出數(shù)據(jù)中的有價值信息,如發(fā)現(xiàn)數(shù)據(jù)中的關(guān)聯(lián)規(guī)則、進行數(shù)據(jù)分類和聚類等。他們還需要根據(jù)不同的 “菜品需求”(業(yè)務(wù)問題),靈活運用不同的 “烹飪技巧”(分析方法),制作出滿足 “顧客”(數(shù)據(jù)使用者)需求的 “菜肴”(分析結(jié)果)。
數(shù)據(jù)可視化設(shè)計師(擺盤師)
數(shù)據(jù)可視化設(shè)計師如同餐館里的擺盤師,他們負責將分析后的結(jié)果以吸引人的方式展示出來。他們要了解用戶的需求和視覺習慣,選擇合適的可視化工具(如 Tableau、PowerBI)和圖表類型(如柱狀圖、折線圖、餅圖等)。
他們的工作是讓數(shù)據(jù) “菜肴” 在視覺上更具吸引力,使用戶能夠快速理解數(shù)據(jù)的含義和價值,就像擺盤師通過精美的擺盤讓菜肴更具吸引力,方便顧客欣賞和享用一樣。
數(shù)據(jù)應(yīng)用專家(服務(wù)員)
數(shù)據(jù)應(yīng)用專家就像餐館里的服務(wù)員,他們將數(shù)據(jù)處理和分析的成果傳遞給用戶(企業(yè)決策者、業(yè)務(wù)人員等),并幫助用戶理解和應(yīng)用這些成果。他們需要了解業(yè)務(wù)場景和用戶需求,能夠?qū)?shù)據(jù)洞察轉(zhuǎn)化為實際的行動建議。
例如,在企業(yè)的精準營銷場景中,數(shù)據(jù)應(yīng)用專家要根據(jù)數(shù)據(jù)分析得到的客戶偏好,為營銷人員提供個性化的營銷方案,就像服務(wù)員根據(jù)顧客的口味推薦合適的菜肴一樣,確保數(shù)據(jù)的價值能夠在實際業(yè)務(wù)中得到充分發(fā)揮。
大數(shù)據(jù)系統(tǒng)管理員(餐館經(jīng)理)
大數(shù)據(jù)系統(tǒng)管理員扮演著餐館經(jīng)理的角色,他們要統(tǒng)籌整個大數(shù)據(jù)系統(tǒng)的運行。他們負責協(xié)調(diào)各個環(huán)節(jié)的人員,確保數(shù)據(jù)采集、存儲、處理、可視化和應(yīng)用等環(huán)節(jié)能夠順暢地銜接。
他們還要關(guān)注大數(shù)據(jù)系統(tǒng)的性能和資源利用情況,就像餐館經(jīng)理要關(guān)注餐館的運營效率和成本一樣。當出現(xiàn)問題時,他們要及時調(diào)度資源進行解決,并且要對大數(shù)據(jù)系統(tǒng)的發(fā)展和優(yōu)化做出規(guī)劃,保障大數(shù)據(jù) “餐館” 能夠持續(xù)高效地運營。
最后就是工具設(shè)備,在大數(shù)據(jù)領(lǐng)域聲稱自己是做大數(shù)據(jù)的,其實都是鍋的供應(yīng)商,就是做鍋的。比如做Hadoop的、做MPP數(shù)據(jù)庫的、做大數(shù)據(jù)平臺的、做BI的,都是做鍋的。
然而,鍋只是烹飪美味佳肴的一部分,再精良的鍋具,若沒有技藝精湛的廚師使用,也無法發(fā)揮其真正價值。
在大數(shù)據(jù)的世界里,這些鍋雖然重要,但更關(guān)鍵的是使用它們的人。
數(shù)據(jù)科學家、分析師和工程師們?nèi)缤瑥N師,他們用專業(yè)知識和經(jīng)驗,在這些 “鍋” 中精心 “烹飪” 數(shù)據(jù),將其轉(zhuǎn)化為推動決策、創(chuàng)新和發(fā)展的寶貴信息。同時,不同的 “鍋” 適用于不同的 “食材” 和 “烹飪風格”,企業(yè)和組織需要根據(jù)自身的數(shù)據(jù)特點和業(yè)務(wù)需求來選擇合適的大數(shù)據(jù)工具和平臺,才能真正烹飪出滿足自身口味和營養(yǎng)需求的 “數(shù)據(jù)盛宴”,在這個數(shù)據(jù)驅(qū)動的時代中茁壯成長、脫穎而出。
本文由 @ 心中水木 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)
- 目前還沒評論,等你發(fā)揮!