面向初學(xué)者的數(shù)據(jù)分析知識(shí),讓你快速了解數(shù)據(jù)分析
編輯導(dǎo)語(yǔ):大數(shù)據(jù)是互聯(lián)網(wǎng)發(fā)展到一定階段的必然產(chǎn)物,身處于大數(shù)據(jù)時(shí)代的我們每天都會(huì)活在一連串的數(shù)據(jù)里。因此,為了高效并合理地運(yùn)用這些數(shù)據(jù),數(shù)據(jù)分析行業(yè)迅速崛起。到現(xiàn)在,越來(lái)越多的人看到了數(shù)據(jù)分析的未來(lái)和前景,本文作者總結(jié)了初學(xué)者應(yīng)該掌握的數(shù)據(jù)分析知識(shí),幫助你快速掌握數(shù)據(jù)分析技巧。
一、什么是數(shù)據(jù)分析?
數(shù)據(jù)或信息只是一串原始的數(shù)字或字符,數(shù)據(jù)量的增加會(huì)導(dǎo)致各種需求的增加。
比如我們需要對(duì)數(shù)據(jù)執(zhí)行檢查,進(jìn)行數(shù)據(jù)清理,轉(zhuǎn)換以及數(shù)據(jù)建模,通過(guò)這些方式來(lái)達(dá)到我們需要的目的,得出相應(yīng)的結(jié)論,做出正確的決策——我們把這一系列過(guò)程稱為數(shù)據(jù)分析。
在統(tǒng)計(jì)應(yīng)用中,數(shù)據(jù)分析可以又分為探索性數(shù)據(jù)分析(EDA)和驗(yàn)證性數(shù)據(jù)分析(CDA)。這二者的區(qū)別在于——EDA著重于發(fā)現(xiàn)數(shù)據(jù)中的新特征,而CDA著重于確認(rèn)或否定現(xiàn)有的假設(shè)。
探索性數(shù)據(jù)分析可以理解為一種用于找到數(shù)據(jù)間的模式相關(guān)性的分析。就像是“參考答案”的獲取,這種“參考答案”有且不限于一個(gè)。
場(chǎng)景包括典型的“啤酒尿布”這類數(shù)據(jù)挖掘應(yīng)用,工具包括SAS、SPSS這類數(shù)據(jù)挖掘軟件以及R語(yǔ)言這類語(yǔ)言工具。
優(yōu)點(diǎn)是有可能從一堆貌似雜亂無(wú)章的數(shù)據(jù)中找到一些相關(guān)性和模式來(lái)輔助決策;缺點(diǎn)是找到一些無(wú)意義的相關(guān)性,比如所有擁有結(jié)婚證的用戶都結(jié)過(guò)婚。
驗(yàn)證性數(shù)據(jù)分析是當(dāng)你知道了用什么分析模型和算法,目前需要對(duì)已有的數(shù)據(jù)計(jì)算出響應(yīng)結(jié)果,更類似一種“準(zhǔn)確答案“的獲取。
應(yīng)用場(chǎng)景就是基于多維數(shù)據(jù)倉(cāng)庫(kù)的OLAP分析應(yīng)用。在企業(yè)應(yīng)用最廣泛的就是EPM(Enterprise Performance Management)包括全面預(yù)算,商業(yè)智能等應(yīng)用。
在企業(yè)應(yīng)用最廣泛的就是EPM(Enterprise Performance Management)包括全面預(yù)算,商業(yè)智能等應(yīng)用。
與"啤酒尿布”這種探索性數(shù)據(jù)挖掘應(yīng)用相比,OLAP分析的結(jié)果只能是唯一的準(zhǔn)確答案。
比如通過(guò)企業(yè)計(jì)算出的利潤(rùn)率只能是一個(gè)數(shù)字,任何一家企業(yè)都不可能得出“利潤(rùn)率有可能是13.2%”這樣的答案,一旦確定了一個(gè)數(shù)字,那這個(gè)數(shù)字就必然只有對(duì)和錯(cuò)兩種結(jié)果,不存在第三種的可能性。
這類系統(tǒng)包括Oracle Hyperion、IBM Cognos以及智達(dá)方通Intcube EPM,這些都是基于多維數(shù)據(jù)倉(cāng)庫(kù)的OLAP分析工具平臺(tái)。
二、數(shù)據(jù)分析的大致步驟
1. 確立目標(biāo)
無(wú)論何時(shí)發(fā)生任何需求,我們首先都需要確定業(yè)務(wù)目標(biāo),評(píng)估情況,確定數(shù)據(jù)挖掘目標(biāo),然后根據(jù)需求生成項(xiàng)目計(jì)劃。在此階段定義業(yè)務(wù)目標(biāo)。
2. 尋找數(shù)據(jù)
對(duì)于進(jìn)一步的過(guò)程,我們需要收集初始數(shù)據(jù),描述和探索數(shù)據(jù),最后驗(yàn)證數(shù)據(jù)質(zhì)量以確保它包含我們所需的數(shù)據(jù)。從各種來(lái)源收集的數(shù)據(jù)將根據(jù)其應(yīng)用和此階段對(duì)項(xiàng)目的需求進(jìn)行描述,這也稱為數(shù)據(jù)瀏覽,對(duì)于驗(yàn)證所收集數(shù)據(jù)的質(zhì)量是必要的。
3. 數(shù)據(jù)整理
從最后一步收集的數(shù)據(jù)中,我們需要根據(jù)需要選擇數(shù)據(jù),對(duì)其進(jìn)行清理,構(gòu)造以獲取有用的信息,然后將其整合在一起。
最后,我們需要格式化數(shù)據(jù)以獲取適當(dāng)?shù)臄?shù)據(jù)。選擇數(shù)據(jù),清理數(shù)據(jù)并將其集成為最終確定的格式,以便在此階段進(jìn)行分析。
4. 數(shù)據(jù)建模
收集數(shù)據(jù)后,我們對(duì)其進(jìn)行數(shù)據(jù)建模。為此,我們需要選擇一種建模技術(shù),生成測(cè)試設(shè)計(jì),構(gòu)建模型并評(píng)估構(gòu)建的模型。建立數(shù)據(jù)模型以分析數(shù)據(jù)中各種選定對(duì)象之間的關(guān)系,建立測(cè)試用例以評(píng)估模型,并在此階段對(duì)數(shù)據(jù)進(jìn)行測(cè)試和實(shí)施。
5. 數(shù)據(jù)評(píng)估
在這里,我們?cè)u(píng)估最后一步的結(jié)果,檢查錯(cuò)誤范圍,并確定接下來(lái)要執(zhí)行的步驟。我們?cè)u(píng)估測(cè)試用例的結(jié)果,并回顧此階段的錯(cuò)誤范圍。
6. 部署
我們需要計(jì)劃部署,監(jiān)視和維護(hù),并生成最終報(bào)告并審查項(xiàng)目。在此階段,我們將部署分析結(jié)果,這也稱為審查項(xiàng)目。
三、數(shù)據(jù)分析的四種類型
1. 描述性分析
通過(guò)描述性分析這一手段,我們可以分析和描述數(shù)據(jù)的特征。這是一個(gè)處理信息匯總的好方法。描述性分析與視覺(jué)分析相結(jié)合,為我們提供了全面的數(shù)據(jù)結(jié)構(gòu)。
在描述性分析中,我們處理過(guò)去的數(shù)據(jù)以得出結(jié)論,并以儀表板的形式展現(xiàn)出來(lái)。在企業(yè)中,描述性分析多用于確定關(guān)鍵績(jī)效指標(biāo)或KPI以評(píng)估企業(yè)績(jī)效。
2. 預(yù)測(cè)分析
借助預(yù)測(cè)分析,我們可以確定未來(lái)的結(jié)果。基于對(duì)歷史數(shù)據(jù)的分析,我們甚至可以預(yù)測(cè)未來(lái)。它利用描述性分析來(lái)生成有關(guān)未來(lái)的預(yù)測(cè),借助技術(shù)進(jìn)步和機(jī)器學(xué)習(xí),能夠獲得有關(guān)未來(lái)的預(yù)測(cè)性見解。
預(yù)測(cè)分析是一個(gè)復(fù)雜的領(lǐng)域,需要大量數(shù)據(jù)來(lái)熟練地執(zhí)行預(yù)測(cè)模型及其調(diào)整從而獲得較為準(zhǔn)確的預(yù)測(cè),這需要我們精通機(jī)器學(xué)習(xí)并開發(fā)有效的模型。
3. 診斷分析
有時(shí),企業(yè)需要對(duì)數(shù)據(jù)的性質(zhì)進(jìn)行批判性思考,并深入了解描述性分析。為了找到數(shù)據(jù)中的問(wèn)題,我們需要對(duì)一些分析進(jìn)行診斷。
通過(guò)診斷分析,我們可以診斷通過(guò)數(shù)據(jù)顯示的各種問(wèn)題。企業(yè)使用此技術(shù)來(lái)減少損失并優(yōu)化績(jī)效,企業(yè)使用診斷分析的一些示例包括:
- 企業(yè)實(shí)施診斷分析以減少物流延遲并優(yōu)化生產(chǎn)流程。
- 借助銷售領(lǐng)域的診斷分析,可以更新營(yíng)銷策略,否則將削弱總收入。
4. 規(guī)范分析
規(guī)范分析結(jié)合了以上所有分析技術(shù)的見解嗎,它被稱為數(shù)據(jù)分析的最終領(lǐng)域,規(guī)范分析使公司可以根據(jù)這些數(shù)據(jù)結(jié)論制定相關(guān)決策。
規(guī)范分析需要大量使用人工智能,以方便公司做出謹(jǐn)慎的業(yè)務(wù)決策,像Facebook、Netflix、Amazon和Google之類的大公司正在使用規(guī)范分析來(lái)制定關(guān)鍵業(yè)務(wù)決策。
此外,金融機(jī)構(gòu)也逐漸利用這種技術(shù)來(lái)增加進(jìn)行決策。
四、數(shù)據(jù)分析可能會(huì)用到哪些工具?
基于數(shù)據(jù)分析目前良好的發(fā)展前景,各界也出現(xiàn)了許多好用的功能種類豐富的數(shù)據(jù)分析工具。既有面向開源的又有用戶友好型的,而以下這些工具是目前市面上比較常用且好評(píng)率較高的:
1. R
該工具是用于統(tǒng)計(jì)和數(shù)據(jù)建模的領(lǐng)先分析工具。R可以在UNIX、Windows和Mac OS等各種平臺(tái)上編譯和運(yùn)行,它還提供了根據(jù)用戶要求自動(dòng)安裝所有軟件包的工具。
2. Python
Python是一種開源的,面向?qū)ο蟮木幊陶Z(yǔ)言,易于閱讀,編寫和維護(hù)。它提供了各種機(jī)器學(xué)習(xí)和可視化庫(kù),例如 Scikit-learn、TensorFlow、Matplotlib、Pandas、Keras等。
它還可以在任何平臺(tái)上進(jìn)行組裝,例如SQL Server、MongoDB數(shù)據(jù)庫(kù)或JSON。
3. Tableau
這是一個(gè)免費(fèi)軟件,可連接到任何數(shù)據(jù)源,例如Excel、公司數(shù)據(jù)倉(cāng)庫(kù)等。然后通過(guò)網(wǎng)絡(luò)實(shí)時(shí)更新創(chuàng)建可視化效果、地圖、儀表板等。
4. QlikView
該工具提供內(nèi)存中數(shù)據(jù)處理,并將結(jié)果快速傳遞給最終用戶。它還提供數(shù)據(jù)關(guān)聯(lián)和數(shù)據(jù)可視化功能,數(shù)據(jù)壓縮到其原始大小的近10%。
5. SAS
一種用于數(shù)據(jù)處理和分析的編程語(yǔ)言和環(huán)境,該工具易于訪問(wèn),并且可以分析來(lái)自不同來(lái)源的數(shù)據(jù)。
6. Excel
此工具是數(shù)據(jù)分析中使用最廣泛的工具之一。該工具通常用于客戶的內(nèi)部數(shù)據(jù),它 ?通過(guò)透視表的預(yù)覽來(lái)分析匯總數(shù)據(jù)的任務(wù)。
7. RapidMiner
一個(gè)功能強(qiáng)大的集成平臺(tái),可以與任何數(shù)據(jù)源類型(例如Acess、Excel、Microsoft SQL、Tera數(shù)據(jù)、Oracle、Sybase等)集成。該工具主要用于預(yù)測(cè)分析,例如數(shù)據(jù)挖掘、文本分析、機(jī)器學(xué)習(xí)。
8. KNIME
Konstanz Information Miner(KNIME)是一個(gè)開放源數(shù)據(jù)分析平臺(tái),可讓您分析和建模數(shù)據(jù)。利用可視化編程的優(yōu)勢(shì),KNIME通過(guò)其模塊化數(shù)據(jù)管道概念提供了一個(gè)報(bào)告和集成平臺(tái)。
9. OpenRefine
也稱為GoogleRefine,此數(shù)據(jù)清理軟件將幫助您清理數(shù)據(jù)以進(jìn)行分析,用于清除凌亂的數(shù)據(jù),轉(zhuǎn)換數(shù)據(jù)以及從網(wǎng)站解析數(shù)據(jù)。
10. Apache Spark
最大的大型數(shù)據(jù)處理引擎之一,該工具在Hadoop群集中執(zhí)行應(yīng)用程序的內(nèi)存速度快100倍,磁盤速度快10倍,該工具在數(shù)據(jù)管道和機(jī)器學(xué)習(xí)模型開發(fā)中也很流行。
五、數(shù)據(jù)分析歷史故事分享
倫敦霍亂的數(shù)據(jù)追蹤:
圖片來(lái)自網(wǎng)絡(luò)
約翰·斯諾(John Snow)(不是權(quán)力游戲的角色)是一位英國(guó)醫(yī)生,他使用數(shù)據(jù)收集和數(shù)據(jù)分析來(lái)追蹤倫敦市中心霍亂暴發(fā)的根源,得出的結(jié)論是霍亂是由“水中的媒介”傳播的”,而不是通過(guò)“不良空氣”傳播的公認(rèn)理論。
斯諾利用數(shù)據(jù)收集來(lái)追蹤霍亂的暴發(fā),原因是兩家自來(lái)水公司從泰晤士河中抽取了水,而這些水幾乎沒(méi)有經(jīng)過(guò)過(guò)濾。
他指出,一個(gè)巨大的雙盲實(shí)驗(yàn)落入了他的大腿:
“不分男女,從各個(gè)年齡段,各個(gè)階層,不同階層,到三十萬(wàn),從紳士到窮人分為兩組,沒(méi)有他們的選擇,并且在大多數(shù)情況下,沒(méi)有他們的知識(shí);一組被供應(yīng)含有倫敦污水的水。其中,任何可能來(lái)自霍亂患者的東西,另一組的水中完全不含這種雜質(zhì)?!?/p>
斯諾對(duì)后續(xù)數(shù)據(jù)和其他工作的分析導(dǎo)致倫敦和其他城市的水和廢物管理發(fā)生根本變化,挽救了許多生命,并為全球公共衛(wèi)生做出了重大貢獻(xiàn)。
六、如何成為一名數(shù)據(jù)分析師?
數(shù)據(jù)分析師收集,處理和執(zhí)行大型數(shù)據(jù)集的分析。無(wú)論大小,每個(gè)企業(yè)都會(huì)生成并收集數(shù)據(jù),這些數(shù)據(jù)可以采用客戶反饋、客戶、物流、市場(chǎng)研究等形式。
我認(rèn)為作為一名數(shù)據(jù)分析師,至少得具備以下這些技能:
- 數(shù)據(jù)分析師首要的就是用數(shù)字說(shuō)話:因此很明顯,數(shù)學(xué)是成為數(shù)據(jù)分析師的重要組成部分,線性代數(shù)和微積分的知識(shí)是將業(yè)務(wù)問(wèn)題轉(zhuǎn)換為數(shù)學(xué)表達(dá)式所必需的。
- 概率和統(tǒng)計(jì):這些事想要成為數(shù)據(jù)分析師的必備技能,為了得出準(zhǔn)確的結(jié)論,我們需要知道事件發(fā)生的可能性,也就是概率。為了進(jìn)行推論和解釋數(shù)據(jù),我們必須了解如何應(yīng)用各種統(tǒng)計(jì)測(cè)試和技術(shù)。
- 編程:絕對(duì)是數(shù)據(jù)分析的最重要組成部分之一。因此,學(xué)習(xí)一種或多種編程語(yǔ)言,例如Python、Java、SQL、R來(lái)進(jìn)行數(shù)據(jù)管理和探索是必要的。
成為一名數(shù)據(jù)分析師還不僅僅如此,以上只是必不可少的技能而已。
從根本上講,學(xué)習(xí)如何成為數(shù)據(jù)分析師與在任何行業(yè)中謀求職業(yè)生涯一樣——努力工作與成功成正比,僅僅靠天賦是不夠用的。一旦你成為了一名數(shù)據(jù)分析師,你將可能體驗(yàn)以下職責(zé):
- 與技術(shù)團(tuán)隊(duì),管理層和/或數(shù)據(jù)科學(xué)家一起制定目標(biāo);
- 從主要和次要來(lái)源挖掘數(shù)據(jù);
- 清理和解剖數(shù)據(jù)以擺脫不相關(guān)的信息;
- 使用統(tǒng)計(jì)工具和技術(shù)分析和解釋結(jié)果;
- 查明數(shù)據(jù)集中的趨勢(shì)和模式;
- 確定新的流程改進(jìn)機(jī)會(huì);
- 提供管理數(shù)據(jù)報(bào)告;
- 設(shè)計(jì),創(chuàng)建和維護(hù)數(shù)據(jù)庫(kù)和數(shù)據(jù)系統(tǒng);
- 解決代碼問(wèn)題和與數(shù)據(jù)有關(guān)的問(wèn)題。
路漫漫其修遠(yuǎn)兮,關(guān)于數(shù)據(jù)分析的路道阻且長(zhǎng),最終我們?nèi)孕枰则?qū)動(dòng)去不斷學(xué)習(xí)汲取知識(shí),這樣才能學(xué)好數(shù)據(jù)分析。
本文由 @小陳同學(xué) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自 Pexels,基于 CC0 協(xié)議
太難了,做不到