亚洲精品无码MV在线观看,久久久久久国产精品免费无码,亚洲午夜无码片在线观看影院

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

數(shù)據(jù)分析必備——統(tǒng)計學(xué)入門基礎(chǔ)知識

木木自由與數(shù)據(jù)分析

2020-09-23

0 評論 24096 瀏覽 100 收藏

12 分鐘

編輯導(dǎo)語：不論在什么崗位，都要懂得本崗位的基礎(chǔ)知識，打牢基礎(chǔ)后面才能穩(wěn)步發(fā)展；數(shù)據(jù)分析也是如此，數(shù)據(jù)分析必須要掌握統(tǒng)計學(xué)的基礎(chǔ)知識；本文是作者分享的關(guān)于統(tǒng)計學(xué)入門基礎(chǔ)的知識，我們一起來學(xué)習(xí)一下吧。

要做好數(shù)據(jù)分析，除了自身技術(shù)硬以及數(shù)據(jù)思維靈活外，還得學(xué)會必備的統(tǒng)計學(xué)基礎(chǔ)知識！

因此，統(tǒng)計學(xué)是數(shù)據(jù)分析必須掌握的基礎(chǔ)知識，即通過搜索、整理、分析、描述數(shù)據(jù)等手段，以達(dá)到推斷所測對象的本質(zhì)，甚至預(yù)測對象未來的一門綜合性科學(xué)。

統(tǒng)計學(xué)用到了大量的數(shù)學(xué)及其它學(xué)科的專業(yè)知識，其應(yīng)用范圍幾乎覆蓋了社會科學(xué)和自然科學(xué)的各個領(lǐng)域，而在數(shù)據(jù)量極大的互聯(lián)網(wǎng)領(lǐng)域也不例外；因此扎實的統(tǒng)計學(xué)基礎(chǔ)是一個優(yōu)秀的數(shù)據(jù)人必備的技能。

但是，統(tǒng)計學(xué)的知識包括了圖形信息化、數(shù)據(jù)的集中趨勢、概率計算、排列組合、連續(xù)型概率分布、離散型概率分布、假設(shè)檢驗、相關(guān)和回歸等知識；對于具體的知識點，本文就不一一介紹了，感興趣的同學(xué)請參考《深入淺出統(tǒng)計學(xué)》、《統(tǒng)計學(xué)：從數(shù)據(jù)到結(jié)論》等等專業(yè)書籍。

統(tǒng)計學(xué)分為描述性統(tǒng)計學(xué)和推斷性統(tǒng)計學(xué)。

一、描述性統(tǒng)計

定義：使用特定的數(shù)字或圖表來體現(xiàn)數(shù)據(jù)的集中程度和離散程度。

1. 集中趨勢

集中趨勢集中趨勢是指一組數(shù)據(jù)所趨向的中心數(shù)值，用到的指標(biāo)有：算數(shù)均數(shù)、幾何均數(shù)、中位數(shù)。

算數(shù)均數(shù)：即為均數(shù)，用以反映一組呈對稱分布的變量值在數(shù)量上的平均水平。
幾何均數(shù)：常用以反映一組經(jīng)對數(shù)轉(zhuǎn)換后呈對稱分布的變量值在數(shù)量上的平均水平。
中位數(shù)：適用于偏態(tài)分布資料和一端或兩端無確切的數(shù)值的資料，是第50百分位數(shù)。
百分位數(shù)：為一界值，用以確定醫(yī)學(xué)參考值范圍。

2. 離散趨勢

離散趨勢是反映數(shù)據(jù)的變異程度，常用指標(biāo)有極差、四分位間距、方差與標(biāo)準(zhǔn)差、變異系數(shù)。

極差：為一組數(shù)據(jù)的最大值和最小值之差，但極差不能反映所有數(shù)據(jù)的變異大小，且極易受樣本含量的影響。常用以描述偏態(tài)分布。
四分位數(shù)間距：它是由第3四分位數(shù)與第1四分位數(shù)相減得到，常和中位數(shù)一起描述偏態(tài)分布資料的分布。
方差與標(biāo)準(zhǔn)差：反映一組數(shù)據(jù)的平均離散水平，消除了樣本含量的影響，常和均數(shù)一起用來描述一組數(shù)據(jù)中的離散和集中趨勢。
變異系數(shù)：也稱作異常值，多用于觀察指標(biāo)單位不同時，可消除因單位不同而不能進(jìn)行比較的困難。

例如箱線圖就可以很好反映其中部分重點統(tǒng)計值：

3. 抽樣方法和中心極限定理

抽樣方法：

我們在做產(chǎn)品檢驗的時候，不可能把所有的產(chǎn)品都打開檢驗一遍看是否合格，我們只能從全部的產(chǎn)品中抽取部分樣本進(jìn)行檢驗，依據(jù)樣本的質(zhì)量估算整體的產(chǎn)品質(zhì)量，這個就是抽樣，抽樣的定義是為了檢驗整體從整體中抽離部分樣本進(jìn)行檢測，以樣本的檢測結(jié)果進(jìn)行整體質(zhì)量的估算的方法。

抽樣有多種方法，針對不同的目的和場景，需要運用不同的方法進(jìn)行檢測，常見的抽樣方法有：

1）概率抽樣

簡單隨機(jī)抽樣；
分層抽樣；
整群抽樣（先將總體中若干個單位合并為組，這樣的組稱為群，再直接對群進(jìn)行抽樣）；
系統(tǒng)抽樣（將總體中所有單位按一定順序排列，在規(guī)定的范圍內(nèi)隨機(jī)抽取一個單位作為初始單位，然后再按事先指定好的規(guī)則確定其他樣本單位）；
階段抽樣（先抽群，然后在群內(nèi)進(jìn)行二階段抽樣）。

2）非概率抽樣

方便抽樣（依據(jù)方便原則自行確定）；
判斷抽樣（依據(jù)專業(yè)知識進(jìn)行判斷）；
自愿樣本（調(diào)查者自愿參加）；
滾雪球樣本（類似樹結(jié)構(gòu)）；
配額樣本（類似分層抽樣）；

3）兩者抽樣方法之間的比較：

非概率抽樣適合探索性的研究，為更深入的數(shù)據(jù)分析做準(zhǔn)備，特點是操作簡便、時效快、成本低；而且對于抽樣中的統(tǒng)計專業(yè)技術(shù)要求不是很高；
概率抽樣的技術(shù)含量更高，調(diào)查成本更高，統(tǒng)計學(xué)專業(yè)知識要求更高，適合調(diào)查目的為研究對象總體，得到總體參數(shù)的置信區(qū)間。

4）中心極限定理：

若給定樣本量的所有樣本來自任意整體，則樣本均值的抽樣分布近似服從正態(tài)分布，且樣本量越大，近似性越強(qiáng)。

以30為界限，當(dāng)樣本量大于30的時候符合中心極限定理，樣本服從正態(tài)分布；當(dāng)樣本量小于30的時候，總體近似正態(tài)分布時，此時樣本服從t分布。樣本的分布形態(tài)決定了我們在假設(shè)檢驗中采用什么方法去檢驗它。

二、推斷性統(tǒng)計

定義：根據(jù)樣本數(shù)據(jù)推斷總體的數(shù)據(jù)特征。

1. 基本步驟

產(chǎn)品質(zhì)檢的時候用的幾乎都是抽樣方法的推斷性統(tǒng)計，推斷性的過程就是一種假設(shè)檢驗，在做推斷性統(tǒng)計的時候我們需要明確幾點：

問題是什么？
需要明確的證據(jù)是什么？
判斷標(biāo)準(zhǔn)是什么？

明確后可以對應(yīng)我們假設(shè)檢驗的幾個步驟了：

提出原假設(shè)（H0）和備選假設(shè)（H1），確定顯著性水平（原假設(shè)為正確時，人們把它拒絕了的概率）；
選擇檢驗方法，確定檢驗統(tǒng)計量；
確定P值，作出統(tǒng)計推理；

假設(shè)對于某一個器件，國家標(biāo)準(zhǔn)要求：平均值要低于20。

某公司制造出10個器件，相關(guān)數(shù)值如下：15.6、16.2、22.5、20.5、16.4、19.4、16.6、17.9、12.7、13.9。

運用假設(shè)檢驗判斷該公司器件是否符合國家標(biāo)準(zhǔn)：

1）設(shè)假設(shè)：

原假設(shè)：器件平均值>=20；
備擇假設(shè)：器件平均值<20；

2）總體為正態(tài)分布，方差未知，樣本為小樣本，因此采用T檢驗。

3）計算檢驗統(tǒng)計量：樣本平均值17.17，樣本標(biāo)準(zhǔn)差2.98，檢驗統(tǒng)計量為?（17.17-20）/（2.98/√10）=-3.0031

4）當(dāng)置信度選擇97.5%，自由度為9，此時為單尾檢驗，臨界值為2.262。

5）由于-3.0031<-2.262，拒絕原假設(shè)，因此接受備擇假設(shè)，該器件滿足國家標(biāo)準(zhǔn)。

2. 假設(shè)檢驗類型

單樣本檢驗：檢驗單個樣本的平均值是否等于目標(biāo)值；
相關(guān)配對檢驗：檢驗相關(guān)或配對觀測之差的平均值是否等于目標(biāo)值；
獨立雙樣本檢驗：檢驗兩個獨立樣本的平均值之差是否等于目標(biāo)值；

3. 統(tǒng)計檢驗方法

Z檢驗：一般用于大樣本（即樣本容量大于30）平均值差異性檢驗的方法。它是用標(biāo)準(zhǔn)正態(tài)分布的理論來推斷差異發(fā)生的概率，從而比較兩個平均數(shù)>平均數(shù)的差異是否顯著。

T檢驗：用于樣本含量較?。ɡ鏽<30），總體標(biāo)準(zhǔn)差σ未知的正態(tài)分布樣本。

F檢驗：F檢驗又叫方差齊性檢驗。在兩樣本t檢驗中要用到F檢驗。檢驗兩個樣本的方差是否有顯著性差異這是選擇何種T檢驗（等方差雙樣本檢驗，異方差雙樣本檢驗）的前提條件。

（T檢驗用來檢測數(shù)據(jù)的準(zhǔn)確度，檢測系統(tǒng)誤差；F檢驗用來檢測數(shù)據(jù)的精密度，檢測偶然誤差。）

卡方檢驗：主要用于檢驗兩個或兩個以上樣本率或構(gòu)成比之間差別的顯著性，也可檢驗兩類事物之間是否存在一定的關(guān)系。

4. 雙尾檢測和單尾檢測

這個和我們提出的原假設(shè)相關(guān)，例如我們檢測的原假設(shè)：器件平均值>=20。

我們需要拒絕的假設(shè)就是器件平均值<20，此時就是單尾檢驗；如果我們的原假設(shè)是器件平均值>20，則我們需要拒絕的假設(shè)就是器件平均值<20和器件平均值=20，此時就是雙尾檢測。

5. 置信區(qū)間和置信水平

在統(tǒng)計學(xué)中，幾乎都是依據(jù)樣本來推斷總體的情況的，但在推斷的過程中，我們會遇到各種各樣的阻礙和干擾；所以我們推斷出的結(jié)果不是一個切確的數(shù)字，而是在某個合理的區(qū)間內(nèi)，這個范圍就是置信區(qū)間。

但整體中所有的數(shù)據(jù)都在這個范圍也不現(xiàn)實，我們只需要絕大多數(shù)出現(xiàn)在置信區(qū)間就可以了，這里的絕大多數(shù)就是置信水平的概念，通常情況我們的置信水平是95%。

置信區(qū)間[a，b]的計算方法為：（z分?jǐn)?shù)：由置信水平?jīng)Q定，查表得。）

a = 樣本均值 – z*標(biāo)準(zhǔn)誤差，b = 樣本均值 + z*標(biāo)準(zhǔn)誤差

志在必得。

不學(xué)自知，不問。自曉，古今行事未之有也！

就數(shù)據(jù)分析而言，我們通過統(tǒng)計學(xué)可以用更富有信息驅(qū)動力和針對性的方式對數(shù)據(jù)進(jìn)行操作；更深入、更細(xì)致地觀察數(shù)據(jù)是如何進(jìn)行精確組織的，并且基于這種組織結(jié)構(gòu)確定數(shù)據(jù)分析的方法，來獲取更多的信息。

作者：木兮&小陌，數(shù)據(jù)運營；公眾號：木木自由

本文由 @木兮擎天＠原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載

題圖來自Unsplash，基于CC0協(xié)議

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App