3分鐘,看懂區(qū)間估計和置信區(qū)間
編輯導(dǎo)語:數(shù)據(jù)分析離不開統(tǒng)計學(xué)知識的輔助,其中,區(qū)間估計指的是在點估計的基礎(chǔ)上,得出一個相對合理的取值范圍,這一方法雖然當(dāng)下使用得較少,但是對其進(jìn)行學(xué)習(xí),有助于幫助我們理解其他概念,如假設(shè)檢驗等。本文作者就對區(qū)間估計的概念和操作方法等進(jìn)行了總結(jié),一起來看一下。
大家好,我是愛學(xué)習(xí)的小xiong熊妹。
很多小伙伴想知道:做數(shù)據(jù)分析,到底要懂多少統(tǒng)計學(xué)?小熊妹很認(rèn)真地做一個懶人攻略,不講復(fù)雜的理論,直接講實際操作,希望能幫助到大家哦。
如果要講統(tǒng)計學(xué),第一個概念要從區(qū)間估計講起,這是后續(xù)很多方法的基礎(chǔ)。
一聽:“區(qū)間估計”的名字,很多小伙伴會一腦袋問號:
- 為什么要“估計”?
- 為什么還要有“區(qū)間”?
今天的分享就從這里開始。
一、什么是“估計”
“估計”是指用抽樣的數(shù)據(jù)估計全體的數(shù)據(jù)情況。之所以這么做,是因為很多時候,想全體采集數(shù)據(jù)太難了!比如生產(chǎn)真空包裝雞腿的企業(yè),要檢查質(zhì)量,就得把包裝拆開,那雞腿就不能再賣了。這是多大的損失呀!所以必須抽樣。
如果直接用抽樣數(shù)據(jù)代表全體數(shù)據(jù),就是所謂:點估計。
常見的點估計指標(biāo)有2個:
- 平均值:比如抽樣雞腿的平均重量為150克。
- 比例:比如抽樣雞腿的衛(wèi)生合格率為99.9%。
但是,直接這么做會有問題,就是:抽樣對象不同,點估計值經(jīng)常有差異。為了解決這個問題,有了區(qū)間估計的做法。
二、什么是“區(qū)間估計”
通俗地講:區(qū)間估計是在點估計的基礎(chǔ)上,給一個合理取值范圍。
比如:抽樣雞腿的平均重量為150克,是一個點估計值。抽樣雞腿的平均重量為145克到155克之間,是一個區(qū)間估計。
其中,145到155稱為置信區(qū)間。這很符合人們的常規(guī)理解:東西很難100%準(zhǔn)確,有個范圍也是可以理解的。
但這個范圍有多大可信度呢?人們用置信置信水平來衡量,即:“我們有多大把握,真實值在置信區(qū)間內(nèi)”。一般用(1-α)表示。如果α取0.05,則置信水平為0.95,即95%的把握。
置信區(qū)間與置信水平連起來,完整的表達(dá)為:“我們有95%的把握,雞腿平均重量在145至155克之間?!?/p>
有小伙伴會好奇,為啥置信水平不是100%!通俗地說,當(dāng)置信水平太高時,置信區(qū)間會變得非常大,從而產(chǎn)生一些正確但無用的結(jié)論。
比如:我們有100%的把握,小熊妹顏值在負(fù)分(-10分)與美若天仙(10分)之間……這是句正確的廢話。
再比如:我們有95%的把握,小熊妹是個顏值8分的美女(10分滿分)……這個結(jié)論是不是有用多了!
三、如何做區(qū)間估計
做區(qū)間估計需要四步,不想看原理的小伙伴,死記硬背即可。
- 第一步:確認(rèn)抽樣對象和要計算的指標(biāo)(看算平均值還是比例);
- 第二步:進(jìn)行抽樣,獲得樣本數(shù)據(jù)(平均值、比例、方差、樣本量);
- 第三步:給定置信水平(1-α值);
- 第四步:利用Z分布,求出對應(yīng)置信區(qū)間范圍。
計算公式為:
只要把公式的參數(shù),套進(jìn)去即可。其中標(biāo)準(zhǔn)差,Z值/t值,平均值等參數(shù),在各種計算工具里都有現(xiàn)成的公式可以用。
四、兩個簡單的例子
某公司主要針對中老年群體開發(fā)產(chǎn)品,用戶在購買時無需提供身份信息,因此不清楚用戶年齡。
現(xiàn)需抽樣,調(diào)查其目標(biāo)客戶的年齡是否符合“中老年”的范疇,抽樣數(shù)據(jù)如下,請計算90%置信水平下的目標(biāo)客戶年齡置信區(qū)間(如下圖)。
再看個比例的例子。某公司想了解用戶滿意度,而有相當(dāng)比例的用戶沒有在商品評價里打分,因此采用調(diào)查方法,抽300名未在網(wǎng)站打分用戶調(diào)查,其中182名用戶表示滿意,求95%置信水平下,用戶滿意率的置信區(qū)間(如下圖)。
看到這個結(jié)果,反應(yīng)快的小伙伴已經(jīng)馬上意識到:這種計算能用來驗證業(yè)務(wù)有沒有撒謊!比如上例中,如果業(yè)務(wù)方說“用戶滿意率肯定在70%以上”這樣謊言就被戳穿了。
實際上,也確實是如此操作的。區(qū)間估計的方法是做假設(shè)檢驗的基礎(chǔ)理論,所以小伙們都得掌握一下。
五、這么神奇的方法,為啥平時不咋用?
答:現(xiàn)代企業(yè)采集數(shù)據(jù)的手段豐富了很多,特別是互聯(lián)網(wǎng)企業(yè),用戶的注冊、點擊、互動數(shù)據(jù)是全體收集的。因此想了解用戶消費情況,完全可以針對全體統(tǒng)計消費率、消費金額等指標(biāo)。就不需要抽樣了,因此用得很少。
但這不意味著運營、產(chǎn)品、銷售的同學(xué)就不需要掌握這個概念。因為這兩年ABtest大行其道,導(dǎo)致抽樣實驗的方法又形成一輪文藝復(fù)興。
先掌握區(qū)間估計的方法,對后邊理解單樣本/雙樣本/多樣本假設(shè)檢驗,有巨大幫助。這一點,講到后邊大家都理解了。
以上就是今天的分享,謝謝大家。
作者:碼工小熊,微信公眾號:碼工小熊
本文由 @碼工小熊 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于CC0協(xié)議
麻煩請問Excel里怎么用Z分布呢
請問Excel里怎么用Z分布呀