做問卷調查時,你真的會選擇樣本嗎?
編輯導語:問卷調查的作用主要是通過部分來推斷整體情況,那么部分的選擇就至關重要,選擇的部分能否代表整體,決定了問卷調查的可靠性。本篇文章就從樣本選擇的角度出發,講講什么是樣本框,如何進行抽樣,以及如何確定最小的樣本量。
一、抽樣框
抽樣框在抽樣調查中處于基礎地位,是抽樣問卷調查必不可少的部分,其對于推斷總體具有相當大的影響。
抽樣框是用來代表總體,從中抽選樣本的一個框架。具體表現形式可以是一個學生的花名冊、工商企業名錄等。例如:假設現在要調查全國32萬所小學的學生家長對于國家“雙減政策”的民意調查,從中選取出10所最具有代表性的小學,并從中抽取出10000名學生家長進行調查。
那么在這個例子中 ,總體是32萬所小學的學生家長,抽樣框是所選出的10所小學的學生家長名冊,樣本是最后抽取出的10000名學生家長。
當然抽樣框也不定是具象的,也可能是抽象的,例如,在大型零售商場對購買者或消費者進行隨機訪問調查時,并沒有具體的名冊。
抽樣框選取能否代表總體,直接決定了調研結果的可靠性。在我們的例子中選取10所學校家長需要能夠代表全國32萬所學校的學生家長,需要考慮的因素有很多,比如:收入因素、地域因素、宗教因素等等,因此在調研初期,根據調研的目的和主題盡可能確定準確的抽樣框,從而減少調查的誤差。
我們來看一個由于抽樣框選取錯誤,而導致失敗的案例:1936年美國總統選舉民意測驗。
1936年美國總統大選,競選的是民主黨的羅斯福和共和黨的蘭登。美國權威的《文學摘要》雜志社,為了預測總統候選人誰能當選,采用了大規模的模擬選舉(他們以電話簿上的地址和俱車輛注冊系統的地址發出1000萬封信,收到回信200萬封)。預測蘭登將以57%對43%的比例獲勝,并大力進行宣傳。
最后選舉結果卻是羅斯福以62%對38%的巨大優勢獲勝。原因是在1936年的美國,富裕的家庭才有私人電話和汽車。為了挽救大蕭條造成的經濟打擊,當時的羅斯福政府強行干預市場經濟,從而在富人中普遍缺乏好感。
因此,《文學摘要》的調查樣本不是從總體(全體美國選民)中隨機地抽取,而是主要從富人的抽樣框中抽取,這樣的調查結果當然對羅斯福不利。
在問卷領域,最關注的是“代表性”,而非數量。因此在選取樣本框時,一定要從多方面因素來考慮,從而避免選取出誤差較大的樣本框。
也許你想問,怎么才能知道自己的樣本數據是否正確。 很遺憾的告訴你,沒有辦法,除非調查了全部的總體,才能準確的知道自己抽取的樣本是否正確。 但是沒有關系,誤差是會永遠存在的,我們需要做的是盡可能的減少誤差,而不是消滅誤差。
二、抽樣方法
抽樣是指從抽樣框或總體中抽取出一部分數據作為樣本的動作。抽樣的方法有很多,介紹幾種常見的抽樣方法。
1. 簡單隨機抽樣
一般的,設一個總體個數為N,如果通過逐個抽取的方法抽取一個樣本,且每次抽取時,每個個體被抽到的概率相等,這樣的抽樣方法為簡單隨機抽樣。適用于總體個數較少的。
2. 系統抽樣
當總體的個數比較多的時候,首先把總體分成均衡的幾部分,然后按照預先定的規則,從每一個部分中抽取一些個體,得到所需要的樣本,這樣的抽樣方法叫做系統抽樣。
3. 分層抽樣
抽樣時,將總體分成互不交叉的層,然后按照一定的比例,從各層中獨立抽取一定數量的個體,得到所需樣本,這樣的抽樣方法為分層抽樣。適用于總體由差異明顯的幾部分組成。
4. 整群抽樣
整群抽樣又稱聚類抽樣。是將總體中各單位歸并成若干個互不交叉、互不重復的集合,稱之為群;然后以群為抽樣單位抽取樣本的一種抽樣方式。應用整群抽樣時,要求各群有較好的代表性,即群內各單位的差異要大,群間差異要小。
5. 多段抽樣
多段隨機抽樣,就是把從調查總體中抽取樣本的過程,分成兩個或兩個以上階段進行的抽樣方法。
系統、分層、整體、多段比較難實現,在問卷調查中經常被使用到的方法是簡單隨機抽樣。
三、如何確定最小取樣數量
樣本量越大越好嗎?樣本量確實越大越好,樣本越大越接近數據總體情況,但樣本量越大同時也代表需要付出更多的人力和財力,所以往往出于現實因素的考慮,需要確定最少取樣數量。最小取樣數量公式如下:
n:樣本量
?^{2}:方差(用來衡量數據離散程度:?^{2}=\frac{∑(X-μ)^{2}}{N}
X:變量
μ:總體均值
N:總體例數
在調研實際情況中,往往方差都是未知的,所以在這種情況下可用樣本率進行預估,當樣本率P=0.5時,P(1-P)=0.25,此時為方差理論最大值。
Z_{?/2}:置信度(用來表示估計結果的可靠性)當置信度為95%時,Z_{?/2}=1.96;當置信度為90%時,Z_{?/2}=1.64(其他數值的置信度可以通過正態分布表/t分布表中查到)
E:抽樣誤差(用來表示可接受的抽樣誤差)
根據最小樣本的計算公式我們可知樣本量的大小不取決于總體的多少,而取決于研究對象的變化、所要求或允許的誤差大小,以及要求推斷的置信程度。
舉例:當你希望的調查結果要達到90%可靠程度,且誤差不超過2%,那么需要的樣本約等于\frac{1.64^{2}\times0.25}{0.02^{2}}=1681個。從統計學角度,在要求的精準度水平下,不考慮其他的因素影響,若簡單隨機抽樣,300~400個樣本已經能夠達到置信度95%,誤差率不超過5%。
需要一提的是,當樣本低于100時,幾乎所有的結構方程模型分析都是不穩定的,大于200以上的樣本,才稱得上一個中型樣本。若要得到穩定的結構方程模型結構,低于200的樣本數量是不鼓勵的。
作者:WOWdesign,研究設計價值最大化,涉及用戶體驗、品牌體驗、空間體驗。
本文由 @WOWdesign 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自Pexels,基于 CC0 協議
最近為了市場調查云里霧里,突然有了一點方向??
作者所寫的這篇文章寫得非常詳細和專業啊~
樣本的可靠性和專業性在很大程度上影響著調查的結果,這篇文章真的啟發很大