做問(wèn)卷調(diào)查時(shí),你真的會(huì)選擇樣本嗎?
編輯導(dǎo)語(yǔ):?jiǎn)柧碚{(diào)查的作用主要是通過(guò)部分來(lái)推斷整體情況,那么部分的選擇就至關(guān)重要,選擇的部分能否代表整體,決定了問(wèn)卷調(diào)查的可靠性。本篇文章就從樣本選擇的角度出發(fā),講講什么是樣本框,如何進(jìn)行抽樣,以及如何確定最小的樣本量。
一、抽樣框
抽樣框在抽樣調(diào)查中處于基礎(chǔ)地位,是抽樣問(wèn)卷調(diào)查必不可少的部分,其對(duì)于推斷總體具有相當(dāng)大的影響。
抽樣框是用來(lái)代表總體,從中抽選樣本的一個(gè)框架。具體表現(xiàn)形式可以是一個(gè)學(xué)生的花名冊(cè)、工商企業(yè)名錄等。例如:假設(shè)現(xiàn)在要調(diào)查全國(guó)32萬(wàn)所小學(xué)的學(xué)生家長(zhǎng)對(duì)于國(guó)家“雙減政策”的民意調(diào)查,從中選取出10所最具有代表性的小學(xué),并從中抽取出10000名學(xué)生家長(zhǎng)進(jìn)行調(diào)查。
那么在這個(gè)例子中 ,總體是32萬(wàn)所小學(xué)的學(xué)生家長(zhǎng),抽樣框是所選出的10所小學(xué)的學(xué)生家長(zhǎng)名冊(cè),樣本是最后抽取出的10000名學(xué)生家長(zhǎng)。
當(dāng)然抽樣框也不定是具象的,也可能是抽象的,例如,在大型零售商場(chǎng)對(duì)購(gòu)買者或消費(fèi)者進(jìn)行隨機(jī)訪問(wèn)調(diào)查時(shí),并沒(méi)有具體的名冊(cè)。
抽樣框選取能否代表總體,直接決定了調(diào)研結(jié)果的可靠性。在我們的例子中選取10所學(xué)校家長(zhǎng)需要能夠代表全國(guó)32萬(wàn)所學(xué)校的學(xué)生家長(zhǎng),需要考慮的因素有很多,比如:收入因素、地域因素、宗教因素等等,因此在調(diào)研初期,根據(jù)調(diào)研的目的和主題盡可能確定準(zhǔn)確的抽樣框,從而減少調(diào)查的誤差。
我們來(lái)看一個(gè)由于抽樣框選取錯(cuò)誤,而導(dǎo)致失敗的案例:1936年美國(guó)總統(tǒng)選舉民意測(cè)驗(yàn)。
1936年美國(guó)總統(tǒng)大選,競(jìng)選的是民主黨的羅斯福和共和黨的蘭登。美國(guó)權(quán)威的《文學(xué)摘要》雜志社,為了預(yù)測(cè)總統(tǒng)候選人誰(shuí)能當(dāng)選,采用了大規(guī)模的模擬選舉(他們以電話簿上的地址和俱車輛注冊(cè)系統(tǒng)的地址發(fā)出1000萬(wàn)封信,收到回信200萬(wàn)封)。預(yù)測(cè)蘭登將以57%對(duì)43%的比例獲勝,并大力進(jìn)行宣傳。
最后選舉結(jié)果卻是羅斯福以62%對(duì)38%的巨大優(yōu)勢(shì)獲勝。原因是在1936年的美國(guó),富裕的家庭才有私人電話和汽車。為了挽救大蕭條造成的經(jīng)濟(jì)打擊,當(dāng)時(shí)的羅斯福政府強(qiáng)行干預(yù)市場(chǎng)經(jīng)濟(jì),從而在富人中普遍缺乏好感。
因此,《文學(xué)摘要》的調(diào)查樣本不是從總體(全體美國(guó)選民)中隨機(jī)地抽取,而是主要從富人的抽樣框中抽取,這樣的調(diào)查結(jié)果當(dāng)然對(duì)羅斯福不利。
在問(wèn)卷領(lǐng)域,最關(guān)注的是“代表性”,而非數(shù)量。因此在選取樣本框時(shí),一定要從多方面因素來(lái)考慮,從而避免選取出誤差較大的樣本框。
也許你想問(wèn),怎么才能知道自己的樣本數(shù)據(jù)是否正確。 很遺憾的告訴你,沒(méi)有辦法,除非調(diào)查了全部的總體,才能準(zhǔn)確的知道自己抽取的樣本是否正確。 但是沒(méi)有關(guān)系,誤差是會(huì)永遠(yuǎn)存在的,我們需要做的是盡可能的減少誤差,而不是消滅誤差。
二、抽樣方法
抽樣是指從抽樣框或總體中抽取出一部分?jǐn)?shù)據(jù)作為樣本的動(dòng)作。抽樣的方法有很多,介紹幾種常見(jiàn)的抽樣方法。
1. 簡(jiǎn)單隨機(jī)抽樣
一般的,設(shè)一個(gè)總體個(gè)數(shù)為N,如果通過(guò)逐個(gè)抽取的方法抽取一個(gè)樣本,且每次抽取時(shí),每個(gè)個(gè)體被抽到的概率相等,這樣的抽樣方法為簡(jiǎn)單隨機(jī)抽樣。適用于總體個(gè)數(shù)較少的。
2. 系統(tǒng)抽樣
當(dāng)總體的個(gè)數(shù)比較多的時(shí)候,首先把總體分成均衡的幾部分,然后按照預(yù)先定的規(guī)則,從每一個(gè)部分中抽取一些個(gè)體,得到所需要的樣本,這樣的抽樣方法叫做系統(tǒng)抽樣。
3. 分層抽樣
抽樣時(shí),將總體分成互不交叉的層,然后按照一定的比例,從各層中獨(dú)立抽取一定數(shù)量的個(gè)體,得到所需樣本,這樣的抽樣方法為分層抽樣。適用于總體由差異明顯的幾部分組成。
4. 整群抽樣
整群抽樣又稱聚類抽樣。是將總體中各單位歸并成若干個(gè)互不交叉、互不重復(fù)的集合,稱之為群;然后以群為抽樣單位抽取樣本的一種抽樣方式。應(yīng)用整群抽樣時(shí),要求各群有較好的代表性,即群內(nèi)各單位的差異要大,群間差異要小。
5. 多段抽樣
多段隨機(jī)抽樣,就是把從調(diào)查總體中抽取樣本的過(guò)程,分成兩個(gè)或兩個(gè)以上階段進(jìn)行的抽樣方法。
系統(tǒng)、分層、整體、多段比較難實(shí)現(xiàn),在問(wèn)卷調(diào)查中經(jīng)常被使用到的方法是簡(jiǎn)單隨機(jī)抽樣。
三、如何確定最小取樣數(shù)量
樣本量越大越好嗎?樣本量確實(shí)越大越好,樣本越大越接近數(shù)據(jù)總體情況,但樣本量越大同時(shí)也代表需要付出更多的人力和財(cái)力,所以往往出于現(xiàn)實(shí)因素的考慮,需要確定最少取樣數(shù)量。最小取樣數(shù)量公式如下:
n:樣本量
?^{2}:方差(用來(lái)衡量數(shù)據(jù)離散程度:?^{2}=\frac{∑(X-μ)^{2}}{N}
X:變量
μ:總體均值
N:總體例數(shù)
在調(diào)研實(shí)際情況中,往往方差都是未知的,所以在這種情況下可用樣本率進(jìn)行預(yù)估,當(dāng)樣本率P=0.5時(shí),P(1-P)=0.25,此時(shí)為方差理論最大值。
Z_{?/2}:置信度(用來(lái)表示估計(jì)結(jié)果的可靠性)當(dāng)置信度為95%時(shí),Z_{?/2}=1.96;當(dāng)置信度為90%時(shí),Z_{?/2}=1.64(其他數(shù)值的置信度可以通過(guò)正態(tài)分布表/t分布表中查到)
E:抽樣誤差(用來(lái)表示可接受的抽樣誤差)
根據(jù)最小樣本的計(jì)算公式我們可知樣本量的大小不取決于總體的多少,而取決于研究對(duì)象的變化、所要求或允許的誤差大小,以及要求推斷的置信程度。
舉例:當(dāng)你希望的調(diào)查結(jié)果要達(dá)到90%可靠程度,且誤差不超過(guò)2%,那么需要的樣本約等于\frac{1.64^{2}\times0.25}{0.02^{2}}=1681個(gè)。從統(tǒng)計(jì)學(xué)角度,在要求的精準(zhǔn)度水平下,不考慮其他的因素影響,若簡(jiǎn)單隨機(jī)抽樣,300~400個(gè)樣本已經(jīng)能夠達(dá)到置信度95%,誤差率不超過(guò)5%。
需要一提的是,當(dāng)樣本低于100時(shí),幾乎所有的結(jié)構(gòu)方程模型分析都是不穩(wěn)定的,大于200以上的樣本,才稱得上一個(gè)中型樣本。若要得到穩(wěn)定的結(jié)構(gòu)方程模型結(jié)構(gòu),低于200的樣本數(shù)量是不鼓勵(lì)的。
作者:WOWdesign,研究設(shè)計(jì)價(jià)值最大化,涉及用戶體驗(yàn)、品牌體驗(yàn)、空間體驗(yàn)。
本文由 @WOWdesign 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Pexels,基于 CC0 協(xié)議
最近為了市場(chǎng)調(diào)查云里霧里,突然有了一點(diǎn)方向??
作者所寫(xiě)的這篇文章寫(xiě)得非常詳細(xì)和專業(yè)啊~
樣本的可靠性和專業(yè)性在很大程度上影響著調(diào)查的結(jié)果,這篇文章真的啟發(fā)很大