樣本量的確定
很煩的是,latex不支持。
樣本量的確定與所要確定的精度有關,精度要求越高,要求的樣本量也就越大。但是精度與樣本量並不是呈線性關系,所以樣本量並不是越多越好。
並不想介紹原理以及繁雜的數學公式(主要是並不是很懂),詳細介紹可以查看相關的書籍。
1. 在計算樣本量之前我們應該確定的
- 置信度
置信度往往由客戶來決定。顯然,如果客戶對精度的要求相當高,那么置信度肯定也要很高。一般來說置信度為95%,以這個指標作為參考可以對置信度進行一定的調整。
- 誤差限
誤差限也是根據具體的精度要求來決定,一般來說可以設誤差限為6%。當然這要與估計值有關,如果估計的比例為5%,那么你誤差限再設置為6%,那顯然是不合理的。
- 調查費用
這一點在實際的運營過程中相當重要,但是對於競賽來說就沒啥了。
- 指標的變異程度
可以通過預調查的方式獲取主要指標的變異程度其實(和標准差也差不多啦),亦或者通過一些相關的文獻去獲取。實在沒辦法得到,那么就只盡可能地把它弄寬泛了。
- 總體大小
如何獲取總體大小無需贅述,所需的樣本量當然與總體的大小密切相關,但這並不是一個線性關系。
- 抽樣設計效應
可以通過預調查的方式來獲得設計效應的估計值。
- 回答率
同樣地,我們可以通過預調查的方式來獲得調查的回答率。
2. 基本步驟
- 計算初始樣本量
$n = \frac{z2S2}{e2+\frac{z2S^2}{N}}$(有限總體或不重復抽樣)
$z$:通過所要求的置信度求出來,是一個常數
$S$:總體標准差的估計值
$e$:所允許的誤差
$n=\frac{z2P(1-P)}{e2+\frac{z^2P(1-P)}{N}}$(有限總體或不重復抽樣)
$P$:總體比例的估計值
- 考慮設計效應
$n_{new}=Deff*n_{old}$
$Deff$即為設計效應
- 考慮預計回答率
$n_{new}=\frac{n_{old}}{r}$
$r$為預計回答率
-
分層抽樣的樣本分配
-
先確定總的樣本量,然后在各層間進行分配
-
按比例分配
- 與N成比例:與每一層的總體大小成比例。
- 與Y成比例:與每一層的總值大小成比例。當調查的估計值與大小變量的相關度較高的情況下,更加精確。
- 與$N^{\frac{1}{2}}$成比例
- 與$Y^{\frac{1}{2}}$成比例
-
不按比例分配
比較復雜,主要是與調查費用等因素有關,在這里就不討論了。
-
-
根據各層預定的精度要求,確定每一層需要的樣本量,然后將各層的樣本量相加得到的總的樣本量。
這種形式太過復雜,我們就不予考慮了。
-
3. 相關原則
- 由於我們調查的是多項指標,但對於樣本量的確定,一定是要根據最重要的指標。
- 當經過分配之后,求得的樣本如果說沒達到對應的數值,可以對該層樣本進行擴充。
- 充分利用好預調查和輔助信息。