样本量的确定
很烦的是,latex不支持。
样本量的确定与所要确定的精度有关,精度要求越高,要求的样本量也就越大。但是精度与样本量并不是呈线性关系,所以样本量并不是越多越好。
并不想介绍原理以及繁杂的数学公式(主要是并不是很懂),详细介绍可以查看相关的书籍。
1. 在计算样本量之前我们应该确定的
- 置信度
置信度往往由客户来决定。显然,如果客户对精度的要求相当高,那么置信度肯定也要很高。一般来说置信度为95%,以这个指标作为参考可以对置信度进行一定的调整。
- 误差限
误差限也是根据具体的精度要求来决定,一般来说可以设误差限为6%。当然这要与估计值有关,如果估计的比例为5%,那么你误差限再设置为6%,那显然是不合理的。
- 调查费用
这一点在实际的运营过程中相当重要,但是对于竞赛来说就没啥了。
- 指标的变异程度
可以通过预调查的方式获取主要指标的变异程度其实(和标准差也差不多啦),亦或者通过一些相关的文献去获取。实在没办法得到,那么就只尽可能地把它弄宽泛了。
- 总体大小
如何获取总体大小无需赘述,所需的样本量当然与总体的大小密切相关,但这并不是一个线性关系。
- 抽样设计效应
可以通过预调查的方式来获得设计效应的估计值。
- 回答率
同样地,我们可以通过预调查的方式来获得调查的回答率。
2. 基本步骤
- 计算初始样本量
$n = \frac{z2S2}{e2+\frac{z2S^2}{N}}$(有限总体或不重复抽样)
$z$:通过所要求的置信度求出来,是一个常数
$S$:总体标准差的估计值
$e$:所允许的误差
$n=\frac{z2P(1-P)}{e2+\frac{z^2P(1-P)}{N}}$(有限总体或不重复抽样)
$P$:总体比例的估计值
- 考虑设计效应
$n_{new}=Deff*n_{old}$
$Deff$即为设计效应
- 考虑预计回答率
$n_{new}=\frac{n_{old}}{r}$
$r$为预计回答率
-
分层抽样的样本分配
-
先确定总的样本量,然后在各层间进行分配
-
按比例分配
- 与N成比例:与每一层的总体大小成比例。
- 与Y成比例:与每一层的总值大小成比例。当调查的估计值与大小变量的相关度较高的情况下,更加精确。
- 与$N^{\frac{1}{2}}$成比例
- 与$Y^{\frac{1}{2}}$成比例
-
不按比例分配
比较复杂,主要是与调查费用等因素有关,在这里就不讨论了。
-
-
根据各层预定的精度要求,确定每一层需要的样本量,然后将各层的样本量相加得到的总的样本量。
这种形式太过复杂,我们就不予考虑了。
-
3. 相关原则
- 由于我们调查的是多项指标,但对于样本量的确定,一定是要根据最重要的指标。
- 当经过分配之后,求得的样本如果说没达到对应的数值,可以对该层样本进行扩充。
- 充分利用好预调查和辅助信息。