第2部分:分层随机抽样
概述
分层随机抽样的思路:当\(N,n\)都较大,总体单元之间的差异也较大时,简单随机抽样会出现高成本、低精度情形,解决方法是将总体划分为若干个子总体、减少总体单元之间的差异。假设在各个子总体内已经满足实施简单随机抽样的条件,则可以在各个子总体内独立地进行简单随机抽样,再将各个子总体参数的估计值进行加权,得到总体参数的估计。
分层抽样的概念:
- 层:如果一个包含\(N\)个单位的总体可以分成不重不漏的\(L\)个子总体,即每个单元必定属于且仅属于一个子总体,则这样的子总体称为层。有\(N_1+\cdots+N_L=N\)。
- 分层抽样:在每一层中独立进行抽样,总的样本由各层样本组成,总体参数又按照各层样本参数的汇总作出估计。有\(n_1+\cdots+n_L=n\)。
- 分层随机抽样:每层的样本,都独立地按照简单随机抽样进行,这样的分层抽样称为分层随机抽样。
符号规定:
-
\(h\):层。从而\(N_h\)代表第\(h\)层的单位总数,\(n_h\)代表第\(h\)层的样本数。
-
\(i\):层内单位号。从而\(Y_{hi}\)代表第\(h\)层第\(i\)个总体单元,\(y_{hi}\)代表第\(h\)层第\(i\)个样本单元。
-
\(W_h\):层权,即\(W_h=\dfrac{N_h}{N}\)。
-
\(f_h\):层内抽样比,即\(f_h=\dfrac{n_h}{N_h}\)。
-
\(\bar Y_h,Y_h,S_h^2\):层内总体参数(均值、总值与方差)。
-
\(\bar y_h,y_h,s_h^2\):层内样本参数(样本均值、样本总值与样本方差)。
简单估计量
分层抽样首先根据各层的样本,计算出各层均值\(\bar Y_h\)的适当估计值\(\hat {\bar Y}_h\),然后再使用总体层权加权平均,得到总体均值\(\bar Y\)的估计,即
对于分层随机抽样,每一层的\(\hat{\bar Y}_h\)就是\(h\)层的样本均值\(\bar y_h\),即
注意这里的线性形式。
简单估计量的性质
无偏性
定理:对于分层随机抽样,\(\hat{\bar Y}_{st}\)是\(\bar Y\)的无偏估计。
先证明关于总体均值的这个性质:总体均值等于各层均值关于层权的加权平均。
由期望的线性运算性质,有
方差
先回顾一个结果:对于简单随机抽样,\(\bar y\)的方差是
定理:对于分层抽样,有
\[\mathbb{D}(\hat{\bar Y}_{st})=\sum_{h=1}^{L} W_h^2\mathbb{D}(\hat{\bar Y}_{h}) \]特别对分层随机抽样,记\(\bar y_{st}\)为简单估计量,有
\[\mathbb{D}(\bar y_{st})=\sum_{h=1}^{L}W_h^2\frac{1-f_h}{n_h}S_h^2=\sum_{k=1}^{L}\left(\frac{1}{n_h}-\frac{1}{N_h} \right)W_h^2S_h^2=\sum_{h=1}^{L}\frac{W_h^2S_h^2}{n_h}-\sum_{h=1}^{L}\frac{W_hS_h^2}{N}. \]这里
\[S_h^2=\frac{1}{N_h-1}\sum_{i=1}^{N_h}(Y_{hi}-\bar Y_h)^2. \]
第一个等号,因为是简单随机抽样,使用\(\dfrac{1-f_h}{n_h}S_h^2\)直接替代\(\mathbb{D}(\hat{\bar Y}_{h})\)得到。
第二个等号,显然
第三个等号,只需注意到
在简单随机抽样中,我们有:\(\mathbb{E}(s^2)=S^2\),因此对\(\mathbb{D}(\bar y_{st})\)可以有下述的无偏估计。
定理:对于分层随机抽样,\(\mathbb{D}(\bar y_{st})\)的无偏估计量为
\[\hat {\mathbb{D}}(\bar y_{st})=v(\bar y_{st})=\sum_{h=1}^{L}W_h^2\frac{1-f_h}{n_h}s_h^2=\sum_{h=1}^{L}\left(\frac{1}{n_h}-\frac{1}{N_h} \right)W_h^2s_h^2=\sum_{k=1}^{L}\frac{W_h^2s_h^2}{n_h}-\sum_{k=1}^{L}\frac{W_hs_h^2}{N}. \]这里\(s_h^2\)是第\(h\)层样本的样本方差。
\[s_h^2=\frac{1}{n_h-1}\sum_{i=1}^{n_h}(y_{hi}-\bar y_h)^2. \]
这里只是直接用\(s_h^2\)替代了\(S_h^2\),应注意\(n_h\ne 0\),否则无法计算\(s_h^2\)。
由此,能够给出总体均值的\(1-\alpha\)置信区间:
总值的相关推论
推论:对于分层随机抽样,总体总量\(Y\)的简单估计量\(\hat Y_{st}=N\bar y_{st}\)有如下性质:
- \(\mathbb{E}(\hat Y_{st})=Y\)。
- \(\mathbb{D}(\hat Y_{st})=\displaystyle\sum_{h=1}^{L}N_h(N_h-n_h)\dfrac{S_h^2}{n_h}\)。
- \(v(\hat Y_{st})=\displaystyle\sum_{h=1}^{L}N_h(N_h-n_h)\dfrac{s_h^2}{n_h}\)。
直接运用期望、方差的线性运算公式即可,注意到\(W_h=\dfrac{N_h}{N}\),有
对\(v(\hat Y_{st})\),直接以\(s_h^2\)替代\(\mathbb{D}(\hat Y_{st})\)中的\(S_h^2\)即可。
比例的相关推论
比例是特殊的均值,只是此时的变量全部是\(0-1\)变量。在此先回顾一下关于\(0-1\)变量的相关结果,记\(p=\bar y_{0-1}\)。
推论:对于分层随机抽样,总体比例\(P\)的简单估计量\(p_{st}=\displaystyle\sum_{h=1}^{L}W_hp_h\)有如下性质:
- \(\mathbb{E}(p_{st})=P\)。
- \(\mathbb{D}(p_{st})=\dfrac{1}{N^2}\displaystyle\sum_{h=1}^{L}N_h^2\dfrac{N_h-n_h}{N_h-1}\dfrac{P_hQ_h}{n_h}\)。记\(Q_h=1-P_h\)。
- \(v(p_{st})=\dfrac{1}{N^2}\displaystyle\sum_{h=1}^{L}\dfrac{N_h(N_h-n_h)}{n_h-1}p_hq_h\)。记\(q_h=1-p_h\)。
如果\(N_h\)很大,则\(N_h\approx N_h-1\),于是
\[\mathbb{D}(p_{st})\approx\frac{1}{N^2}\sum_{h=1}^{L}N_h(N_h-n_h)\frac{P_hQ_h}{n_h}=\sum_{h=1}^{L}W_h^2\frac{1-f}{n_h} P_hQ_h. \]
期望是显然的,注意到\(S_h^2\)可以被\(\dfrac{N_hP_hQ_h}{N_h-1}\)所替代,于是
对\(v(p_{st})\),就用\(\dfrac{n_hp_hq_h}{n_h-1}\)替代\(\mathbb{D}(p_{st})\)中的\(\dfrac{N_hP_hQ_h}{N_h-1}\),从而
对于总体中具有指定特征的单元总数\(A\),由于\(A=NP\),故对应的有\(a_{st}=Np_{st}\)。
比率估计量
比率估计量与分层随机抽样有两种结合方式,所得的估计量称为分别比估计(separate ratio estimator)和联合比估计(combined ratio estimator)。
- 分别比估计:对每一层样本分别考虑比估计量,然后对各层的比估计量进行加权平均,即先比后加权。
- 联合比估计:对比率的分子和分母分别加权计算出总体均值或总体总量的分层估计量,然后用对应的分层估计量来构造比估计,即先加权后比。
分别比估计:
联合比估计:
比率估计量的性质
期望与均方误差
先回顾简单随机抽样里,关于比估计量期望、方差的性质。
定理:对于分层随机抽样的分别比估计,若各层的样本量\(n_h\)都比较大,则有
\[\mathbb{E}(\bar y_{RS})\approx \bar Y,\\ \mathrm{MSE}(\bar y_{RS})\approx\mathbb{D}(\bar y_{RS})\approx\sum_{h=1}^{L}\frac{W_h^2(1-f_h)}{n_h}(S^2_{yh}+R_h^2S_{xh}^2-2R_h\rho_hS_{yh}S_{xh}). \]这里\(f_h\)是第\(h\)层的抽样比,\(S_{xh}^2,S_{yh}^2,\rho_h\)分别是第\(h\)层指标\(X,Y\)的方差以及它们的相关系数,
\[R_h=\frac{\bar Y_h}{\bar X_h}=\frac{Y_h}{X_h},\quad \rho_h=\frac{S_{xyh}}{S_{xh}S_{yh}}. \]估计均方误差时,通常分别用\(s_{xh}^2,s_{yh}^2\)作为\(S_{xh}^2,S_{yh}^2\)的估计,用\(s_{xyh}\)作为\(S_{xyh}\)的估计,用\(\hat R_{h}\)作为\(R_h\)的估计。
只要运用分层比估计的线性性质即可,有
定理:对于分层随机抽样的联合比估计,若总样本量\(n\)较大,则有
\[\mathbb{E}(\bar y_{RC})\approx \bar Y,\\ \mathrm{MSE}(\bar y_{RC})\approx \mathbb{D}(\bar y_{RC})\approx \sum_{h=1}^{L}\frac{W_h^2(1-f_h)}{n_h}(S_{yh}^2+R^2S_{xh}^2-2R\rho_hS_{yh}S_{xh}). \]注意均方误差处,\(RC\)与\(RS\)的主要区别在于\(R\)与\(R_h\)。对\(R\)的估计,一般使用\(\hat R_c=\dfrac{\bar y_{st}}{\bar x_{st}}\)。
联合比估计的证明与分层比估计略有不同,注意\(n\)较大时\(\bar x_{st}\approx \bar X\)。
令\(G_{hi}=Y_{hi}-RX_{hi}\),则\(\bar G_h=\bar Y_h-R\bar X_h\);令\(\bar g_{st}=\bar y_{st}-R\bar x_{st}\),则\(\mathbb{E}(\bar g_{st})=0\)。因此
于是
分别比估计和联合比估计的比较
如果\(R=R_h\),即每一层的总体比值都严格等于整个总体的比值,或者\(\rho_h=\dfrac{R+R_h}{2}\dfrac{S_{xh}}{S_{yh}}\)时,分别比估计的精度与联合比估计精度是一样的。
当各层的\(n_h\)都比较大时,采用分别比估计更有效。当某些层的样本量\(n_h\)不够大时,采用联合比估计更有效。
回归估计量
回归估计量中,先回归后加权的称为分别回归估计(separate regression estimator),先加权后回归的称为联合回归估计(combined regression estimator),这与比率估计量类似。
分别回归估计
分别回归估计为
这里\(\beta_h\)是各层的回归系数,分层回归估计时各层的回归系数可以不相同,这种情况下分别回归估计量更合适。
回顾简单随机抽样的回归估计\(\hat y_{lr}=\bar Y+\beta(\bar X-\bar x)\),回归估计的显然是参数的无偏估计,且方差为
而分别回归估计回归估计的简单加权平均,故自然地成立以下定理。
定理:当各层的回归系数\(\beta_h\)是事先给定的常数时,
\[\mathbb{E}(\bar y_{lrs})=\bar Y,\\ \mathbb{D}(\bar y_{lrs})=\sum_{h=1}^{L}\frac{W_h^2 (1-f_h)}{n_h}(S_{yh}^2+\beta_h^2S_{xh}^2-2\beta_hS_{xyh}). \]且为使方差最小,应取
\[\beta_h=\frac{S_{xyh}}{S_{xh}^2}=B_h, \]此时对应的有
\[\min \mathbb{D}(\bar y_{lrs})=\sum_{h=1}^{L}\frac{W_h^2(1-f_h)}{n_h}S_{yh}^2(1-\rho_h^2). \]
如果\(\beta_h\)不能事先设定,则取\(\beta_h\)为\(B_h\)的最小二乘估计\(b_h\),即样本回归系数:
联合回归估计
联合回归估计,即先对\(\bar Y\)和\(\bar X\)作分层估计,进而构造总体均值的联合回归估计\(\bar y_{lrc}\)。
定理:如\(\beta\)是设定的常数,则
\[\mathbb{E}(\bar y_{lrc})=\bar Y,\\ \mathbb{D}(\bar y_{lyc})=\sum_{h=1}^{L}\frac{W_h^2(1-f_h)}{n_h}(S_{yh}^2+\beta^2S_{xh}^2-2\beta S_{xyh}). \]
由于比率估计是回归估计的一种特例,故证明步骤也类似,即令\(G_{hi}=Y_{hi}+\beta(\bar X-X_{hi})\),于是\(\bar G_{h}=\bar Y_h+\beta(\bar X-\bar X_h)\)。同时对所抽取的样本,\(g_{hi}=y_{hi}+\beta(\bar X-x_{hi})\),从而\(\bar g_{st}=\bar y_{st}+\beta(\bar X-x_{st})=\bar y_{lrc}\)。
从而
利用最小二乘法,可以给出\(\mathbb{D}(\bar g_{st})\)取最小值时,\(\beta\)的最小二乘解\(B_c\)为
如果\(\beta\)未知,则取\(B_c\)的样本估计\(b_c\)来替代。
样本量分配
比例分配
比例分配(proportional allocation)指
自加权:若总体总量的一个无偏估计量可以表示成样本基本单元的变量值总值\(\hat Y\)(或均值\(\bar y\))的一个常数倍,即\(\hat Y=ky\)或\(\hat {\bar Y}=k\bar y\),则称这种估计量为自加权(等加权)的。
最优分配与Neyman分配
最优分配(optimum allocation)指:在分层随机抽样中,对于给定的费用,使得估计量的方差\(\mathbb{D}(\bar y_{st})\)达到最小;或者给定的估计量方差\(V\),使总费用达到最小的各层样本量分配。
总费用函数:以线性函数为例,可表示为
由于
所以构造目标函数为
对此目标函数求极小值,得到下面的定理。
定理:对于分层随机抽样,若费用函数为线性的,目标函数如下:
\[C'V'=(C_T-c_0)\left(V+\sum_{h=1}^{L}\frac{W_hS_h^2}{N} \right), \]则最优分配为
\[f_h=\frac{n_h}{n}=\frac{W_hS_h/\sqrt{c_h}}{\displaystyle\sum_{h=1}^{L}\dfrac{W_hS_h}{\sqrt{c_h}}}. \]特别当各层的单位抽样费用相等,即\(c_n=c\)时,有
\[f=\frac{n_h}{n}=\frac{W_hS_h}{\displaystyle\sum_{h=1}^{L}W_hS_h}=\frac{N_hS_h}{\displaystyle\sum_{h=1}^{L}N_hS_h}. \]此为Neyman分配。
可将目标函数改写为
由Cauchy-Schwarz不等式,\((\sum a_h^2)(\sum b_h^2)\ge \sum(a_hb_h)^2\),当且仅当\(a_h/b_h=K\)为一常数时等号成立,故
当且仅当
为常数时成立,故\(n_h=\dfrac{KW_hS_h}{\sqrt{c_n}}\)。
总样本量的确定
指定方差上限
如果指定了方差上限\(V\),则
对于确定的样本量分配:\(n_h=nw_h\),则
对于比例分配:\(n_h=nW_h\),则
对于内曼分配:\(w_h=\dfrac{W_hS_h}{\sum_{h=1}^{L}W_hS_h}\),有
如果给定的是绝对误差限,也可以转化为指定\(V\)的情况,此时
如给定的是相对误差限,则结合\(d=r\bar Y\),还需要对\(\bar Y\)进行估计。
给定总费用
如果费用函数是
则根据最优分配结果,应有
于是