第2部分:分層隨機抽樣
概述
分層隨機抽樣的思路:當\(N,n\)都較大,總體單元之間的差異也較大時,簡單隨機抽樣會出現高成本、低精度情形,解決方法是將總體划分為若干個子總體、減少總體單元之間的差異。假設在各個子總體內已經滿足實施簡單隨機抽樣的條件,則可以在各個子總體內獨立地進行簡單隨機抽樣,再將各個子總體參數的估計值進行加權,得到總體參數的估計。
分層抽樣的概念:
- 層:如果一個包含\(N\)個單位的總體可以分成不重不漏的\(L\)個子總體,即每個單元必定屬於且僅屬於一個子總體,則這樣的子總體稱為層。有\(N_1+\cdots+N_L=N\)。
- 分層抽樣:在每一層中獨立進行抽樣,總的樣本由各層樣本組成,總體參數又按照各層樣本參數的匯總作出估計。有\(n_1+\cdots+n_L=n\)。
- 分層隨機抽樣:每層的樣本,都獨立地按照簡單隨機抽樣進行,這樣的分層抽樣稱為分層隨機抽樣。
符號規定:
-
\(h\):層。從而\(N_h\)代表第\(h\)層的單位總數,\(n_h\)代表第\(h\)層的樣本數。
-
\(i\):層內單位號。從而\(Y_{hi}\)代表第\(h\)層第\(i\)個總體單元,\(y_{hi}\)代表第\(h\)層第\(i\)個樣本單元。
-
\(W_h\):層權,即\(W_h=\dfrac{N_h}{N}\)。
-
\(f_h\):層內抽樣比,即\(f_h=\dfrac{n_h}{N_h}\)。
-
\(\bar Y_h,Y_h,S_h^2\):層內總體參數(均值、總值與方差)。
-
\(\bar y_h,y_h,s_h^2\):層內樣本參數(樣本均值、樣本總值與樣本方差)。
簡單估計量
分層抽樣首先根據各層的樣本,計算出各層均值\(\bar Y_h\)的適當估計值\(\hat {\bar Y}_h\),然后再使用總體層權加權平均,得到總體均值\(\bar Y\)的估計,即
對於分層隨機抽樣,每一層的\(\hat{\bar Y}_h\)就是\(h\)層的樣本均值\(\bar y_h\),即
注意這里的線性形式。
簡單估計量的性質
無偏性
定理:對於分層隨機抽樣,\(\hat{\bar Y}_{st}\)是\(\bar Y\)的無偏估計。
先證明關於總體均值的這個性質:總體均值等於各層均值關於層權的加權平均。
由期望的線性運算性質,有
方差
先回顧一個結果:對於簡單隨機抽樣,\(\bar y\)的方差是
定理:對於分層抽樣,有
\[\mathbb{D}(\hat{\bar Y}_{st})=\sum_{h=1}^{L} W_h^2\mathbb{D}(\hat{\bar Y}_{h}) \]特別對分層隨機抽樣,記\(\bar y_{st}\)為簡單估計量,有
\[\mathbb{D}(\bar y_{st})=\sum_{h=1}^{L}W_h^2\frac{1-f_h}{n_h}S_h^2=\sum_{k=1}^{L}\left(\frac{1}{n_h}-\frac{1}{N_h} \right)W_h^2S_h^2=\sum_{h=1}^{L}\frac{W_h^2S_h^2}{n_h}-\sum_{h=1}^{L}\frac{W_hS_h^2}{N}. \]這里
\[S_h^2=\frac{1}{N_h-1}\sum_{i=1}^{N_h}(Y_{hi}-\bar Y_h)^2. \]
第一個等號,因為是簡單隨機抽樣,使用\(\dfrac{1-f_h}{n_h}S_h^2\)直接替代\(\mathbb{D}(\hat{\bar Y}_{h})\)得到。
第二個等號,顯然
第三個等號,只需注意到
在簡單隨機抽樣中,我們有:\(\mathbb{E}(s^2)=S^2\),因此對\(\mathbb{D}(\bar y_{st})\)可以有下述的無偏估計。
定理:對於分層隨機抽樣,\(\mathbb{D}(\bar y_{st})\)的無偏估計量為
\[\hat {\mathbb{D}}(\bar y_{st})=v(\bar y_{st})=\sum_{h=1}^{L}W_h^2\frac{1-f_h}{n_h}s_h^2=\sum_{h=1}^{L}\left(\frac{1}{n_h}-\frac{1}{N_h} \right)W_h^2s_h^2=\sum_{k=1}^{L}\frac{W_h^2s_h^2}{n_h}-\sum_{k=1}^{L}\frac{W_hs_h^2}{N}. \]這里\(s_h^2\)是第\(h\)層樣本的樣本方差。
\[s_h^2=\frac{1}{n_h-1}\sum_{i=1}^{n_h}(y_{hi}-\bar y_h)^2. \]
這里只是直接用\(s_h^2\)替代了\(S_h^2\),應注意\(n_h\ne 0\),否則無法計算\(s_h^2\)。
由此,能夠給出總體均值的\(1-\alpha\)置信區間:
總值的相關推論
推論:對於分層隨機抽樣,總體總量\(Y\)的簡單估計量\(\hat Y_{st}=N\bar y_{st}\)有如下性質:
- \(\mathbb{E}(\hat Y_{st})=Y\)。
- \(\mathbb{D}(\hat Y_{st})=\displaystyle\sum_{h=1}^{L}N_h(N_h-n_h)\dfrac{S_h^2}{n_h}\)。
- \(v(\hat Y_{st})=\displaystyle\sum_{h=1}^{L}N_h(N_h-n_h)\dfrac{s_h^2}{n_h}\)。
直接運用期望、方差的線性運算公式即可,注意到\(W_h=\dfrac{N_h}{N}\),有
對\(v(\hat Y_{st})\),直接以\(s_h^2\)替代\(\mathbb{D}(\hat Y_{st})\)中的\(S_h^2\)即可。
比例的相關推論
比例是特殊的均值,只是此時的變量全部是\(0-1\)變量。在此先回顧一下關於\(0-1\)變量的相關結果,記\(p=\bar y_{0-1}\)。
推論:對於分層隨機抽樣,總體比例\(P\)的簡單估計量\(p_{st}=\displaystyle\sum_{h=1}^{L}W_hp_h\)有如下性質:
- \(\mathbb{E}(p_{st})=P\)。
- \(\mathbb{D}(p_{st})=\dfrac{1}{N^2}\displaystyle\sum_{h=1}^{L}N_h^2\dfrac{N_h-n_h}{N_h-1}\dfrac{P_hQ_h}{n_h}\)。記\(Q_h=1-P_h\)。
- \(v(p_{st})=\dfrac{1}{N^2}\displaystyle\sum_{h=1}^{L}\dfrac{N_h(N_h-n_h)}{n_h-1}p_hq_h\)。記\(q_h=1-p_h\)。
如果\(N_h\)很大,則\(N_h\approx N_h-1\),於是
\[\mathbb{D}(p_{st})\approx\frac{1}{N^2}\sum_{h=1}^{L}N_h(N_h-n_h)\frac{P_hQ_h}{n_h}=\sum_{h=1}^{L}W_h^2\frac{1-f}{n_h} P_hQ_h. \]
期望是顯然的,注意到\(S_h^2\)可以被\(\dfrac{N_hP_hQ_h}{N_h-1}\)所替代,於是
對\(v(p_{st})\),就用\(\dfrac{n_hp_hq_h}{n_h-1}\)替代\(\mathbb{D}(p_{st})\)中的\(\dfrac{N_hP_hQ_h}{N_h-1}\),從而
對於總體中具有指定特征的單元總數\(A\),由於\(A=NP\),故對應的有\(a_{st}=Np_{st}\)。
比率估計量
比率估計量與分層隨機抽樣有兩種結合方式,所得的估計量稱為分別比估計(separate ratio estimator)和聯合比估計(combined ratio estimator)。
- 分別比估計:對每一層樣本分別考慮比估計量,然后對各層的比估計量進行加權平均,即先比后加權。
- 聯合比估計:對比率的分子和分母分別加權計算出總體均值或總體總量的分層估計量,然后用對應的分層估計量來構造比估計,即先加權后比。
分別比估計:
聯合比估計:
比率估計量的性質
期望與均方誤差
先回顧簡單隨機抽樣里,關於比估計量期望、方差的性質。
定理:對於分層隨機抽樣的分別比估計,若各層的樣本量\(n_h\)都比較大,則有
\[\mathbb{E}(\bar y_{RS})\approx \bar Y,\\ \mathrm{MSE}(\bar y_{RS})\approx\mathbb{D}(\bar y_{RS})\approx\sum_{h=1}^{L}\frac{W_h^2(1-f_h)}{n_h}(S^2_{yh}+R_h^2S_{xh}^2-2R_h\rho_hS_{yh}S_{xh}). \]這里\(f_h\)是第\(h\)層的抽樣比,\(S_{xh}^2,S_{yh}^2,\rho_h\)分別是第\(h\)層指標\(X,Y\)的方差以及它們的相關系數,
\[R_h=\frac{\bar Y_h}{\bar X_h}=\frac{Y_h}{X_h},\quad \rho_h=\frac{S_{xyh}}{S_{xh}S_{yh}}. \]估計均方誤差時,通常分別用\(s_{xh}^2,s_{yh}^2\)作為\(S_{xh}^2,S_{yh}^2\)的估計,用\(s_{xyh}\)作為\(S_{xyh}\)的估計,用\(\hat R_{h}\)作為\(R_h\)的估計。
只要運用分層比估計的線性性質即可,有
定理:對於分層隨機抽樣的聯合比估計,若總樣本量\(n\)較大,則有
\[\mathbb{E}(\bar y_{RC})\approx \bar Y,\\ \mathrm{MSE}(\bar y_{RC})\approx \mathbb{D}(\bar y_{RC})\approx \sum_{h=1}^{L}\frac{W_h^2(1-f_h)}{n_h}(S_{yh}^2+R^2S_{xh}^2-2R\rho_hS_{yh}S_{xh}). \]注意均方誤差處,\(RC\)與\(RS\)的主要區別在於\(R\)與\(R_h\)。對\(R\)的估計,一般使用\(\hat R_c=\dfrac{\bar y_{st}}{\bar x_{st}}\)。
聯合比估計的證明與分層比估計略有不同,注意\(n\)較大時\(\bar x_{st}\approx \bar X\)。
令\(G_{hi}=Y_{hi}-RX_{hi}\),則\(\bar G_h=\bar Y_h-R\bar X_h\);令\(\bar g_{st}=\bar y_{st}-R\bar x_{st}\),則\(\mathbb{E}(\bar g_{st})=0\)。因此
於是
分別比估計和聯合比估計的比較
如果\(R=R_h\),即每一層的總體比值都嚴格等於整個總體的比值,或者\(\rho_h=\dfrac{R+R_h}{2}\dfrac{S_{xh}}{S_{yh}}\)時,分別比估計的精度與聯合比估計精度是一樣的。
當各層的\(n_h\)都比較大時,采用分別比估計更有效。當某些層的樣本量\(n_h\)不夠大時,采用聯合比估計更有效。
回歸估計量
回歸估計量中,先回歸后加權的稱為分別回歸估計(separate regression estimator),先加權后回歸的稱為聯合回歸估計(combined regression estimator),這與比率估計量類似。
分別回歸估計
分別回歸估計為
這里\(\beta_h\)是各層的回歸系數,分層回歸估計時各層的回歸系數可以不相同,這種情況下分別回歸估計量更合適。
回顧簡單隨機抽樣的回歸估計\(\hat y_{lr}=\bar Y+\beta(\bar X-\bar x)\),回歸估計的顯然是參數的無偏估計,且方差為
而分別回歸估計回歸估計的簡單加權平均,故自然地成立以下定理。
定理:當各層的回歸系數\(\beta_h\)是事先給定的常數時,
\[\mathbb{E}(\bar y_{lrs})=\bar Y,\\ \mathbb{D}(\bar y_{lrs})=\sum_{h=1}^{L}\frac{W_h^2 (1-f_h)}{n_h}(S_{yh}^2+\beta_h^2S_{xh}^2-2\beta_hS_{xyh}). \]且為使方差最小,應取
\[\beta_h=\frac{S_{xyh}}{S_{xh}^2}=B_h, \]此時對應的有
\[\min \mathbb{D}(\bar y_{lrs})=\sum_{h=1}^{L}\frac{W_h^2(1-f_h)}{n_h}S_{yh}^2(1-\rho_h^2). \]
如果\(\beta_h\)不能事先設定,則取\(\beta_h\)為\(B_h\)的最小二乘估計\(b_h\),即樣本回歸系數:
聯合回歸估計
聯合回歸估計,即先對\(\bar Y\)和\(\bar X\)作分層估計,進而構造總體均值的聯合回歸估計\(\bar y_{lrc}\)。
定理:如\(\beta\)是設定的常數,則
\[\mathbb{E}(\bar y_{lrc})=\bar Y,\\ \mathbb{D}(\bar y_{lyc})=\sum_{h=1}^{L}\frac{W_h^2(1-f_h)}{n_h}(S_{yh}^2+\beta^2S_{xh}^2-2\beta S_{xyh}). \]
由於比率估計是回歸估計的一種特例,故證明步驟也類似,即令\(G_{hi}=Y_{hi}+\beta(\bar X-X_{hi})\),於是\(\bar G_{h}=\bar Y_h+\beta(\bar X-\bar X_h)\)。同時對所抽取的樣本,\(g_{hi}=y_{hi}+\beta(\bar X-x_{hi})\),從而\(\bar g_{st}=\bar y_{st}+\beta(\bar X-x_{st})=\bar y_{lrc}\)。
從而
利用最小二乘法,可以給出\(\mathbb{D}(\bar g_{st})\)取最小值時,\(\beta\)的最小二乘解\(B_c\)為
如果\(\beta\)未知,則取\(B_c\)的樣本估計\(b_c\)來替代。
樣本量分配
比例分配
比例分配(proportional allocation)指
自加權:若總體總量的一個無偏估計量可以表示成樣本基本單元的變量值總值\(\hat Y\)(或均值\(\bar y\))的一個常數倍,即\(\hat Y=ky\)或\(\hat {\bar Y}=k\bar y\),則稱這種估計量為自加權(等加權)的。
最優分配與Neyman分配
最優分配(optimum allocation)指:在分層隨機抽樣中,對於給定的費用,使得估計量的方差\(\mathbb{D}(\bar y_{st})\)達到最小;或者給定的估計量方差\(V\),使總費用達到最小的各層樣本量分配。
總費用函數:以線性函數為例,可表示為
由於
所以構造目標函數為
對此目標函數求極小值,得到下面的定理。
定理:對於分層隨機抽樣,若費用函數為線性的,目標函數如下:
\[C'V'=(C_T-c_0)\left(V+\sum_{h=1}^{L}\frac{W_hS_h^2}{N} \right), \]則最優分配為
\[f_h=\frac{n_h}{n}=\frac{W_hS_h/\sqrt{c_h}}{\displaystyle\sum_{h=1}^{L}\dfrac{W_hS_h}{\sqrt{c_h}}}. \]特別當各層的單位抽樣費用相等,即\(c_n=c\)時,有
\[f=\frac{n_h}{n}=\frac{W_hS_h}{\displaystyle\sum_{h=1}^{L}W_hS_h}=\frac{N_hS_h}{\displaystyle\sum_{h=1}^{L}N_hS_h}. \]此為Neyman分配。
可將目標函數改寫為
由Cauchy-Schwarz不等式,\((\sum a_h^2)(\sum b_h^2)\ge \sum(a_hb_h)^2\),當且僅當\(a_h/b_h=K\)為一常數時等號成立,故
當且僅當
為常數時成立,故\(n_h=\dfrac{KW_hS_h}{\sqrt{c_n}}\)。
總樣本量的確定
指定方差上限
如果指定了方差上限\(V\),則
對於確定的樣本量分配:\(n_h=nw_h\),則
對於比例分配:\(n_h=nW_h\),則
對於內曼分配:\(w_h=\dfrac{W_hS_h}{\sum_{h=1}^{L}W_hS_h}\),有
如果給定的是絕對誤差限,也可以轉化為指定\(V\)的情況,此時
如給定的是相對誤差限,則結合\(d=r\bar Y\),還需要對\(\bar Y\)進行估計。
給定總費用
如果費用函數是
則根據最優分配結果,應有
於是