【抽樣調查】多階段抽樣


第4部分 多階段抽樣

概述與符號說明

多階段抽樣是推廣的整群抽樣。在整群抽樣中,抽樣總體被划分為若干個PSU(primary sampling unit),每一個PSU中含有的抽樣單元每一個都是一個SSU(second-stage sampling unit),將抽中的PSU內的所有SSU入樣。而多階段抽樣在抽中的PSU中,對PSU所含有的SSU進行第二階段的抽樣,抽取子樣本。以此類推,還可以有第三階段、第四階段的抽樣。

如對一所學校內的學生進行抽樣,可以先抽取宿舍(PSU),如果是整群抽樣,則抽中的宿舍中所有學生都入樣;如果是多階段抽樣,則在抽中的宿舍中進一步抽取學生(SSU)。

本文主要考慮等概率兩階段抽樣,以下定義相關符號。

與整群抽樣一致,總體中的PSU個數記作\(N\),第\(i\)\(N\)中含有的SSU個數記作\(M_i\),SSU總數為\(M_0=\displaystyle{\sum_{i=1}^{N}M_i}\),特別當各種群規模一致時,記

\[M_1=M_2=\cdots=M_N\xlongequal{def}M. \]

總體中第\(i\)個PSU的第\(j\)個SSU觀測值記作\(Y_{ij}\),總體總值為\(\displaystyle{Y=\sum_{i=1}^{N}\sum_{j=1}^{M_i}Y_{ij}}\),第\(i\)個PSU的總值為\(\displaystyle{Y_i=\sum_{j=1}^{M_i}Y_{ij}}\)。總體按SSU的均值為\(\displaystyle{\bar{\bar Y}=\frac{Y}{M_0}=\frac{1}{M_0}\sum_{i=1}^{N}\sum_{j=1}^{M_i}Y_{ij}}\),第\(i\)個PSU按SSU的均值為\(\displaystyle{\bar Y_i=\frac{Y_i}{M_i}=\frac{1}{M_i}\sum_{j=1}^{M_i}Y_{ij}}\)

總體PSU間的方差記作\(\displaystyle{S_1^2=\frac{1}{N-1}\sum_{i=1}^{N}(\bar Y_i-\bar{\bar Y})^2}\),注意沒有\(M_i\)項;總體第\(i\)個PSU內SSU間的方差為\(\displaystyle{S_{2i}^2=\frac{1}{M_i-1}\sum_{j=1}^{M_i}(Y_{ij}-\bar{Y_i})^2}\),方差均值為\(\displaystyle{S_2^2=\frac{1}{N}\sum_{i=1}^{N}S_{2i}^2}\)

各樣本的參數均為總體的小寫。

兩階段抽樣估計量的均值和方差

下述定理對任何估計量\(\hat\theta\)都是成立的。

定理:對於兩階段抽樣,有

\[\mathbb{E}(\hat \theta)=\mathbb{E}_1[\mathbb{E}_2(\hat\theta)], \\ \mathbb{D}(\hat\theta)=\mathbb{D}_1[\mathbb{E}_2(\hat\theta)]+\mathbb{E}_1[\mathbb{D}_2(\hat\theta)]. \]

其中,\(\mathbb{E}_2,\mathbb{D}_2\)分別表示在固定初級單元時,對第二階段抽樣的均值和方差;\(\mathbb{E}_1,\mathbb{D}_1\)分別表示對第一階段抽樣的均值和方差。

以上定理是全期望公式在兩階段抽樣的特殊形式,如果定義\(T\)為抽取的初級單元,則有

\[\mathbb{E}(\hat\theta)=\mathbb{E}[\mathbb{E}(\hat\theta|T)]\xlongequal{def}\mathbb{E}_1[\mathbb{E}_2(\hat\theta)]. \]

方差是另一形式的期望,記\(\mathbb{E}(\hat\theta)=\theta\),則

\[\begin{aligned} \mathbb{D}(\hat\theta)&=\mathbb{E}(\hat\theta-\theta)^2\\ &=\mathbb{E}_1[\mathbb{E}_2(\hat\theta-\theta)^2]\\ &=\mathbb{E}_1[\mathbb{E}_2(\hat\theta^2-2\theta\hat\theta+\theta^2)]\\ &=\mathbb{E}_1[\mathbb{E}_2(\hat\theta^2)]-\mathbb{E}_1[2\theta\mathbb{E}_2(\hat\theta)]+\theta^2\\ &=\mathbb{E}_1[\mathbb{D}_2(\hat\theta)+(\mathbb{E}_2(\hat\theta))^2]-\theta^2\\ &=\mathbb{E}_1[\mathbb{E}_2(\hat\theta)]^2+\mathbb{E}_1[\mathbb{D}_2(\hat\theta)]-\{\mathbb{E}_1[\mathbb{E}_2(\hat\theta)]\}^2\\ &=\mathbb{E}_1[\mathbb{D}_2(\hat\theta)]+\mathbb{D}_1[\mathbb{E}_2(\hat\theta)]. \end{aligned} \]

以后記\(\mathbb{E}_1[\mathbb{E}_2(\theta)]=\mathbb{E}_1\mathbb{E}_2(\hat\theta)\)

初級單元規模相等的兩階段抽樣

均值估計

此時,初級單元中,二級單元個數相等為\(M\)。第一階段從包含\(N\)個初級單元的總體中以簡單隨機抽樣抽取\(n\)個初級單元,第二階段在每個被抽中的初級單元所包含的\(M\)個二級單元中,以簡單隨機抽樣抽取\(m\)個二級單元。注意到兩個階段的抽樣都是簡單隨機抽樣,因此都具有抽樣比,第一階段的抽樣比記作\(f_1=\dfrac{n}{N}\),第二階段的抽樣比記作\(f_2=\dfrac{m}{M}\)

此時,總體均值的估計為

\[\hat{\bar{\bar Y}}=\bar{\bar y}=\frac{1}{n}\sum_{i=1}^{n}\bar {y}_i=\frac{1}{nm}\sum_{i=1}^{n}\sum_{j=1}^{m}\bar y_{i}. \]

要注意此估計量的前一種形式,這相當於對群均值\(\bar{y}_i\)抽樣的簡單估計。

定理:

  1. \(\bar{\bar y}\)\(\bar{\bar Y}\)的無偏估計。

  2. \(\bar{\bar y}\)的方差為

    \[\mathbb{D}(\bar{\bar y})=\frac{1-f_1}{n}S_1^2+\frac{1-f_2}{nm}S_2^2. \]

由於兩個階段都是簡單隨機抽樣,故

\[\begin{aligned} \mathbb{E}(\bar{\bar y})&=\mathbb{E}_1\mathbb{E}_2(\bar{\bar y})\\ &=\mathbb{E}_1\mathbb{E}_2\left(\frac{1}{n}\sum_{i=1}^{n}\bar{y}_i \right)\\ &=\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}\mathbb{E}_2(\bar{y}_i) \right)\\ &=\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}\bar{Y}_i \right)\\ &=\bar{\bar Y}. \end{aligned} \]

此式中,\(\mathbb{E}_2(\bar{y}_i)=\bar Y_i\)是因為,此時固定了抽樣單元,故\(\bar{y}_i\)是第\(i\)個群的群內簡單估計,從而是群內的無偏估計;\(\displaystyle{\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}\bar Y_i \right)=\bar{\bar Y}}\)是因為,此時將每一個群均值視為抽樣單元執行簡單隨機抽樣,因為在等規模情況下群均值的均值就是總體均值(上篇文章已證明),故括號內的統計量是簡單估計,從而是無偏的。這個抽樣性質在下方方差的計算中也將運用。

對於方差,有

\[\begin{aligned} \mathbb{D}(\bar{\bar y})&=\mathbb{D}_1[\mathbb{E}_2(\bar{\bar y})]+\mathbb{E}_1[\mathbb{D}_2(\bar{\bar y})]\\ &=\mathbb{D}_1\left[\frac{1}{n}\sum_{i=1}^{n}\bar{Y}_i \right]+\mathbb{E}_1[\mathbb{D}_2(\bar{\bar y})]\\ &=\frac{1-f_1}{n}\frac{1}{N-1}\sum_{i=1}^{N}(\bar{Y}_i-\bar{\bar Y})^2+\mathbb{E}_1[\mathbb{D}_2(\bar{\bar y})]\\ &=\frac{1-f_1}{n}S_1^2+\mathbb{E}_1[\mathbb{D}_2(\bar{\bar y})]\\ &=\frac{1-f_1}{n}S_1^2+\mathbb{E}_1\left[\mathbb{D}_2\left(\frac{1}{n}\sum_{i=1}^{n}\bar{y}_i \right) \right]\\ &\stackrel{*}=\frac{1-f_1}{n}S_1^2+\mathbb{E}_1\left[\frac{1}{n^2}\sum_{i=1}^{n}\mathbb{D}_2(\bar y_i) \right]\\ &=\frac{1-f_1}{n}S_1^2+\frac{1}{n^2}\mathbb{E}_1\sum_{i=1}^{n}\left[\frac{1-f_2}{m}\frac{1}{M-1}\sum_{j=1}^{M}(Y_{ij}-\bar{Y}_i)^2\right]\\ &=\frac{1-f_1}{n}S_1^2+\frac{1-f_2}{nm}\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}S_{2i}^2\right)\\ &=\frac{1-f_1}{n}S_1^2+\frac{1-f_2}{nm}\left(\frac{1}{N}\sum_{i=1}^{N}S_{2i}^2\right) \\ &=\frac{1-f_1}{n}S_1^2+\frac{1-f_2}{nm}S_2^2. \end{aligned} \]

這里應注意\((*)\)式成立,是因為\(\mathbb{D}_2\)的處理是將諸\(i\)視為已知量,即已經選定了抽取的樣本,從而每一個\(\mathbb{D}_2(\bar {y}_i)\)應獨立於\(\mathbb{E}_1\)計算。

方差估計

由於\(S_1^2\)\(S_2^2\)未知,故\(\mathbb{D}(\bar{\bar y})\)未知,需要對其進行估計。但此時不能簡單使用\(s_1^2,s_2^2\)直接替代。

定理:\(\mathbb{D}(\bar{\bar y})\)的無偏估計為

\[v(\bar{\bar y})=\frac{1-f_1}{n}s_1^2+\frac{f_1(1-f_2)}{nm}s_2^2. \]

這里

\[s_1^2=\frac{1}{n-1}\sum_{i=1}^{n}(\bar y_i-\bar{\bar y})^2 ,\\ s_{2i}^2=\frac{1}{m-1}\sum_{j=1}^{m}(y_{ij}-\bar{y}_i)^2,\\ s_2^2=\frac{1}{n}\sum_{i=1}^{n}s_{2i}^2. \]

要分別計算\(s_1^2\)\(s_2^2\)的期望並代回\(v(\bar{\bar y})\),由期望迭代,先計算\(\mathbb{E}_2\),於是

\[\begin{aligned} \mathbb{E}_2[(n-1)s_1^2]&=\mathbb{E}_2\left[\sum_{i=1}^{n}(\bar y_i-\bar{\bar y})^2 \right]\\ &=\sum_{i=1}^{n}\mathbb{E}_2(\bar y_i^2)-n\mathbb{E}(\bar {\bar y}^2)\\ &=\sum_{i=1}^{n}\left\{[\mathbb{E}_2(\bar y_i)]^2+\mathbb{D}(\bar y_i) \right\}-n\left\{[\mathbb{E}_2(\bar{\bar y})]^2+\mathbb{D}_2(\bar {\bar y}) \right\}\\ &=\sum_{i=1}^{n}\bar Y_i^2+\sum_{i=1}^{n}\frac{1-f_2}{m}S_{2i}^2-n\left(\frac{1}{n}\sum_{i=1}^{n}\bar Y_i \right)^2-\frac{1-f_2}{nm}\sum_{i=1}^{n}S_{2i}^2. \end{aligned} \]

\(\bar{\bar Y}_n=\displaystyle{\frac{1}{n}\sum_{i=1}^{n}\bar Y_i}\),它指的是對於已經選中的群的群均值的均值,與群均值的均值\(\bar{\bar Y}\)不一樣。引入此符號后,有

\[\begin{aligned} \mathbb{E}_2[(n-1)s_1^2]&=\sum_{i=1}^{n}(\bar Y_i^2)-n(\bar{\bar Y}_n)^2+\frac{1-f_2}{m}\sum_{i=1}^{n}S_{2i}^2+\frac{1-f_2}{nm}\sum_{i=1}^{n}S_{2i}^2 \\ &=\sum_{i=1}^{n}(\bar Y_i-\bar{\bar Y}_n)^2+\frac{(n-1)(1-f_2)}{nm}\sum_{i=1}^{n}S_{2i}^2. \end{aligned} \]

從而

\[\begin{aligned} \mathbb{E}(s_1^2)&=\mathbb{E}_1\mathbb{E}_2(s_1^2)\\ &=\mathbb{E}_1\left[\frac{1}{n-1}\sum_{i=1}^{n}(\bar Y_i-\bar{\bar Y}_n)^2 \right]+\frac{1-f_2}{m}\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}S_{2i}^2 \right)\\ &=S_1^2+\frac{1-f_2}{m}S_2^2. \end{aligned} \]

對第三個等號,需要注意到\(\displaystyle{\frac{1}{n-1}\sum_{i=1}^{n}(\bar Y_i-\bar{\bar Y}_n)^2}\)實際上是簡單隨機抽樣下的樣本方差,因此由第一部分定理,它是\(\displaystyle{S_1^2=\frac{1}{N-1}\sum_{i=1}^{N}(\bar Y_i-\bar{\bar Y})^2}\)的無偏估計;另外\(\displaystyle{\frac{1}{n}\sum_{i=1}^{n}S_{2i}^2}\)是簡單隨機抽樣下的樣本均值,它是總體均值\(\displaystyle{S_2^2=\frac{1}{N}\sum_{i=1}^{N}S_{2i}^2}\)的無偏估計。

同理,對於\(s_2^2\),有

\[\begin{aligned} \mathbb{E}_2(s_2^2)&=\mathbb{E}_2\left[\frac{1}{n}\sum_{i=1}^{n}s_{2i}^2 \right]\\ &=\mathbb{E}_2\left[\frac{1}{n(m-1)}\sum_{i=1}^{n}\sum_{j=1}^{m}(y_{ij}-\bar{y}_i)^2 \right]\\ &=\frac{1}{n}\sum_{i=1}^{n}\mathbb{E}_2\left[\frac{1}{m-1}\sum_{j=1}^{m}(y_{ij}-\bar{y}_i)^2 \right]\\ &=\frac{1}{n}\sum_{i=1}^{n}\frac{1}{M-1}\sum_{j=1}^{M}(Y_{ij}-\bar{Y}_i)^2\\ &=\frac{1}{n}\sum_{i=1}^{n}S_{2i}^2,\\ \mathbb{E}(s_2^2)&=\mathbb{E}_1\mathbb{E}_2(s_2^2)\\ &=\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}S_{2i}^2 \right)\\ &=\frac{1}{N}\sum_{i=1}^{N}S_{2i}^2\\ &=S_{2}^2. \end{aligned} \]

\(\displaystyle{\mathbb{E}(s_1^2)=S_1^2+\frac{1-f_2}{m}S_2^2},\mathbb{E}(s_2^2)=S_2^2\)代入\(\mathbb{E}[v(\bar{\bar y})]\)的表達式,就得到

\[\begin{aligned} \mathbb{E}[v(\bar{\bar y})]&=\frac{1-f_1}{n}\mathbb{E}(s_1^2)+\frac{f_1(1-f_2)}{nm}\mathbb{E}(s_2^2)\\ &=\frac{1-f_1}{n}S_1^2+\frac{(1-f_1)(1-f_2)}{nm}S_2^2+\frac{f_1(1-f_2)}{nm}S_2^2\\ &=\frac{1-f_1}{n}S_1^2+\frac{1-f_2}{nm}S_2^2\\ &=\mathbb{D}(\bar{\bar y}). \end{aligned} \]

從結果上看,\(v(\bar{\bar y})\)更像是用\(s_1^2,s_2^2\)配湊出的式子。

初等單元規模不等的兩階段抽樣

簡單估計量

與整群抽樣類似,在初等單元規模不等時,常常先估計總體總值,此時

\[\hat Y_{u}=N\frac{1}{n}\sum_{i=1}^{n}\hat Y_i=\frac{N}{n}\sum_{i=1}^{n}M_i\bar{y}_i. \]

定理:

  1. \(\hat Y_{u}\)\(\hat Y\)的無偏估計。

  2. \(\hat Y_{u}\)的方差為

    \[\mathbb{D}(\hat Y_u)=\frac{N^2(1-f_1)}{n}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar{Y})^2+\frac{N}{n}\sum_{i=1}^{N}\frac{M_i^2(1-f_{2i})}{m_i}S_{2i}^2. \]

  3. \(\mathbb{D}(\hat Y_{u})\)的無偏估計為

    \[v(\hat {Y}_u)=\frac{N^2(1-f_1)}{n}\frac{1}{n-1}\sum_{i=1}^{n}(\hat Y_i-\hat{\bar Y}_u)^2+\frac{N}{n}\sum_{i=1}^{n}\frac{M_i^2(1-f_{2i})}{m_i}s_{2i}^2. \]

    這里

    \[\hat{\bar Y}_u=\frac{1}{n}\sum_{i=1}^{n}\hat Y_i. \]

證明過程類似於前面等規模的情形,有

\[\mathbb{E}(\hat Y_u)=\mathbb{E}_1\mathbb{E}_2\left(\frac{N}{n}\sum_{i=1}^{n}M_i\bar y_{i}\right)=\mathbb{E}_1\left(\frac{N}{n}\sum_{i=1}^{n}M_i\bar Y_i \right)=N\frac{1}{N}\sum_{i=1}^{N}Y_i=Y. \]

對於方差,有\(\mathbb{D}(\hat Y_u)=\mathbb{E}_1[\mathbb{D}_2(\hat Y_u)]+\mathbb{D}_1[\mathbb{E}_2(\hat Y_u)]\),從而

\[\begin{aligned} \mathbb{E}_1[\mathbb{D}_2(\hat Y_u)]&=\mathbb{E}_1\left[\mathbb{D}_2\left(\frac{N}{n}\sum_{i=1}^{n}\hat Y_i \right) \right]\\ &=\mathbb{E}_1\left[\frac{N^2}{n^2}\sum_{i=1}^{n}\mathbb{D}_2(\hat Y_i) \right]\\ &=\mathbb{E}_1\left[\frac{N^2}{n^2}\sum_{i=1}^{n}\frac{M_i^2(1-f_{2i})}{m_i}S_{2i}^2 \right]\\ &=\frac{N^2}{n}\mathbb{E}_1\left[\frac{1}{n}\sum_{i=1}^{n}\frac{M_i^2(1-f_{2i})}{m_i}S_{2i}^2\right] \\ &=\frac{N^2}{n}\frac{1}{N}\sum_{i=1}^{N}\frac{M_i^2(1-f_{2i})}{m_i}S_{2i}^2\\ &=\frac{N}{n}\sum_{i=1}^{N}\frac{M_i^2(1-f_{2i})}{m_i}S_{2i}^2. \\ \mathbb{D}_1[\mathbb{E}_2(\hat Y_u)]&=\mathbb{D}_1\left[\mathbb{E}_2\left(\frac{N}{n}\sum_{i=1}^{n}\hat Y_i \right) \right]\\ &=\mathbb{D}_1\left[\frac{N}{n}\sum_{i=1}^{n}Y_i \right]\\ &=N^2\frac{1-f_1}{n}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar Y)^2.\\ \end{aligned} \]

相加即得到所需結果。

對於\(v(\hat Y_{u})\),同樣的證明過程可以得知\(\mathbb{E}(s_2^2)=S_2^2\),同樣用期望迭代可以計算得

\[\mathbb{E}\left(\frac{1}{n-1}\sum_{i=1}^{n}(\hat {\bar{Y}_i}-\hat{\bar Y_u})^2 \right)=\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar{Y})^2. \]

比率估計量

與整群估計一致,如果各個\(M_i\)差異很大,會導致簡單估計量精度低。以\(M_i\)作為\(Y_i\)的輔助變量,采用比率估計量估計總體總值,得到的估計量\(\hat Y_{R}\)雖然是有偏的,但均方誤差比較小。

\[\hat {Y}_{R}=M_0\frac{\sum\limits_{i=1}^{n}M_i\bar{y}_i}{\sum\limits_{i=1}^{n}M_i}=M_0\frac{\sum\limits_{i=1}^{n}\hat Y_{i}}{\sum\limits_{i=1}^{n}M_i},\\ \mathrm{MSE}(\hat Y_{R})\approx \frac{N^2(1-f_1)}{n}\frac{1}{N-1}\sum_{i=1}^{N}M_i^2(\bar{Y}_i-\bar{\bar Y})^2+\frac{N}{n}\sum_{i=1}^{N}\frac{M_i^2(1-f_{2i})}{m_i}S_{2i}^2,\\ v(\hat Y_{R})=\frac{N^2(1-f_1)}{n}\frac{1}{n-1}\sum_{i=1}^{n}M_i^2(\bar{y}_i-\bar{\bar y}_{R})^2+\frac{N}{n}\sum_{i=1}^{n}\frac{M_i^2(1-f_{2i})}{m_i}s_{2i}^2,\\ \bar{\bar y}_{R}=\frac{1}{M_0}\hat Y_{R}=\frac{\sum\limits_{i=1}^{n}M_i\bar y_i}{\sum\limits_{i=1}^{n}M_i}. \]

抽樣設計

在設計一個兩階段樣本時,需要考慮以下四個問題:

  1. 大體需要多高的精度?
  2. PSU的規模應該有多大?
  3. 在每一個入樣的PSU中應抽取多少個SSU?
  4. 應抽取多少個PSU?

假定PSU規模相等,考慮費用函數為

\[C=c_0+c_1n+c_2nm, \]

\(m\)的最優值為

\[m_{opt}=\frac{S_2}{S_u}\sqrt{\frac{c_1}{c_2}},\\ S_u^2=S_1^2-\frac{S_2^2}{M}. \]

再根據\(m_{opt}\)計算\(n\),從而確定最優抽樣比\(f_1,f_2\),這里有

\[\begin{aligned} \mathbb{D}(\bar{\bar y})&=\frac{1-f_1}{n}S_1^2+\frac{1-f_2}{nm}S_2^2\\ &=\left(\frac{1}{n}-\frac{1}{N}\right)S_1^2+\frac{1}{n}\left(\frac{1}{m}S_2^2-\frac{1}{M}S_2^2 \right) \\ &=\frac{1}{n}\left(S_1^2-\frac{S_2^2}{M} \right)+\frac{S_2^2}{nm}-\frac{S_1^2}{N}. \end{aligned} \]


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM