【抽樣調查】：不等概抽樣

本文轉載自查看原文 2021-05-28 20:41 1911 大學課程筆記 / 抽樣調查 + 科學計算

第5部分不等概抽樣

第5部分不等概抽樣

不等概抽樣

等概率抽樣和不等概抽樣的區別：在等概抽樣中，每個總體單元都具有相同的入樣概率；不等概抽樣賦予每個單元與其規模（或輔助變量）成比例的入樣概率，使得大單元入樣概率大、小單元入樣概率小，然后在估計中采用不同的權數來進行彌補。

當總體單元之間差異不大時，簡單隨機抽樣簡便、有效。
如果總體單元之間差異大時，簡單隨機抽樣的效果不好。
如果每個總體單元的入樣意願與其所處的層有關，則無偏估計量會有較大的方差。

不等概抽樣的適用情況：

抽樣單元在總體中所占的地位不一致。
調查的總體單元與抽樣總體的單元不一致（如調查職工家庭，但抽樣單元是職工，可能存在雙職工家庭）。
不等概抽樣可用於改善等概抽樣的估計量。

不等概抽樣的特點與優缺點：

不等概抽樣的使用前提時，每個單元必須有確定的入樣概率，在抽樣設計時就要設定好。
優點是提高估計精度，減少抽樣誤差。
缺點是編制抽樣框的過程有時要復雜一些。

不等概抽樣的分類：

放回不等概抽樣

每次在總體中，對每個單元按入樣概率進行抽樣，抽取出來的樣本單元放回總體，再進行下一次抽樣。

這使得每一次抽樣過程都是從同一個總體獨立出來的，某個單元可能在樣本中多次出現，但此時對這個單元的調查只進行一次，而計算時按抽中次數計算。

典型方式：\(\mathrm{PPS}\)抽樣，即與規模大小成比例(probability proportional to size)的抽樣，規模的定義可以由多種方式完成。
不放回不等該抽樣

每次在總體中對每個單元按入樣概率進行抽樣，抽取出來的樣本不放回總體，對總體中剩下的單元進行下一次抽樣。抽取出的樣本是不獨立的。

抽取方法有：逐個抽取法，重抽法，全樣本抽取法，系統抽樣法。

典型方式：\(\mathrm{\pi PS}\)抽樣，假設總體中第\(i\)個單元被包含到樣本的概率用\(\pi_i\)表示，若\(\pi_i\)與單元規模大小成比例，則這種抽樣方式稱為\(\mathrm{\pi PS}\)抽樣。

簡單的放回不等概抽樣

概述

符號定義：

要抽取的樣本容量\(n\)，總體中含有的個體數\(N\)。
總體中第\(i\)個單元\(Y_i\)的規模度量\(M_i\)。
總體的總規模\(\displaystyle{M_0=\sum_{i=1}^{N}M_i}\)。
每次抽樣中，\(Y_i\)被抽中的概率\(Z_i\)，如果是\(\mathrm{PPS}\)抽樣，則有

\[Z_i=\frac{M_i}{M_0}=\frac{M_i}{\sum\limits_{i=1}^{N}M_i}. \]

對總體總值的估計量：漢森-赫維茨(Hansen-Hurwitz)估計量。

\[\hat Y_{HH}=\frac{1}{n}\sum_{i=1}^{n}\frac{y_i}{Z_i}. \]

如果是\(\mathrm{PPS}\)抽樣，則

\[\hat Y_{HH}=\frac{1}{n}\sum_{i=1}^{n}\frac{y_i}{Z_i}=\frac{M_0}{n}\sum_{i=1}^{n}\frac{y_i}{M_i}. \]

HH統計量的期望、方差

定理：\(\hat Y_{HH}\)是總體總值\(Y\)的無偏估計量，即

\[\mathbb{E}(\hat {Y}_{HH})=Y. \]

可先計算只抽取一個樣本時，\(y_i/Z_i\)的期望，為

\[\mathbb{E}\left(\frac{y_i}{Z_i}\right)=\sum_{i=1}^{N}Z_i\frac{Y_i}{Z_i}=Y, \]

再由不放回抽樣時每個樣本的獨立性，有

\[\mathbb{E}(\hat{Y}_{HH})=\frac{1}{n}\sum_{i=1}^{n}\mathbb{E}\left(\frac{y_i}{Z_i}\right)=\frac{1}{n}\sum_{i=1}^{n}Y=Y. \]

要注意到每一個\(Z_i\)是與\(Y_i\)相聯系的量，因此當實際抽中\(Y_i\)時，可以將其觀測值視為\(Y_i/Z_i\)，再按照離散分布列，加權計算期望即可。

定理：\(\hat Y_{HH}\)的方差為

\[\mathbb{D}(\hat Y_{HH})=\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2. \]

類似地，可以先計算每一個\(y_i/Z_i\)的方差，再由樣本間的同分布獨立性計算整體方差，為

\[\mathbb{D}\left(\frac{y_i}{Z_i} \right)=\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2,\\ \mathbb{D}(\hat Y_{HH})=\mathbb{D}\left(\frac{1}{n}\sum_{i=1}^{n}\frac{y_i}{Z_i} \right)=\frac{1}{n}\mathbb{D}\left(\frac{y_i}{Z_i} \right)=\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2. \]

HH統計量方差的無偏估計

定理：當\(n>1\)時，\(\mathbb{D}(\hat Y_{HH})\)的無偏估計為

\[v(\hat Y_{HH})=\frac{1}{n}\frac{1}{n-1}\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-\hat Y_{HH} \right)^2,\\ \mathbb{E}(v(\hat Y_{HH}))=\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2. \]

不妨記\(t_i\)為\(Y_i\)的入樣次數，則\(\displaystyle{\sum_{i=1}^{N}t_i=n}\)，\(t_i\sim B(n, Z_i)\)，\((t_i,t_j)\)服從多項分布，且

\[\mathbb{E}(t_i)=nZ_i,\quad \mathbb{D}(t_i)=nZ_i(1-Z_i),\\ \mathbb{E}(t_it_j)=n(n-1)Z_iZ_j,\\ \mathrm{cov}(t_i,t_j)=-nZ_iZ_j. \]

要證明定理，即證明

\[\mathbb{E}\left[\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-\hat Y_{HH} \right)^2 \right]=(n-1)\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2=n(n-1)\mathbb{D}(\hat{Y}_{HH}). \]

注意到

\[\hat Y_{HH}=\frac{1}{n}\sum_{i=1}^{n}\frac{y_i}{Z_i}, \]

所以

\[\begin{aligned} \sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-\hat Y_{HH} \right)^2=\sum_{i=1}^{n}\left(\frac{y_i}{Z_i} \right)^2-n\hat Y_{HH}^2=\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-Y \right)^2-n(\hat Y_{HH}-Y)^2 \end{aligned}, \]

這里\(\displaystyle{\mathbb{E}\left(\frac{y_i}{Z_i} \right)=\mathbb{E}(\hat Y_{HH})=Y}\)，於是

\[\begin{aligned} \mathbb{E}\left[\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-\hat Y_{HH} \right)^2 \right]&=\mathbb{E}\left[\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-Y \right)^2-n(\hat Y_{HH}-Y)^2 \right]\\ &=\mathbb{E}\left[\sum_{i=1}^{N}t_i\left(\frac{y_i}{Z_i}-Y \right)^2 \right]-n\mathbb{D}(\hat Y_{HH})\\ &=\sum_{i=1}^{N}\mathbb{E}(t_i)\left(\frac{y_i}{Z_i}-Y \right)^2-n\mathbb{D}(\hat Y_{HH})\\ &=n\sum_{i=1}^{N}Z_i\left(\frac{y_i}{Z_i}-Y \right)^2-n\mathbb{D}(\hat{Y}_{HH})\\ &=n^2\mathbb{D}(\hat{Y}_{HH})-n\mathbb{D}(\hat{Y}_{HH})\\ &=n(n-1)\mathbb{D}(\hat{Y}_{HH}), \end{aligned} \]

原式得證。

推論：如果是\(\mathrm{PPS}\)抽樣，則由\(Z_i=\dfrac{M_i}{M_0}\)，有

\[v(\hat{Y}_{HH})=\frac{1}{n(n-1)}\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-\hat Y_{HH} \right)^2=\frac{M_0^2}{n(n-1)}\sum_{i=1}^{n}\left(\frac{y_i}{M_i}-\frac{\hat Y_{HH}}{M_0} \right)^2. \]

放回不等概多階段抽樣

放回不等概整群抽樣

在等概率整群抽樣中，每一個群被抽中的概率相等，如果每個群規模相等則等概整群抽樣的效果較好；如果群的規模不等，則一般使用不等概整群抽樣抽取群，按與群規模\(M_i\)成比例的\(\mathrm{PPS}\)抽樣，第\(i\)個群的總值為\(\displaystyle{y_i=\sum_{j=1}^{M_i}y_{ij}}\)。

\(\mathrm{PPS}\)總體總值的估計量為

\[\hat Y=\frac{1}{n}\sum_{i=1}^{n}\frac{y_i}{Z_i}=\frac{M_0}{n}\sum_{i=1}^{n}\frac{y_i}{M_i}=M_0\bar{\bar y}. \]

推論：由漢森-赫維茨估計量的性質，有

\(\hat Y\)是\(Y\)的無偏估計。

\(\hat Y\)的方差為

\[\mathbb{D}(\hat Y)=\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2=\frac{M_0}{n}\sum_{i=1}^{N}M_i(\bar Y_i-\bar{\bar Y})^2. \]

\(\mathbb{D}(\hat Y)\)的無偏估計為

\[v(\hat Y)=\frac{1}{n(n-1)}\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-Y \right)^2=\frac{M_0^2}{n(n-1)}\sum_{i=1}^{n}(\bar{y}_i-\bar{\bar y})^2. \]

只需注意到\(\displaystyle{Y=\sum_{i=1}^{N}Y_i}\)，再將每一個群視為一個個體，最后取\(\displaystyle{Z_i=\frac{M_i}{M_0}}\)即可。

由上述過程可知，在抽取樣本之前，必須獲得各群規模\(M_i\)的信息。

放回不等概兩階段抽樣

兩階段放回不等概抽樣是兩階段整群抽樣的推廣，先按照放回不等概整群抽樣的方式抽中\(n\)個一級單元，對抽中的第\(i\)個單元，再抽取\(m_i\)個二級單元（如果某個初級單元被重復抽中多次，則對其二級單元抽取多個獨立樣本）。

此時，由於沒有對抽中的初級單元作普查，所以先構造初級單元總值\(Y_i\)的無偏估計\(\hat Y_i\)（構造方式不限，故抽樣方式也不限），再構造漢森-赫維茨估計量為

\[\hat Y_{HH}=\frac{1}{n}\sum_{i=1}^{n}\frac{\hat Y_i}{Z_i}. \]

推論：由漢森赫維茨估計量的性質以及兩階段抽樣的特點，有

\(\hat Y_{HH}\)是\(Y\)的無偏估計。

\(\hat Y_{HH}\)的方差為

\[\mathbb{D}(\hat Y_{HH})=\frac{1}{n}\left[\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2+\sum_{i=1}^{N}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i} \right]. \]

\(\mathbb{D}(\hat Y_{HH})\)的無偏估計為

\[v(\hat Y_{HH})=\frac{1}{n(n-1)}\sum_{i=1}^{n}\left(\frac{\hat Y_i}{Z_i}-\hat Y_{HH} \right)^2. \]

由於\(\hat {Y}_i\)是\(Y_i\)的無偏估計，所以\(\displaystyle{\mathbb{E}_2\left(\frac{\hat Y_i}{Z_i} \right)=\frac{Y_i}{Z_i}}\)，即

\[\mathbb{E}(\hat Y_{HH})=\mathbb{E}_1\left[\frac{1}{n}\sum_{i=1}^{n}\mathbb{E}_2\left(\frac{\hat Y_i}{Z_i}\right)\right]=\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i}{Z_i} \right)=Y. \]

並且可得兩個關鍵等式：

\[\mathbb{E}_2(\hat Y_{HH})=\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i}{Z_i},\quad \mathbb{D}_2(\hat Y_{HH})=\frac{1}{n^2}\sum_{i=1}^{n}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i^2}, \]

由兩階段抽樣定理，與第一階段簡單不等概抽樣的性質，有

\[\begin{aligned} \mathbb{D}(\hat Y_{HH})&=\mathbb{D}_1\mathbb{E}_2(\hat Y_{HH})+\mathbb{E}_1\mathbb{D}_2(\hat Y_{HH})\\ &=\mathbb{D}_1\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i}{Z_i} \right)+\mathbb{E}_1\left(\frac{1}{n^2}\sum_{i=1}^{n}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i^2} \right)\\ &=\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2+\frac{1}{n}\sum_{i=1}^{N}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i^2}. \end{aligned} \]

這里，前一部分是漢森-赫維茨估計量的方差，后一部分是漢森-赫維茨估計量的均值。

對於\(v(\hat Y_{HH})\)，在下面的\((*)\)式中將兩個關鍵等式代入，可得

\[\begin{aligned} \mathbb{E}(v(\hat Y_{HH}))&=\frac{1}{n(n-1)}\mathbb{E}_1\mathbb{E}_2\left[\sum_{i=1}^{n}\left(\frac{\hat Y_i}{Z_i}-\hat Y_{HH} \right)^2 \right]\\ &=\frac{1}{n(n-1)}\mathbb{E}_1\mathbb{E}_2\left[\sum_{i=1}^{n}\left(\frac{\hat Y_i}{Z_i} \right)^2-n(\hat Y_{HH}^2) \right]\\ &=\frac{1}{n(n-1)}\mathbb{E}_1\left[\sum_{i=1}^{n}\frac{\mathbb{D}_2(\hat Y_i)+[\mathbb{E}_2(\hat Y_i)]^2}{Z_i^2}-n\{\mathbb{D}_2(\hat Y_{HH})+[\mathbb{E}_2(\hat Y_{HH}) ]^2 \} \right]\\ &\stackrel{*}{=}\frac{1}{n(n-1)}\mathbb{E}_1\left[\sum_{i=1}^{n}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i^2}+\sum_{i=1}^{n}\frac{Y_i^2}{Z_i^2}-\frac{1}{n}\sum_{i=1}^{n}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i^2}-\frac{1}{n}\left(\sum_{i=1}^{n}\frac{Y_i}{Z_i} \right)^2 \right]\\ &=\frac{1}{n^2}\mathbb{E}_1\left[\sum_{i=1}^{n}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i^2} \right]+ \frac{1}{n-1}\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i^2}{Z_i^2} \right)-\frac{1}{n-1}\mathbb{E}_1\left[\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i}{Z_i} \right)^2 \right] \end{aligned} \]

對第一項，有

\[\frac{1}{n^2}\mathbb{E}_1\left[\sum_{i=1}^{n}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i^2} \right]=\frac{1}{n}\mathbb{E}_1\left[\frac{1}{n}\sum_{i=1}^{n}\frac{\frac{\mathbb{D}_2(\hat Y_i)}{Z_i}}{Z_i} \right]=\frac{1}{n}\sum_{i=1}^{N}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i}, \]

后一個等號實際上是從\(\displaystyle{\frac{\mathbb{D}_2(\hat Y_i)}{Z_i^2}}\)中分離出入樣概率\(Z_i\)后，剩下的部分視為樣本觀測值，從而\(\displaystyle{\sum_{i=1}^{N}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i}}\)成為此式中漢森-赫維茨統計量所估計的“總體總值”。同時，可以注意到此部分是\(\mathbb{D}(\hat Y_{HH})\)的后一部分。

對第二項，用同樣的分離方式，可得到

\[\frac{1}{n-1}\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i^2}{Z_i^2}\right)=\frac{1}{n-1}\sum_{i=1}^{N}\frac{Y_i^2}{Z_i}, \]

而從第三項，因\(\displaystyle{\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i}{Z_i} \right)=Y}\)，結合\(\displaystyle{\sum_{i=1}^{N}Y_i=Y}\)，\(\displaystyle{\sum_{i=1}^{N}Z_i=1}\)，有

\[\begin{aligned} \frac{1}{n-1}\mathbb{E}_1\left[\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i}{Z_i} \right)^2 \right]&=\frac{1}{n-1}\left[\mathbb{D}_1\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i}{Z_i} \right)+Y^2 \right]\\ &=\frac{1}{n-1}\left[\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2+Y^2 \right]\\ &=\frac{1}{n(n-1)}\sum_{i=1}^{N}\left(\frac{Y_i^2}{Z_i}-2YY_i+Z_iY^2 +nY^2\right)\\ &=\frac{1}{n(n-1)}\sum_{i=1}^{N}\frac{Y_i^2}{Z_i^2}+\frac{1}{n}Y^2 \end{aligned} \]

於是第二項與第三項相減，恰好得到

\[\begin{aligned} &\quad \frac{1}{n-1}\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i^2}{Z_i^2}\right)-\frac{1}{n-1}\mathbb{E}_1\left[\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i}{Z_i} \right)^2 \right]\\ &=\frac{1}{n-1}\sum_{i=1}^{N}\frac{Y_i^2}{Z_i}-\frac{1}{n(n-1)}\sum_{i=1}^{N}\frac{Y_i^2}{Z_i}-\frac{1}{n}Y^2\\ &=\frac{1}{n}\left(\sum_{i=1}^{N}\frac{Y_i^2}{Z_i}-Y^2 \right)\\ &=\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2. \end{aligned} \]

這恰好是\(\mathbb{D}(\hat Y_{HH})\)的前一部分。綜上，就得到

\[\mathbb{E}(v(\hat Y_{HH}))=\mathbb{D}(\hat Y_{HH}). \]

兩階段放回不等概抽樣中自加權統計量的設計

依前述，在兩階段放回不等概抽樣中，有

\[\hat Y_{HH}=\frac{1}{n}\sum_{i=1}^{n}\frac{\hat Y_{i}}{Z_i}, \]

如果第二階段采用簡單隨機抽樣，則

\[\hat Y_{HH}=\frac{1}{n}\sum_{i=1}^{n}\frac{1}{Z_i}\frac{M_i}{m_i}\sum_{j=1}^{m_i}y_{ij}, \]

如果希望\(\hat Y_{HH}\)是自加權的（即統計量是樣本總值或樣本均值的一個常數倍），則需要\(\displaystyle{\frac{M_i}{nm_iZ_i}=K}\)，這里\(K\)是常數，更具體地有\(K\equiv\dfrac{1}{f_0}\)，\(f_0\)為總體中任意一個二級單元被抽中的概率，即

\[f_0=nZ_i\frac{m_i}{M_i}:=nZ_if_{2i}. \]

對\(\mathrm{PPS}\)抽樣，有\(Z_i=M_i/M_0\)，所以只要\(m_i=m\)為常數，\(\dfrac{M_i}{nm_iZ_i}=\dfrac{M_0}{nm}\)就是常數，此時

\[\hat Y_{\mathrm{PPS}}=\frac{M_0}{nm}\sum_{i=1}^{n}\sum_{j=1}^{m}y_{ij},\\ v(\hat Y_{\mathrm{PPS}})=\frac{M_0^2}{n(n-1)}\sum_{i=1}^{n}(\bar y_i-\bar{\bar y})^2. \]

多階段放回不等概抽樣概述

多階段放回不等概抽樣的方式一般是：對除最后一階段的每一階段，采用與單元大小成比例的不等概抽樣（\(\mathrm{PPS}\)抽樣），對最后一階段的抽樣采用等概抽樣。

以三階段抽樣為例：

總體有\(N\)個初級單元，第\(i\)個初級單元被抽中的概率為\(Z_i\)，\(\displaystyle{\sum_{i=1}^{N}Z_i=1}\)。
第\(i\)個初級單元有\(M_i\)個二級單元，第\(i,j\)個二級單元被抽中的概率為\(Z_{ij}\)，\(\displaystyle{\sum_{j=1}^{M_i}Z_{ji}}=1\)。
第\(i,j\)個二級單元有\(K_{ij}\)個三級單元，第\(i,j,u\)個三級單元被抽中的概率為\(Z_{iju}\)，\(\displaystyle{\sum_{u=1}^{K_{ij}}}Z_{iju}=1\)。
各階樣本量分別為\(n,m,k\)（定值，與單元無關）

此時，對總體總值\(Y\)的無偏估計為

\[\hat Y=\frac{1}{nmk}\sum_{i=1}^{n}\frac{1}{Z_i}\sum_{j=1}^{M_i}\frac{1}{Z_{ij}}\sum_{u=1}^{K_{ij}}\frac{1}{Z_{iju}}\cdot y_{iju}. \]

定義\(\displaystyle{Y_{ij}=\sum_{u=1}^{K_{ij}}Y_{iju}}\)，\(\displaystyle{Y_{i}=\sum_{j=1}^{M_i}Y_{ij}=\sum_{j=1}^{M_i}\sum_{u=1}^{K_{ij}}Y_{iju}}\)，則\(\hat Y\)的方差為

\[\begin{aligned} \mathbb{D}(\hat Y)&=\frac{1}{n}\left(\sum_{i=1}^{N}\frac{Y_i^2}{Z_i}-Y^2 \right)\\ &\quad+\frac{1}{nm}\sum_{i=1}^{N}\frac{1}{Z_i}\left(\sum_{j=1}^{M_i}\frac{Y_{ij}^2}{Z_{ij}}-Y_{i}^2 \right)\\ &\qquad+\frac{1}{nmk}\sum_{i=1}^{N}\frac{1}{Z_i}\sum_{j=1}^{M_i}\frac{1}{Z_{ij}}\left(\sum_{u=1}^{K_{ij}}\frac{Y_{iju}^2}{Z_{iju}}-Y_{ij}^2 \right). \end{aligned} \]

定義\(\displaystyle{\hat Y_i=\frac{1}{Z_i}\left[\frac{1}{m}\sum_{j=1}^{m}\frac{1}{Z_{ij}}\left(\frac{1}{k}\sum_{u=1}^{k}\frac{y_{iju}}{Z_{iju}} \right) \right]}\)，\(\mathbb{D}(\hat Y)\)的無偏估計為

\[v(\hat Y)=\frac{1}{n(n-1)}\sum_{i=1}^{n}(\hat Y_{i}-\hat Y)^2, \]

為使\(\hat Y\)是自加權的，使前兩階段抽樣采用\(\mathrm{PPS}\)抽樣，最后一階段按放回的等概率抽樣進行，則此時

\[Z_i=\frac{\sum\limits_{j=1}^{M_i}K_{ij}}{\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{M_i}K_{ij}}=\frac{\sum\limits_{j=1}^{M_i}K_{ij}}{M_0},\quad Z_{ij}=\frac{K_{ij}}{\sum\limits_{j=1}^{M_i}K_{ij}},\quad Z_{iju}=\frac{1}{K_{ij}},\\ \hat Y=\frac{M_0}{nmk}\sum_{i=1}^{n}\sum_{j=1}^{m}\sum_{u=1}^{k}y_{iju}=M_0\bar{\bar{\bar y}},\\ v(\hat Y)=\frac{M_0^2}{n(n-1)}\sum_{i=1}^{n}(\bar{\bar y}_i-\bar{\bar{\bar y}})^2. \]

不放回不等概抽樣

概述

在不放回不等概抽樣中，每個單元\(Y_i\)的入樣概率為\(\pi_i\)，任意兩個單元\(Y_i,Y_j\)同時入樣的概率為\(\pi_{ij}\)，統稱為包含概率。應注意\(\pi_i\ne Z_i\)，僅當\(n=1\)時\(\pi_i=Z_i\)。

\[\sum_{i=1}^{N}\pi_i=n,\\ \sum_{j=1,j\ne i}^{N}\pi_{ij}=(n-1)\pi_i,\\ \sum_{i=1}^{N}\sum_{j>i}^{N}\pi_{ij}=\frac{1}{2}n(n-1). \]

第一個式子代表所有單元的入樣概率之和為\(n\)，這是因為一共需要抽取\(n\)個樣本。

第二個式子代表，\(Y_i\)和其他所有單元一起入樣的概率之和為\((n-1)\pi_i\)，可以將其看作兩個獨立事件，其一是\(Y_i\)入樣，概率為\(\pi_i\)；其二是在剩余的單元中抽取\(n-1\)個樣本，故入樣概率之和是\(n-1\)。

第三個式子代表，所有兩個單元一起入樣的概率之和為\(\displaystyle{\frac{1}{2}n(n-1)}\)，只需對第二個式子關於\(i\)求和再除以\(2\)去重。

嚴格的\(\mathrm{\pi PS}\)抽樣：如果每個單元的入樣概率與其大小或規模\(M_i\)嚴格成正比，即\(\displaystyle{Z_i=\frac{M_i}{M_0}}\)，\(\pi_i=nZ_i\)，則這種抽樣稱為嚴格的\(\mathrm{\pi PS}\)抽樣。

只有在\(n=2\)時，嚴格的\(\mathrm{\pi PS}\)抽樣才有一些簡單實用的方法。
對於\(n>2\)時，可以通過分層，在每層中進行嚴格的\(n=2\)的\(\mathrm{\pi PS}\)抽樣。

HT估計量的期望、方差

對於不放回不等概抽樣，對總體總值\(Y\)的估計采用霍維茨-湯普森(Horvitz-Thompson)估計量：

\[\hat Y_{HT}=\sum_{i=1}^{n}\frac{y_i}{\pi_i}=\sum_{i=1}^{N}\alpha_i\frac{Y_i}{\pi_i}. \]

這里\(\alpha_i\)是代表\(Y_i\)入樣的示性變量，類似第一部分中對簡單隨機抽樣的討論，有

\[\mathbb{E}(\alpha_i)=\pi_i,\quad \mathbb{D}(\alpha_i)=\pi_i(1-\pi_i),\\ \mathbb{E}(\alpha_i\alpha_j)=\pi_{ij},\\ \mathrm{cov}(\alpha_i,\alpha_j)=\mathbb{E}(\alpha_i\alpha_j)-\mathbb{E}(\alpha_i)\mathbb{E}(\alpha_j)=\pi_{ij}-\pi_i\pi_j. \]

定理：如果\(\pi_i>0,i=1,2,\cdots ,N\)，則

\(\hat Y_{HT}\)是\(Y\)的無偏估計，\(\mathbb{E}(\hat Y_{HT})=Y\)。

\(\hat Y_{HT}\)的方差為

\[\mathbb{D}(\hat Y_{HT})=\sum_{i=1}^{N}\frac{1-\pi_i}{\pi_i}Y_i^2+2\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j}Y_{i}Y_j. \]
當\(n\)固定時，有

\[\mathbb{D}(\hat Y_{HT})=\sum_{i=1}^{N}\sum_{j>i}^{N}(\pi_i\pi_j-\pi_{ij})\left(\frac{Y_i}{\pi_i}-\frac{Y_j}{\pi_j} \right)^2. \]

注意到這里只有\(\alpha_i\)是隨機變量，且\(\mathbb{E}(\alpha_i)=\pi_i\)，所以

\[\mathbb{E}(\hat Y_{HT})=\sum_{i=1}^{N}\mathbb{E}(\alpha_i)\frac{Y_i}{\pi_i}=\sum_{i=1}^{N}Y_i=Y. \]

對於方差，有

\[\begin{aligned} \mathbb{D}(\hat Y_{HT})&=\mathbb{D}\left(\sum_{i=1}^{N}\alpha_i\frac{Y_i}{\pi_i} \right)\\ &=\sum_{i=1}^{N}\frac{Y_i^2\mathbb{D}(\alpha_i)}{\pi_i^2}+2\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{Y_iY_j}{\pi_i\pi_j}\mathrm{cov}(\alpha_i,\alpha_j)\\ &=\sum_{i=1}^{N}\frac{(1-\pi_i)}{\pi_i}Y_i^2+2\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j}Y_{i}Y_j. \end{aligned} \]

特別當\(n\)固定時，對給定的\(i\)，

\[\sum_{j\ne i}^{N}(\pi_{ij}-\pi_i\pi_j)=\sum_{j\ne i}^{N}\pi_{ij}-\pi_i\sum_{j\ne i}^{N}\pi_j=(n-1)\pi_i-\pi_i(n-\pi_i)=-\pi_i(1-\pi_i), \]

於是

\[\begin{aligned} \sum_{i=1}^{N}\frac{1-\pi_i}{\pi_i}Y_i^2&=\sum_{i=1}^{N}\frac{\pi_i(1-\pi_i)Y_i^2}{\pi_i^2}\\ &=\sum_{i=1}^{N}\sum_{j\ne i}^{N}(\pi_i\pi_j-\pi_{ij})\left(\frac{Y_i^2}{\pi_i^2} \right)\\ &=\sum_{i=1}^{N}\sum_{j>i}^{N}\left(\pi_i\pi_j-\pi_{ij} \right)\left(\frac{Y_i^2}{\pi_i^2}+\frac{Y_j^2}{\pi_j^2} \right),\\ \mathbb{D}(\hat Y_{HT})&=\sum_{i=1}^{N}\frac{1-\pi_i}{\pi_i}Y_i^2+2\sum_{i=1}^{N}\sum_{j>i}^{N}(\pi_{ij}-\pi_i\pi_j)\frac{Y_i}{\pi_i}\frac{Y_j}{\pi_j}\\ &=\sum_{i=1}^{N}\sum_{j>i}^{N}(\pi_i\pi_j-\pi_{ij})\left(\frac{Y_i^2}{\pi_i^2}+\frac{Y_j^2}{\pi_j^2}-2\frac{Y_{i}Y_j}{\pi_i\pi_j} \right)\\ &=\sum_{i=1}^{N}\sum_{j>i}^{N}(\pi_i\pi_j-\pi_{ij})\left(\frac{Y_i}{\pi_i}-\frac{Y_j}{\pi_j} \right)^2. \end{aligned} \]

這說明，要使估計量的方差\(\mathbb{D}(\hat Y_{HT})\)小，應使\(\displaystyle{\frac{Y_i}{\pi_i}}\)之間的差異盡可能小。

HT統計量方差的無偏估計

定理：如果\(\pi_i>0\)，\(\pi_{ij}>0\)，則\(\mathbb{D}(\hat Y_{HT})\)的無偏估計為

\[v(\hat Y_{HT})=\sum_{i=1}^{n}\frac{1-\pi_i}{\pi_i^2}y_i^2+2\sum_{i=1}^{n}\sum_{j>i}^{n}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j\pi_{ij}}y_iy_j. \]

如果\(n\)固定，則\(v(\hat Y_{HT})\)也可以用

\[v_{YGS}(\hat Y_{HT})=\sum_{i=1}^{n}\sum_{j>i}^{n}\frac{\pi_i\pi_j-\pi_{ij}}{\pi_{ij}}\left(\frac{y_i}{\pi_i}-\frac{y_j}{\pi_j} \right)^2. \]

當\(n=2\)時，\(v_{YHS}(\hat Y_{HT})>0\)，否則無論是哪一種無偏估計，都有可能出現負值。

類似科恩菲爾德法，只需將\(y_i\)改成\(\alpha_iY_i\)，並利用\(\alpha_i\)的相關性質：\(\displaystyle{\mathbb{E}(\alpha_i)=\pi_i,\mathbb{E}(\alpha_i\alpha_j)=\pi_{ij}}\)即可。

\[\begin{aligned} v(\hat Y_{HT})&=\sum_{i=1}^{n}\frac{1-\pi_i}{\pi_i^2}y_i^2+2\sum_{i=1}^{n}\sum_{j>i}^{n}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j\pi_{ij}}y_iy_j \\ &=\sum_{i=1}^{N}\alpha_i\frac{1-\pi_i}{\pi_i^2}Y_i^2+2\sum_{i=1}^{N}\sum_{j>i}^{N}\alpha_{i}\alpha_j\frac{\pi_{ij}-\pi_{i}\pi_j}{\pi_i\pi_j\pi_{ij}}Y_iY_j\\ \mathbb{E}(v(\hat Y_{HT}))&=\sum_{i=1}^{N}\frac{1-\pi_i}{\pi_i^2}Y_i^2\mathbb{E}(\alpha_i)+2\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j\pi_{ij}}Y_iY_j\mathbb{E}(\alpha_i\alpha_j)\\ &=\sum_{i=1}^{N}\frac{1-\pi_i}{\pi_i}Y_i^2+2\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j}Y_iY_j\\ &=\mathbb{E}(\hat Y_{HT}). \end{aligned} \]

當\(n\)固定時，類似有

\[\begin{aligned} \mathbb{E}(v_{YGS}(\hat Y_{HT}))&=\mathbb{E}\left[\sum_{i=1}^{n}\sum_{j>i}^{n}\frac{\pi_i\pi_j-\pi_{ij}}{\pi_{ij}}\left(\frac{y_i}{\pi_i}-\frac{y_j}{\pi_j} \right)^2 \right]\\ &=\mathbb{E}\left[\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{\pi_i\pi_j-\pi_{ij}}{\pi_{ij}}\left(\frac{y_i}{\pi_i}-\frac{y_j}{\pi_j} \right)^2\alpha_i\alpha_j \right]\\ &=\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{\pi_i\pi_j-\pi_{ij}}{\pi_{ij}}\left(\frac{y_i}{\pi_i}-\frac{y_j}{\pi_j} \right)^2\mathbb{E}(\alpha_i\alpha_j)\\ &=\sum_{i=1}^{N}\sum_{j>i}^{N}(\pi_i\pi_j-\pi_{ij})\left(\frac{y_i}{\pi_i}-\frac{y_j}{\pi_j} \right)^2\\ &=\mathbb{D}(\hat Y_{HT}). \end{aligned} \]

\(\mathrm{\pi PS}\)抽樣方法

常用的\(\mathrm{\pi PS}\)方法有：布魯爾方法，水野法，不嚴格\(\mathrm{\pi PS}\)抽樣法。

布魯爾(Brewer)方法

要求：對總體所有的單元，都有\(Z_i\le \dfrac{1}{2}\)，只抽取\(n=2\)個單元。

步驟：按與\(\displaystyle{\frac{Z_i(1-Z_i)}{1-2Z_i}}\)成比例的概率抽取第一個單元\(j\)，再按與\(\dfrac{Z_i}{1-Z_j}\)成比例的概率抽取第二個單元。

相關計算：

\[\pi_i=2Z_i,\quad \pi_{ij}=\frac{4Z_iZ_j(1-Z_i-Z_j)}{(1-2Z_i)(1-2Z_j)\left(1+\sum\limits_{i=1}^{N}\dfrac{Z_i}{1-2Z_i} \right)}.\\ \hat Y_{B}=\frac{y_i}{\pi_i}+\frac{y_j}{\pi_j}=\frac{1}{2}\left(\frac{y_i}{Z_i}+\frac{y_j}{Z_j} \right),\\ v_{YGS}(\hat Y_{B})=\frac{\pi_i\pi_j-\pi_{ij}}{\pi_{ij}}\left(\frac{y_i}{\pi_i}-\frac{y_j}{\pi_j} \right)^2. \]
水野(Midzunol)法

要求：每個單元的大小滿足\(M_i\ge\dfrac{(n-1)M_0}{n(N-1)}\)，抽取\(n>2\)個單元。

步驟：以概率\(Z_i^*=\dfrac{n(N-1)Z_i}{N-n}-\dfrac{n-1}{N-n}\)抽取第一個樣本單元，在剩下的\(N-1\)個單元中不放回等概率抽取\(n-1\)個樣本單元。

相關計算：

\[\pi_i=nZ_i,\\ \pi_{ij}=\frac{n-1}{N-1}\left[\frac{N-n}{N-2}(Z_i^*+Z_j^*)+\frac{n-2}{N-n} \right]. \]
非嚴格\(\mathrm{\pi PS}\)抽樣——耶茨-格倫迪(Yates-Grundy)逐個抽取法

要求：\(n\)是不固定的而是隨機的；或是非嚴格不放回的；或是\(\pi_i\approx nZ_i\)的。

步驟：以\(Z_i\)抽取第一個樣本單元，再以\(\dfrac{Z_i}{1-Z_1}\)抽取第二個樣本單元，再以\(\dfrac{Z_i}{1-Z_1-Z_2}\)抽取第三個樣本單元……以此類推，直到抽出\(n\)個樣本單元。

相關計算：Yates-Grundy逐個抽取法常常不采用HT估計量，而使用Raj估計量。設\(y_1,\cdots,y_n\)為按抽中順序排列的樣本單元指標值，\(Z_1,\cdots,Z_n\)為對應的抽中概率，令

\[\left\{\begin{array}{} t_1=\dfrac{y_1}{Z_1},\\ t_2=y_1+\dfrac{y_2}{Z_2}(1-Z_1), \\ \cdots \\ t_n=y_1+y_2+\cdots+y_{n-1}+\dfrac{y_n}{Z_n}(1-Z_1-Z_2-\cdots-Z_{n-1}). \end{array}\right. \\ \hat Y_{\text{Raj}}=\frac{1}{n}\sum_{i=1}^{n}t_i,\\ v(\hat Y_{\text{Raj}})=\frac{1}{n(n-1)}\sum_{i=1}^{n}(t_i-\hat Y_{\text{Raj}})^2. \]

兩階段不放回不等概抽樣概述

抽樣方式：在兩階段抽樣中，第一階段采用不放回不等概方法抽取初級單元\(\mathrm{PSU}\)，第\(i\)個\(\mathrm{PSU}\)的包含概率為\(\pi_i\)，第\(i\)個和第\(j\)個\(\mathrm{PSU}\)同時入樣的包含概率為\(\pi_{ij}\)；第二階段采用簡單隨機抽樣，對不同\(\mathrm{PSU}\)的抽樣相互獨立，則總體總值\(Y\)的HT估計量為

\[\hat Y_{HT}=\sum_{i=1}^{n}\frac{\hat Y_i}{\pi_i}=\sum_{i=1}^{N}\alpha_i\frac{\hat Y_i}{\pi_i}. \]

且\(\hat Y_i\)是\(Y_i\)的無偏估計，\(\hat Y_{HT}\)是\(Y\)的無偏估計。

定理：

\(\mathbb{E}(\hat Y_{HT})=Y\)。

\(\displaystyle{\mathbb{D}(\hat Y_{HT})=\sum_{i=1}^{N}\frac{1-\pi_i}{\pi_i}Y_i^2+2\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j}Y_iY_j+\sum_{i=1}^{N}\frac{\mathbb{D}(\hat Y_i)}{\pi_i}}\)。

當\(n\)固定時，\(\displaystyle{\mathbb{D}(\hat Y_{HT})=\sum_{i=1}^{N}\sum_{j>i}^{N}(\pi_i\pi_j-\pi_{ij})\left(\frac{Y_i}{\pi_i}-\frac{Y_j}{\pi_j} \right)^2+\sum_{i=1}^{N}\frac{\mathbb{D}(\hat Y_i)}{\pi_i}}\)。

\(\mathbb{D}(\hat Y_{HT})\)的無偏估計為

\[v(\hat Y_{HT})=\sum_{i=1}^{n}\frac{1-\pi_i}{\pi_i^2}\hat Y_i^2+2\sum_{i=1}^{n}\sum_{j>i}^{n}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_{ij}\pi_i\pi_j}\hat Y_i\hat Y_j+\sum_{i=1}^{n}\frac{v(\hat Y_i)}{\pi_i},\\ v_{YGS}(\hat Y_{HT})=\sum_{i=1}^{n}\sum_{j>i}^{n}\frac{\pi_i\pi_j-\pi_{ij}}{\pi_{ij}}\left(\frac{\hat Y_i}{\pi_i}-\frac{\hat Y_j}{\pi_j} \right)^2+\sum_{i=1}^{n}\frac{v(\hat Y_i)}{\pi_i}. \]

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【抽樣調查】多階段抽樣【抽樣調查】簡單隨機抽樣【抽樣調查】分層隨機抽樣抽樣調查：證明與練習【抽樣調查】三階段等規模等概抽樣抽樣調查備考綱要統計學中抽樣調查和一些常用的方法 Bootstrap抽樣（七）抽樣分布統計抽樣與非統計抽樣