【抽樣調查】:不等概抽樣


第5部分 不等概抽樣

不等概抽樣

等概率抽樣和不等概抽樣的區別:在等概抽樣中,每個總體單元都具有相同的入樣概率;不等概抽樣賦予每個單元與其規模(或輔助變量)成比例的入樣概率,使得大單元入樣概率大、小單元入樣概率小,然后在估計中采用不同的權數來進行彌補。

  • 當總體單元之間差異不大時,簡單隨機抽樣簡便、有效。
  • 如果總體單元之間差異大時,簡單隨機抽樣的效果不好。
  • 如果每個總體單元的入樣意願與其所處的層有關,則無偏估計量會有較大的方差。

不等概抽樣的適用情況:

  • 抽樣單元在總體中所占的地位不一致。
  • 調查的總體單元與抽樣總體的單元不一致(如調查職工家庭,但抽樣單元是職工,可能存在雙職工家庭)。
  • 不等概抽樣可用於改善等概抽樣的估計量。

不等概抽樣的特點與優缺點:

  • 不等概抽樣的使用前提時,每個單元必須有確定的入樣概率,在抽樣設計時就要設定好。
  • 優點是提高估計精度,減少抽樣誤差。
  • 缺點是編制抽樣框的過程有時要復雜一些。

不等概抽樣的分類:

  1. 放回不等概抽樣

    每次在總體中,對每個單元按入樣概率進行抽樣,抽取出來的樣本單元放回總體,再進行下一次抽樣。

    這使得每一次抽樣過程都是從同一個總體獨立出來的,某個單元可能在樣本中多次出現,但此時對這個單元的調查只進行一次,而計算時按抽中次數計算。

    典型方式:\(\mathrm{PPS}\)抽樣,即與規模大小成比例(probability proportional to size)的抽樣,規模的定義可以由多種方式完成。

  2. 不放回不等該抽樣

    每次在總體中對每個單元按入樣概率進行抽樣,抽取出來的樣本不放回總體,對總體中剩下的單元進行下一次抽樣。抽取出的樣本是不獨立的。

    抽取方法有:逐個抽取法,重抽法,全樣本抽取法,系統抽樣法。

    典型方式:\(\mathrm{\pi PS}\)抽樣,假設總體中第\(i\)個單元被包含到樣本的概率用\(\pi_i\)表示,若\(\pi_i\)與單元規模大小成比例,則這種抽樣方式稱為\(\mathrm{\pi PS}\)抽樣。

簡單的放回不等概抽樣

概述

符號定義:

  • 要抽取的樣本容量\(n\),總體中含有的個體數\(N\)

  • 總體中第\(i\)個單元\(Y_i\)的規模度量\(M_i\)

  • 總體的總規模\(\displaystyle{M_0=\sum_{i=1}^{N}M_i}\)

  • 每次抽樣中,\(Y_i\)被抽中的概率\(Z_i\),如果是\(\mathrm{PPS}\)抽樣,則有

    \[Z_i=\frac{M_i}{M_0}=\frac{M_i}{\sum\limits_{i=1}^{N}M_i}. \]

對總體總值的估計量:漢森-赫維茨(Hansen-Hurwitz)估計量。

\[\hat Y_{HH}=\frac{1}{n}\sum_{i=1}^{n}\frac{y_i}{Z_i}. \]

如果是\(\mathrm{PPS}\)抽樣,則

\[\hat Y_{HH}=\frac{1}{n}\sum_{i=1}^{n}\frac{y_i}{Z_i}=\frac{M_0}{n}\sum_{i=1}^{n}\frac{y_i}{M_i}. \]

HH統計量的期望、方差

定理:\(\hat Y_{HH}\)是總體總值\(Y\)的無偏估計量,即

\[\mathbb{E}(\hat {Y}_{HH})=Y. \]

可先計算只抽取一個樣本時,\(y_i/Z_i\)的期望,為

\[\mathbb{E}\left(\frac{y_i}{Z_i}\right)=\sum_{i=1}^{N}Z_i\frac{Y_i}{Z_i}=Y, \]

再由不放回抽樣時每個樣本的獨立性,有

\[\mathbb{E}(\hat{Y}_{HH})=\frac{1}{n}\sum_{i=1}^{n}\mathbb{E}\left(\frac{y_i}{Z_i}\right)=\frac{1}{n}\sum_{i=1}^{n}Y=Y. \]

要注意到每一個\(Z_i\)是與\(Y_i\)相聯系的量,因此當實際抽中\(Y_i\)時,可以將其觀測值視為\(Y_i/Z_i\),再按照離散分布列,加權計算期望即可。

定理:\(\hat Y_{HH}\)的方差為

\[\mathbb{D}(\hat Y_{HH})=\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2. \]

類似地,可以先計算每一個\(y_i/Z_i\)的方差,再由樣本間的同分布獨立性計算整體方差,為

\[\mathbb{D}\left(\frac{y_i}{Z_i} \right)=\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2,\\ \mathbb{D}(\hat Y_{HH})=\mathbb{D}\left(\frac{1}{n}\sum_{i=1}^{n}\frac{y_i}{Z_i} \right)=\frac{1}{n}\mathbb{D}\left(\frac{y_i}{Z_i} \right)=\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2. \]

HH統計量方差的無偏估計

定理:當\(n>1\)時,\(\mathbb{D}(\hat Y_{HH})\)的無偏估計為

\[v(\hat Y_{HH})=\frac{1}{n}\frac{1}{n-1}\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-\hat Y_{HH} \right)^2,\\ \mathbb{E}(v(\hat Y_{HH}))=\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2. \]

不妨記\(t_i\)\(Y_i\)的入樣次數,則\(\displaystyle{\sum_{i=1}^{N}t_i=n}\)\(t_i\sim B(n, Z_i)\)\((t_i,t_j)\)服從多項分布,且

\[\mathbb{E}(t_i)=nZ_i,\quad \mathbb{D}(t_i)=nZ_i(1-Z_i),\\ \mathbb{E}(t_it_j)=n(n-1)Z_iZ_j,\\ \mathrm{cov}(t_i,t_j)=-nZ_iZ_j. \]

要證明定理,即證明

\[\mathbb{E}\left[\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-\hat Y_{HH} \right)^2 \right]=(n-1)\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2=n(n-1)\mathbb{D}(\hat{Y}_{HH}). \]

注意到

\[\hat Y_{HH}=\frac{1}{n}\sum_{i=1}^{n}\frac{y_i}{Z_i}, \]

所以

\[\begin{aligned} \sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-\hat Y_{HH} \right)^2=\sum_{i=1}^{n}\left(\frac{y_i}{Z_i} \right)^2-n\hat Y_{HH}^2=\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-Y \right)^2-n(\hat Y_{HH}-Y)^2 \end{aligned}, \]

這里\(\displaystyle{\mathbb{E}\left(\frac{y_i}{Z_i} \right)=\mathbb{E}(\hat Y_{HH})=Y}\),於是

\[\begin{aligned} \mathbb{E}\left[\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-\hat Y_{HH} \right)^2 \right]&=\mathbb{E}\left[\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-Y \right)^2-n(\hat Y_{HH}-Y)^2 \right]\\ &=\mathbb{E}\left[\sum_{i=1}^{N}t_i\left(\frac{y_i}{Z_i}-Y \right)^2 \right]-n\mathbb{D}(\hat Y_{HH})\\ &=\sum_{i=1}^{N}\mathbb{E}(t_i)\left(\frac{y_i}{Z_i}-Y \right)^2-n\mathbb{D}(\hat Y_{HH})\\ &=n\sum_{i=1}^{N}Z_i\left(\frac{y_i}{Z_i}-Y \right)^2-n\mathbb{D}(\hat{Y}_{HH})\\ &=n^2\mathbb{D}(\hat{Y}_{HH})-n\mathbb{D}(\hat{Y}_{HH})\\ &=n(n-1)\mathbb{D}(\hat{Y}_{HH}), \end{aligned} \]

原式得證。

推論:如果是\(\mathrm{PPS}\)抽樣,則由\(Z_i=\dfrac{M_i}{M_0}\),有

\[v(\hat{Y}_{HH})=\frac{1}{n(n-1)}\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-\hat Y_{HH} \right)^2=\frac{M_0^2}{n(n-1)}\sum_{i=1}^{n}\left(\frac{y_i}{M_i}-\frac{\hat Y_{HH}}{M_0} \right)^2. \]

放回不等概多階段抽樣

放回不等概整群抽樣

在等概率整群抽樣中,每一個群被抽中的概率相等,如果每個群規模相等則等概整群抽樣的效果較好;如果群的規模不等,則一般使用不等概整群抽樣抽取群,按與群規模\(M_i\)成比例的\(\mathrm{PPS}\)抽樣,第\(i\)個群的總值為\(\displaystyle{y_i=\sum_{j=1}^{M_i}y_{ij}}\)

\(\mathrm{PPS}\)總體總值的估計量為

\[\hat Y=\frac{1}{n}\sum_{i=1}^{n}\frac{y_i}{Z_i}=\frac{M_0}{n}\sum_{i=1}^{n}\frac{y_i}{M_i}=M_0\bar{\bar y}. \]

推論:由漢森-赫維茨估計量的性質,有

  1. \(\hat Y\)\(Y\)的無偏估計。

  2. \(\hat Y\)的方差為

    \[\mathbb{D}(\hat Y)=\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2=\frac{M_0}{n}\sum_{i=1}^{N}M_i(\bar Y_i-\bar{\bar Y})^2. \]

  3. \(\mathbb{D}(\hat Y)\)的無偏估計為

    \[v(\hat Y)=\frac{1}{n(n-1)}\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-Y \right)^2=\frac{M_0^2}{n(n-1)}\sum_{i=1}^{n}(\bar{y}_i-\bar{\bar y})^2. \]

只需注意到\(\displaystyle{Y=\sum_{i=1}^{N}Y_i}\),再將每一個群視為一個個體,最后取\(\displaystyle{Z_i=\frac{M_i}{M_0}}\)即可。

由上述過程可知,在抽取樣本之前,必須獲得各群規模\(M_i\)的信息。

放回不等概兩階段抽樣

兩階段放回不等概抽樣是兩階段整群抽樣的推廣,先按照放回不等概整群抽樣的方式抽中\(n\)個一級單元,對抽中的第\(i\)個單元,再抽取\(m_i\)個二級單元(如果某個初級單元被重復抽中多次,則對其二級單元抽取多個獨立樣本)。

此時,由於沒有對抽中的初級單元作普查,所以先構造初級單元總值\(Y_i\)的無偏估計\(\hat Y_i\)(構造方式不限,故抽樣方式也不限),再構造漢森-赫維茨估計量為

\[\hat Y_{HH}=\frac{1}{n}\sum_{i=1}^{n}\frac{\hat Y_i}{Z_i}. \]

推論:由漢森赫維茨估計量的性質以及兩階段抽樣的特點,有

  1. \(\hat Y_{HH}\)\(Y\)的無偏估計。

  2. \(\hat Y_{HH}\)的方差為

    \[\mathbb{D}(\hat Y_{HH})=\frac{1}{n}\left[\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2+\sum_{i=1}^{N}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i} \right]. \]

  3. \(\mathbb{D}(\hat Y_{HH})\)的無偏估計為

    \[v(\hat Y_{HH})=\frac{1}{n(n-1)}\sum_{i=1}^{n}\left(\frac{\hat Y_i}{Z_i}-\hat Y_{HH} \right)^2. \]

由於\(\hat {Y}_i\)\(Y_i\)的無偏估計,所以\(\displaystyle{\mathbb{E}_2\left(\frac{\hat Y_i}{Z_i} \right)=\frac{Y_i}{Z_i}}\),即

\[\mathbb{E}(\hat Y_{HH})=\mathbb{E}_1\left[\frac{1}{n}\sum_{i=1}^{n}\mathbb{E}_2\left(\frac{\hat Y_i}{Z_i}\right)\right]=\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i}{Z_i} \right)=Y. \]

並且可得兩個關鍵等式:

\[\mathbb{E}_2(\hat Y_{HH})=\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i}{Z_i},\quad \mathbb{D}_2(\hat Y_{HH})=\frac{1}{n^2}\sum_{i=1}^{n}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i^2}, \]

由兩階段抽樣定理,與第一階段簡單不等概抽樣的性質,有

\[\begin{aligned} \mathbb{D}(\hat Y_{HH})&=\mathbb{D}_1\mathbb{E}_2(\hat Y_{HH})+\mathbb{E}_1\mathbb{D}_2(\hat Y_{HH})\\ &=\mathbb{D}_1\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i}{Z_i} \right)+\mathbb{E}_1\left(\frac{1}{n^2}\sum_{i=1}^{n}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i^2} \right)\\ &=\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2+\frac{1}{n}\sum_{i=1}^{N}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i^2}. \end{aligned} \]

這里,前一部分是漢森-赫維茨估計量的方差,后一部分是漢森-赫維茨估計量的均值。

對於\(v(\hat Y_{HH})\),在下面的\((*)\)式中將兩個關鍵等式代入,可得

\[\begin{aligned} \mathbb{E}(v(\hat Y_{HH}))&=\frac{1}{n(n-1)}\mathbb{E}_1\mathbb{E}_2\left[\sum_{i=1}^{n}\left(\frac{\hat Y_i}{Z_i}-\hat Y_{HH} \right)^2 \right]\\ &=\frac{1}{n(n-1)}\mathbb{E}_1\mathbb{E}_2\left[\sum_{i=1}^{n}\left(\frac{\hat Y_i}{Z_i} \right)^2-n(\hat Y_{HH}^2) \right]\\ &=\frac{1}{n(n-1)}\mathbb{E}_1\left[\sum_{i=1}^{n}\frac{\mathbb{D}_2(\hat Y_i)+[\mathbb{E}_2(\hat Y_i)]^2}{Z_i^2}-n\{\mathbb{D}_2(\hat Y_{HH})+[\mathbb{E}_2(\hat Y_{HH}) ]^2 \} \right]\\ &\stackrel{*}{=}\frac{1}{n(n-1)}\mathbb{E}_1\left[\sum_{i=1}^{n}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i^2}+\sum_{i=1}^{n}\frac{Y_i^2}{Z_i^2}-\frac{1}{n}\sum_{i=1}^{n}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i^2}-\frac{1}{n}\left(\sum_{i=1}^{n}\frac{Y_i}{Z_i} \right)^2 \right]\\ &=\frac{1}{n^2}\mathbb{E}_1\left[\sum_{i=1}^{n}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i^2} \right]+ \frac{1}{n-1}\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i^2}{Z_i^2} \right)-\frac{1}{n-1}\mathbb{E}_1\left[\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i}{Z_i} \right)^2 \right] \end{aligned} \]

對第一項,有

\[\frac{1}{n^2}\mathbb{E}_1\left[\sum_{i=1}^{n}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i^2} \right]=\frac{1}{n}\mathbb{E}_1\left[\frac{1}{n}\sum_{i=1}^{n}\frac{\frac{\mathbb{D}_2(\hat Y_i)}{Z_i}}{Z_i} \right]=\frac{1}{n}\sum_{i=1}^{N}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i}, \]

后一個等號實際上是從\(\displaystyle{\frac{\mathbb{D}_2(\hat Y_i)}{Z_i^2}}\)中分離出入樣概率\(Z_i\)后,剩下的部分視為樣本觀測值,從而\(\displaystyle{\sum_{i=1}^{N}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i}}\)成為此式中漢森-赫維茨統計量所估計的“總體總值”。同時,可以注意到此部分是\(\mathbb{D}(\hat Y_{HH})\)的后一部分。

對第二項,用同樣的分離方式,可得到

\[\frac{1}{n-1}\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i^2}{Z_i^2}\right)=\frac{1}{n-1}\sum_{i=1}^{N}\frac{Y_i^2}{Z_i}, \]

而從第三項,因\(\displaystyle{\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i}{Z_i} \right)=Y}\),結合\(\displaystyle{\sum_{i=1}^{N}Y_i=Y}\)\(\displaystyle{\sum_{i=1}^{N}Z_i=1}\),有

\[\begin{aligned} \frac{1}{n-1}\mathbb{E}_1\left[\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i}{Z_i} \right)^2 \right]&=\frac{1}{n-1}\left[\mathbb{D}_1\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i}{Z_i} \right)+Y^2 \right]\\ &=\frac{1}{n-1}\left[\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2+Y^2 \right]\\ &=\frac{1}{n(n-1)}\sum_{i=1}^{N}\left(\frac{Y_i^2}{Z_i}-2YY_i+Z_iY^2 +nY^2\right)\\ &=\frac{1}{n(n-1)}\sum_{i=1}^{N}\frac{Y_i^2}{Z_i^2}+\frac{1}{n}Y^2 \end{aligned} \]

於是第二項與第三項相減,恰好得到

\[\begin{aligned} &\quad \frac{1}{n-1}\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i^2}{Z_i^2}\right)-\frac{1}{n-1}\mathbb{E}_1\left[\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i}{Z_i} \right)^2 \right]\\ &=\frac{1}{n-1}\sum_{i=1}^{N}\frac{Y_i^2}{Z_i}-\frac{1}{n(n-1)}\sum_{i=1}^{N}\frac{Y_i^2}{Z_i}-\frac{1}{n}Y^2\\ &=\frac{1}{n}\left(\sum_{i=1}^{N}\frac{Y_i^2}{Z_i}-Y^2 \right)\\ &=\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2. \end{aligned} \]

這恰好是\(\mathbb{D}(\hat Y_{HH})\)的前一部分。綜上,就得到

\[\mathbb{E}(v(\hat Y_{HH}))=\mathbb{D}(\hat Y_{HH}). \]

兩階段放回不等概抽樣中自加權統計量的設計

依前述,在兩階段放回不等概抽樣中,有

\[\hat Y_{HH}=\frac{1}{n}\sum_{i=1}^{n}\frac{\hat Y_{i}}{Z_i}, \]

如果第二階段采用簡單隨機抽樣,則

\[\hat Y_{HH}=\frac{1}{n}\sum_{i=1}^{n}\frac{1}{Z_i}\frac{M_i}{m_i}\sum_{j=1}^{m_i}y_{ij}, \]

如果希望\(\hat Y_{HH}\)是自加權的(即統計量是樣本總值或樣本均值的一個常數倍),則需要\(\displaystyle{\frac{M_i}{nm_iZ_i}=K}\),這里\(K\)是常數,更具體地有\(K\equiv\dfrac{1}{f_0}\)\(f_0\)為總體中任意一個二級單元被抽中的概率,即

\[f_0=nZ_i\frac{m_i}{M_i}:=nZ_if_{2i}. \]

\(\mathrm{PPS}\)抽樣,有\(Z_i=M_i/M_0\),所以只要\(m_i=m\)為常數,\(\dfrac{M_i}{nm_iZ_i}=\dfrac{M_0}{nm}\)就是常數,此時

\[\hat Y_{\mathrm{PPS}}=\frac{M_0}{nm}\sum_{i=1}^{n}\sum_{j=1}^{m}y_{ij},\\ v(\hat Y_{\mathrm{PPS}})=\frac{M_0^2}{n(n-1)}\sum_{i=1}^{n}(\bar y_i-\bar{\bar y})^2. \]

多階段放回不等概抽樣概述

多階段放回不等概抽樣的方式一般是:對除最后一階段的每一階段,采用與單元大小成比例的不等概抽樣(\(\mathrm{PPS}\)抽樣),對最后一階段的抽樣采用等概抽樣。

以三階段抽樣為例:

  • 總體有\(N\)個初級單元,第\(i\)個初級單元被抽中的概率為\(Z_i\)\(\displaystyle{\sum_{i=1}^{N}Z_i=1}\)
  • \(i\)個初級單元有\(M_i\)個二級單元,第\(i,j\)個二級單元被抽中的概率為\(Z_{ij}\)\(\displaystyle{\sum_{j=1}^{M_i}Z_{ji}}=1\)
  • \(i,j\)個二級單元有\(K_{ij}\)個三級單元,第\(i,j,u\)個三級單元被抽中的概率為\(Z_{iju}\)\(\displaystyle{\sum_{u=1}^{K_{ij}}}Z_{iju}=1\)
  • 各階樣本量分別為\(n,m,k\)(定值,與單元無關)

此時,對總體總值\(Y\)的無偏估計為

\[\hat Y=\frac{1}{nmk}\sum_{i=1}^{n}\frac{1}{Z_i}\sum_{j=1}^{M_i}\frac{1}{Z_{ij}}\sum_{u=1}^{K_{ij}}\frac{1}{Z_{iju}}\cdot y_{iju}. \]

定義\(\displaystyle{Y_{ij}=\sum_{u=1}^{K_{ij}}Y_{iju}}\)\(\displaystyle{Y_{i}=\sum_{j=1}^{M_i}Y_{ij}=\sum_{j=1}^{M_i}\sum_{u=1}^{K_{ij}}Y_{iju}}\),則\(\hat Y\)的方差為

\[\begin{aligned} \mathbb{D}(\hat Y)&=\frac{1}{n}\left(\sum_{i=1}^{N}\frac{Y_i^2}{Z_i}-Y^2 \right)\\ &\quad+\frac{1}{nm}\sum_{i=1}^{N}\frac{1}{Z_i}\left(\sum_{j=1}^{M_i}\frac{Y_{ij}^2}{Z_{ij}}-Y_{i}^2 \right)\\ &\qquad+\frac{1}{nmk}\sum_{i=1}^{N}\frac{1}{Z_i}\sum_{j=1}^{M_i}\frac{1}{Z_{ij}}\left(\sum_{u=1}^{K_{ij}}\frac{Y_{iju}^2}{Z_{iju}}-Y_{ij}^2 \right). \end{aligned} \]

定義\(\displaystyle{\hat Y_i=\frac{1}{Z_i}\left[\frac{1}{m}\sum_{j=1}^{m}\frac{1}{Z_{ij}}\left(\frac{1}{k}\sum_{u=1}^{k}\frac{y_{iju}}{Z_{iju}} \right) \right]}\)\(\mathbb{D}(\hat Y)\)的無偏估計為

\[v(\hat Y)=\frac{1}{n(n-1)}\sum_{i=1}^{n}(\hat Y_{i}-\hat Y)^2, \]

為使\(\hat Y\)是自加權的,使前兩階段抽樣采用\(\mathrm{PPS}\)抽樣,最后一階段按放回的等概率抽樣進行,則此時

\[Z_i=\frac{\sum\limits_{j=1}^{M_i}K_{ij}}{\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{M_i}K_{ij}}=\frac{\sum\limits_{j=1}^{M_i}K_{ij}}{M_0},\quad Z_{ij}=\frac{K_{ij}}{\sum\limits_{j=1}^{M_i}K_{ij}},\quad Z_{iju}=\frac{1}{K_{ij}},\\ \hat Y=\frac{M_0}{nmk}\sum_{i=1}^{n}\sum_{j=1}^{m}\sum_{u=1}^{k}y_{iju}=M_0\bar{\bar{\bar y}},\\ v(\hat Y)=\frac{M_0^2}{n(n-1)}\sum_{i=1}^{n}(\bar{\bar y}_i-\bar{\bar{\bar y}})^2. \]

不放回不等概抽樣

概述

在不放回不等概抽樣中,每個單元\(Y_i\)的入樣概率為\(\pi_i\),任意兩個單元\(Y_i,Y_j\)同時入樣的概率為\(\pi_{ij}\),統稱為包含概率。應注意\(\pi_i\ne Z_i\),僅當\(n=1\)\(\pi_i=Z_i\)

\[\sum_{i=1}^{N}\pi_i=n,\\ \sum_{j=1,j\ne i}^{N}\pi_{ij}=(n-1)\pi_i,\\ \sum_{i=1}^{N}\sum_{j>i}^{N}\pi_{ij}=\frac{1}{2}n(n-1). \]

第一個式子代表所有單元的入樣概率之和為\(n\),這是因為一共需要抽取\(n\)個樣本。

第二個式子代表,\(Y_i\)和其他所有單元一起入樣的概率之和為\((n-1)\pi_i\),可以將其看作兩個獨立事件,其一是\(Y_i\)入樣,概率為\(\pi_i\);其二是在剩余的單元中抽取\(n-1\)個樣本,故入樣概率之和是\(n-1\)

第三個式子代表,所有兩個單元一起入樣的概率之和為\(\displaystyle{\frac{1}{2}n(n-1)}\),只需對第二個式子關於\(i\)求和再除以\(2\)去重。

嚴格的\(\mathrm{\pi PS}\)抽樣:如果每個單元的入樣概率與其大小或規模\(M_i\)嚴格成正比,即\(\displaystyle{Z_i=\frac{M_i}{M_0}}\)\(\pi_i=nZ_i\),則這種抽樣稱為嚴格的\(\mathrm{\pi PS}\)抽樣。

  • 只有在\(n=2\)時,嚴格的\(\mathrm{\pi PS}\)抽樣才有一些簡單實用的方法。
  • 對於\(n>2\)時,可以通過分層,在每層中進行嚴格的\(n=2\)\(\mathrm{\pi PS}\)抽樣。

HT估計量的期望、方差

對於不放回不等概抽樣,對總體總值\(Y\)的估計采用霍維茨-湯普森(Horvitz-Thompson)估計量:

\[\hat Y_{HT}=\sum_{i=1}^{n}\frac{y_i}{\pi_i}=\sum_{i=1}^{N}\alpha_i\frac{Y_i}{\pi_i}. \]

這里\(\alpha_i\)是代表\(Y_i\)入樣的示性變量,類似第一部分中對簡單隨機抽樣的討論,有

\[\mathbb{E}(\alpha_i)=\pi_i,\quad \mathbb{D}(\alpha_i)=\pi_i(1-\pi_i),\\ \mathbb{E}(\alpha_i\alpha_j)=\pi_{ij},\\ \mathrm{cov}(\alpha_i,\alpha_j)=\mathbb{E}(\alpha_i\alpha_j)-\mathbb{E}(\alpha_i)\mathbb{E}(\alpha_j)=\pi_{ij}-\pi_i\pi_j. \]

定理:如果\(\pi_i>0,i=1,2,\cdots ,N\),則

  1. \(\hat Y_{HT}\)\(Y\)的無偏估計,\(\mathbb{E}(\hat Y_{HT})=Y\)

  2. \(\hat Y_{HT}\)的方差為

    \[\mathbb{D}(\hat Y_{HT})=\sum_{i=1}^{N}\frac{1-\pi_i}{\pi_i}Y_i^2+2\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j}Y_{i}Y_j. \]

    \(n\)固定時,有

    \[\mathbb{D}(\hat Y_{HT})=\sum_{i=1}^{N}\sum_{j>i}^{N}(\pi_i\pi_j-\pi_{ij})\left(\frac{Y_i}{\pi_i}-\frac{Y_j}{\pi_j} \right)^2. \]

注意到這里只有\(\alpha_i\)是隨機變量,且\(\mathbb{E}(\alpha_i)=\pi_i\),所以

\[\mathbb{E}(\hat Y_{HT})=\sum_{i=1}^{N}\mathbb{E}(\alpha_i)\frac{Y_i}{\pi_i}=\sum_{i=1}^{N}Y_i=Y. \]

對於方差,有

\[\begin{aligned} \mathbb{D}(\hat Y_{HT})&=\mathbb{D}\left(\sum_{i=1}^{N}\alpha_i\frac{Y_i}{\pi_i} \right)\\ &=\sum_{i=1}^{N}\frac{Y_i^2\mathbb{D}(\alpha_i)}{\pi_i^2}+2\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{Y_iY_j}{\pi_i\pi_j}\mathrm{cov}(\alpha_i,\alpha_j)\\ &=\sum_{i=1}^{N}\frac{(1-\pi_i)}{\pi_i}Y_i^2+2\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j}Y_{i}Y_j. \end{aligned} \]

特別當\(n\)固定時,對給定的\(i\)

\[\sum_{j\ne i}^{N}(\pi_{ij}-\pi_i\pi_j)=\sum_{j\ne i}^{N}\pi_{ij}-\pi_i\sum_{j\ne i}^{N}\pi_j=(n-1)\pi_i-\pi_i(n-\pi_i)=-\pi_i(1-\pi_i), \]

於是

\[\begin{aligned} \sum_{i=1}^{N}\frac{1-\pi_i}{\pi_i}Y_i^2&=\sum_{i=1}^{N}\frac{\pi_i(1-\pi_i)Y_i^2}{\pi_i^2}\\ &=\sum_{i=1}^{N}\sum_{j\ne i}^{N}(\pi_i\pi_j-\pi_{ij})\left(\frac{Y_i^2}{\pi_i^2} \right)\\ &=\sum_{i=1}^{N}\sum_{j>i}^{N}\left(\pi_i\pi_j-\pi_{ij} \right)\left(\frac{Y_i^2}{\pi_i^2}+\frac{Y_j^2}{\pi_j^2} \right),\\ \mathbb{D}(\hat Y_{HT})&=\sum_{i=1}^{N}\frac{1-\pi_i}{\pi_i}Y_i^2+2\sum_{i=1}^{N}\sum_{j>i}^{N}(\pi_{ij}-\pi_i\pi_j)\frac{Y_i}{\pi_i}\frac{Y_j}{\pi_j}\\ &=\sum_{i=1}^{N}\sum_{j>i}^{N}(\pi_i\pi_j-\pi_{ij})\left(\frac{Y_i^2}{\pi_i^2}+\frac{Y_j^2}{\pi_j^2}-2\frac{Y_{i}Y_j}{\pi_i\pi_j} \right)\\ &=\sum_{i=1}^{N}\sum_{j>i}^{N}(\pi_i\pi_j-\pi_{ij})\left(\frac{Y_i}{\pi_i}-\frac{Y_j}{\pi_j} \right)^2. \end{aligned} \]

這說明,要使估計量的方差\(\mathbb{D}(\hat Y_{HT})\)小,應使\(\displaystyle{\frac{Y_i}{\pi_i}}\)之間的差異盡可能小。

HT統計量方差的無偏估計

定理:如果\(\pi_i>0\)\(\pi_{ij}>0\),則\(\mathbb{D}(\hat Y_{HT})\)的無偏估計為

\[v(\hat Y_{HT})=\sum_{i=1}^{n}\frac{1-\pi_i}{\pi_i^2}y_i^2+2\sum_{i=1}^{n}\sum_{j>i}^{n}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j\pi_{ij}}y_iy_j. \]

如果\(n\)固定,則\(v(\hat Y_{HT})\)也可以用

\[v_{YGS}(\hat Y_{HT})=\sum_{i=1}^{n}\sum_{j>i}^{n}\frac{\pi_i\pi_j-\pi_{ij}}{\pi_{ij}}\left(\frac{y_i}{\pi_i}-\frac{y_j}{\pi_j} \right)^2. \]

\(n=2\)時,\(v_{YHS}(\hat Y_{HT})>0\),否則無論是哪一種無偏估計,都有可能出現負值。

類似科恩菲爾德法,只需將\(y_i\)改成\(\alpha_iY_i\),並利用\(\alpha_i\)的相關性質:\(\displaystyle{\mathbb{E}(\alpha_i)=\pi_i,\mathbb{E}(\alpha_i\alpha_j)=\pi_{ij}}\)即可。

\[\begin{aligned} v(\hat Y_{HT})&=\sum_{i=1}^{n}\frac{1-\pi_i}{\pi_i^2}y_i^2+2\sum_{i=1}^{n}\sum_{j>i}^{n}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j\pi_{ij}}y_iy_j \\ &=\sum_{i=1}^{N}\alpha_i\frac{1-\pi_i}{\pi_i^2}Y_i^2+2\sum_{i=1}^{N}\sum_{j>i}^{N}\alpha_{i}\alpha_j\frac{\pi_{ij}-\pi_{i}\pi_j}{\pi_i\pi_j\pi_{ij}}Y_iY_j\\ \mathbb{E}(v(\hat Y_{HT}))&=\sum_{i=1}^{N}\frac{1-\pi_i}{\pi_i^2}Y_i^2\mathbb{E}(\alpha_i)+2\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j\pi_{ij}}Y_iY_j\mathbb{E}(\alpha_i\alpha_j)\\ &=\sum_{i=1}^{N}\frac{1-\pi_i}{\pi_i}Y_i^2+2\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j}Y_iY_j\\ &=\mathbb{E}(\hat Y_{HT}). \end{aligned} \]

\(n\)固定時,類似有

\[\begin{aligned} \mathbb{E}(v_{YGS}(\hat Y_{HT}))&=\mathbb{E}\left[\sum_{i=1}^{n}\sum_{j>i}^{n}\frac{\pi_i\pi_j-\pi_{ij}}{\pi_{ij}}\left(\frac{y_i}{\pi_i}-\frac{y_j}{\pi_j} \right)^2 \right]\\ &=\mathbb{E}\left[\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{\pi_i\pi_j-\pi_{ij}}{\pi_{ij}}\left(\frac{y_i}{\pi_i}-\frac{y_j}{\pi_j} \right)^2\alpha_i\alpha_j \right]\\ &=\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{\pi_i\pi_j-\pi_{ij}}{\pi_{ij}}\left(\frac{y_i}{\pi_i}-\frac{y_j}{\pi_j} \right)^2\mathbb{E}(\alpha_i\alpha_j)\\ &=\sum_{i=1}^{N}\sum_{j>i}^{N}(\pi_i\pi_j-\pi_{ij})\left(\frac{y_i}{\pi_i}-\frac{y_j}{\pi_j} \right)^2\\ &=\mathbb{D}(\hat Y_{HT}). \end{aligned} \]

\(\mathrm{\pi PS}\)抽樣方法

常用的\(\mathrm{\pi PS}\)方法有:布魯爾方法,水野法,不嚴格\(\mathrm{\pi PS}\)抽樣法。

  1. 布魯爾(Brewer)方法

    要求:對總體所有的單元,都有\(Z_i\le \dfrac{1}{2}\),只抽取\(n=2\)個單元。

    步驟:按與\(\displaystyle{\frac{Z_i(1-Z_i)}{1-2Z_i}}\)成比例的概率抽取第一個單元\(j\),再按與\(\dfrac{Z_i}{1-Z_j}\)成比例的概率抽取第二個單元。

    相關計算:

    \[\pi_i=2Z_i,\quad \pi_{ij}=\frac{4Z_iZ_j(1-Z_i-Z_j)}{(1-2Z_i)(1-2Z_j)\left(1+\sum\limits_{i=1}^{N}\dfrac{Z_i}{1-2Z_i} \right)}.\\ \hat Y_{B}=\frac{y_i}{\pi_i}+\frac{y_j}{\pi_j}=\frac{1}{2}\left(\frac{y_i}{Z_i}+\frac{y_j}{Z_j} \right),\\ v_{YGS}(\hat Y_{B})=\frac{\pi_i\pi_j-\pi_{ij}}{\pi_{ij}}\left(\frac{y_i}{\pi_i}-\frac{y_j}{\pi_j} \right)^2. \]

  2. 水野(Midzunol)法

    要求:每個單元的大小滿足\(M_i\ge\dfrac{(n-1)M_0}{n(N-1)}\),抽取\(n>2\)個單元。

    步驟:以概率\(Z_i^*=\dfrac{n(N-1)Z_i}{N-n}-\dfrac{n-1}{N-n}\)抽取第一個樣本單元,在剩下的\(N-1\)個單元中不放回等概率抽取\(n-1\)個樣本單元。

    相關計算:

    \[\pi_i=nZ_i,\\ \pi_{ij}=\frac{n-1}{N-1}\left[\frac{N-n}{N-2}(Z_i^*+Z_j^*)+\frac{n-2}{N-n} \right]. \]

  3. 非嚴格\(\mathrm{\pi PS}\)抽樣——耶茨-格倫迪(Yates-Grundy)逐個抽取法

    要求:\(n\)是不固定的而是隨機的;或是非嚴格不放回的;或是\(\pi_i\approx nZ_i\)的。

    步驟:以\(Z_i\)抽取第一個樣本單元,再以\(\dfrac{Z_i}{1-Z_1}\)抽取第二個樣本單元,再以\(\dfrac{Z_i}{1-Z_1-Z_2}\)抽取第三個樣本單元……以此類推,直到抽出\(n\)個樣本單元。

    相關計算:Yates-Grundy逐個抽取法常常不采用HT估計量,而使用Raj估計量。設\(y_1,\cdots,y_n\)為按抽中順序排列的樣本單元指標值,\(Z_1,\cdots,Z_n\)為對應的抽中概率,令

    \[\left\{\begin{array}{} t_1=\dfrac{y_1}{Z_1},\\ t_2=y_1+\dfrac{y_2}{Z_2}(1-Z_1), \\ \cdots \\ t_n=y_1+y_2+\cdots+y_{n-1}+\dfrac{y_n}{Z_n}(1-Z_1-Z_2-\cdots-Z_{n-1}). \end{array}\right. \\ \hat Y_{\text{Raj}}=\frac{1}{n}\sum_{i=1}^{n}t_i,\\ v(\hat Y_{\text{Raj}})=\frac{1}{n(n-1)}\sum_{i=1}^{n}(t_i-\hat Y_{\text{Raj}})^2. \]

兩階段不放回不等概抽樣概述

抽樣方式:在兩階段抽樣中,第一階段采用不放回不等概方法抽取初級單元\(\mathrm{PSU}\),第\(i\)\(\mathrm{PSU}\)的包含概率為\(\pi_i\),第\(i\)個和第\(j\)\(\mathrm{PSU}\)同時入樣的包含概率為\(\pi_{ij}\);第二階段采用簡單隨機抽樣,對不同\(\mathrm{PSU}\)的抽樣相互獨立,則總體總值\(Y\)的HT估計量為

\[\hat Y_{HT}=\sum_{i=1}^{n}\frac{\hat Y_i}{\pi_i}=\sum_{i=1}^{N}\alpha_i\frac{\hat Y_i}{\pi_i}. \]

\(\hat Y_i\)\(Y_i\)的無偏估計,\(\hat Y_{HT}\)\(Y\)的無偏估計。

定理:

  1. \(\mathbb{E}(\hat Y_{HT})=Y\)

  2. \(\displaystyle{\mathbb{D}(\hat Y_{HT})=\sum_{i=1}^{N}\frac{1-\pi_i}{\pi_i}Y_i^2+2\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j}Y_iY_j+\sum_{i=1}^{N}\frac{\mathbb{D}(\hat Y_i)}{\pi_i}}\)

  3. \(n\)固定時,\(\displaystyle{\mathbb{D}(\hat Y_{HT})=\sum_{i=1}^{N}\sum_{j>i}^{N}(\pi_i\pi_j-\pi_{ij})\left(\frac{Y_i}{\pi_i}-\frac{Y_j}{\pi_j} \right)^2+\sum_{i=1}^{N}\frac{\mathbb{D}(\hat Y_i)}{\pi_i}}\)

  4. \(\mathbb{D}(\hat Y_{HT})\)的無偏估計為

    \[v(\hat Y_{HT})=\sum_{i=1}^{n}\frac{1-\pi_i}{\pi_i^2}\hat Y_i^2+2\sum_{i=1}^{n}\sum_{j>i}^{n}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_{ij}\pi_i\pi_j}\hat Y_i\hat Y_j+\sum_{i=1}^{n}\frac{v(\hat Y_i)}{\pi_i},\\ v_{YGS}(\hat Y_{HT})=\sum_{i=1}^{n}\sum_{j>i}^{n}\frac{\pi_i\pi_j-\pi_{ij}}{\pi_{ij}}\left(\frac{\hat Y_i}{\pi_i}-\frac{\hat Y_j}{\pi_j} \right)^2+\sum_{i=1}^{n}\frac{v(\hat Y_i)}{\pi_i}. \]


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM