第5部分 不等概抽樣
不等概抽樣
等概率抽樣和不等概抽樣的區別:在等概抽樣中,每個總體單元都具有相同的入樣概率;不等概抽樣賦予每個單元與其規模(或輔助變量)成比例的入樣概率,使得大單元入樣概率大、小單元入樣概率小,然后在估計中采用不同的權數來進行彌補。
- 當總體單元之間差異不大時,簡單隨機抽樣簡便、有效。
- 如果總體單元之間差異大時,簡單隨機抽樣的效果不好。
- 如果每個總體單元的入樣意願與其所處的層有關,則無偏估計量會有較大的方差。
不等概抽樣的適用情況:
- 抽樣單元在總體中所占的地位不一致。
- 調查的總體單元與抽樣總體的單元不一致(如調查職工家庭,但抽樣單元是職工,可能存在雙職工家庭)。
- 不等概抽樣可用於改善等概抽樣的估計量。
不等概抽樣的特點與優缺點:
- 不等概抽樣的使用前提時,每個單元必須有確定的入樣概率,在抽樣設計時就要設定好。
- 優點是提高估計精度,減少抽樣誤差。
- 缺點是編制抽樣框的過程有時要復雜一些。
不等概抽樣的分類:
-
放回不等概抽樣
每次在總體中,對每個單元按入樣概率進行抽樣,抽取出來的樣本單元放回總體,再進行下一次抽樣。
這使得每一次抽樣過程都是從同一個總體獨立出來的,某個單元可能在樣本中多次出現,但此時對這個單元的調查只進行一次,而計算時按抽中次數計算。
典型方式:\(\mathrm{PPS}\)抽樣,即與規模大小成比例(probability proportional to size)的抽樣,規模的定義可以由多種方式完成。
-
不放回不等該抽樣
每次在總體中對每個單元按入樣概率進行抽樣,抽取出來的樣本不放回總體,對總體中剩下的單元進行下一次抽樣。抽取出的樣本是不獨立的。
抽取方法有:逐個抽取法,重抽法,全樣本抽取法,系統抽樣法。
典型方式:\(\mathrm{\pi PS}\)抽樣,假設總體中第\(i\)個單元被包含到樣本的概率用\(\pi_i\)表示,若\(\pi_i\)與單元規模大小成比例,則這種抽樣方式稱為\(\mathrm{\pi PS}\)抽樣。
簡單的放回不等概抽樣
概述
符號定義:
-
要抽取的樣本容量\(n\),總體中含有的個體數\(N\)。
-
總體中第\(i\)個單元\(Y_i\)的規模度量\(M_i\)。
-
總體的總規模\(\displaystyle{M_0=\sum_{i=1}^{N}M_i}\)。
-
每次抽樣中,\(Y_i\)被抽中的概率\(Z_i\),如果是\(\mathrm{PPS}\)抽樣,則有
\[Z_i=\frac{M_i}{M_0}=\frac{M_i}{\sum\limits_{i=1}^{N}M_i}. \]
對總體總值的估計量:漢森-赫維茨(Hansen-Hurwitz)估計量。
如果是\(\mathrm{PPS}\)抽樣,則
HH統計量的期望、方差
定理:\(\hat Y_{HH}\)是總體總值\(Y\)的無偏估計量,即
\[\mathbb{E}(\hat {Y}_{HH})=Y. \]
可先計算只抽取一個樣本時,\(y_i/Z_i\)的期望,為
再由不放回抽樣時每個樣本的獨立性,有
要注意到每一個\(Z_i\)是與\(Y_i\)相聯系的量,因此當實際抽中\(Y_i\)時,可以將其觀測值視為\(Y_i/Z_i\),再按照離散分布列,加權計算期望即可。
定理:\(\hat Y_{HH}\)的方差為
\[\mathbb{D}(\hat Y_{HH})=\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2. \]
類似地,可以先計算每一個\(y_i/Z_i\)的方差,再由樣本間的同分布獨立性計算整體方差,為
HH統計量方差的無偏估計
定理:當\(n>1\)時,\(\mathbb{D}(\hat Y_{HH})\)的無偏估計為
\[v(\hat Y_{HH})=\frac{1}{n}\frac{1}{n-1}\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-\hat Y_{HH} \right)^2,\\ \mathbb{E}(v(\hat Y_{HH}))=\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2. \]
不妨記\(t_i\)為\(Y_i\)的入樣次數,則\(\displaystyle{\sum_{i=1}^{N}t_i=n}\),\(t_i\sim B(n, Z_i)\),\((t_i,t_j)\)服從多項分布,且
要證明定理,即證明
注意到
所以
這里\(\displaystyle{\mathbb{E}\left(\frac{y_i}{Z_i} \right)=\mathbb{E}(\hat Y_{HH})=Y}\),於是
原式得證。
推論:如果是\(\mathrm{PPS}\)抽樣,則由\(Z_i=\dfrac{M_i}{M_0}\),有
\[v(\hat{Y}_{HH})=\frac{1}{n(n-1)}\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-\hat Y_{HH} \right)^2=\frac{M_0^2}{n(n-1)}\sum_{i=1}^{n}\left(\frac{y_i}{M_i}-\frac{\hat Y_{HH}}{M_0} \right)^2. \]
放回不等概多階段抽樣
放回不等概整群抽樣
在等概率整群抽樣中,每一個群被抽中的概率相等,如果每個群規模相等則等概整群抽樣的效果較好;如果群的規模不等,則一般使用不等概整群抽樣抽取群,按與群規模\(M_i\)成比例的\(\mathrm{PPS}\)抽樣,第\(i\)個群的總值為\(\displaystyle{y_i=\sum_{j=1}^{M_i}y_{ij}}\)。
\(\mathrm{PPS}\)總體總值的估計量為
推論:由漢森-赫維茨估計量的性質,有
\(\hat Y\)是\(Y\)的無偏估計。
\(\hat Y\)的方差為
\[\mathbb{D}(\hat Y)=\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2=\frac{M_0}{n}\sum_{i=1}^{N}M_i(\bar Y_i-\bar{\bar Y})^2. \]\(\mathbb{D}(\hat Y)\)的無偏估計為
\[v(\hat Y)=\frac{1}{n(n-1)}\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-Y \right)^2=\frac{M_0^2}{n(n-1)}\sum_{i=1}^{n}(\bar{y}_i-\bar{\bar y})^2. \]
只需注意到\(\displaystyle{Y=\sum_{i=1}^{N}Y_i}\),再將每一個群視為一個個體,最后取\(\displaystyle{Z_i=\frac{M_i}{M_0}}\)即可。
由上述過程可知,在抽取樣本之前,必須獲得各群規模\(M_i\)的信息。
放回不等概兩階段抽樣
兩階段放回不等概抽樣是兩階段整群抽樣的推廣,先按照放回不等概整群抽樣的方式抽中\(n\)個一級單元,對抽中的第\(i\)個單元,再抽取\(m_i\)個二級單元(如果某個初級單元被重復抽中多次,則對其二級單元抽取多個獨立樣本)。
此時,由於沒有對抽中的初級單元作普查,所以先構造初級單元總值\(Y_i\)的無偏估計\(\hat Y_i\)(構造方式不限,故抽樣方式也不限),再構造漢森-赫維茨估計量為
推論:由漢森赫維茨估計量的性質以及兩階段抽樣的特點,有
\(\hat Y_{HH}\)是\(Y\)的無偏估計。
\(\hat Y_{HH}\)的方差為
\[\mathbb{D}(\hat Y_{HH})=\frac{1}{n}\left[\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2+\sum_{i=1}^{N}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i} \right]. \]\(\mathbb{D}(\hat Y_{HH})\)的無偏估計為
\[v(\hat Y_{HH})=\frac{1}{n(n-1)}\sum_{i=1}^{n}\left(\frac{\hat Y_i}{Z_i}-\hat Y_{HH} \right)^2. \]
由於\(\hat {Y}_i\)是\(Y_i\)的無偏估計,所以\(\displaystyle{\mathbb{E}_2\left(\frac{\hat Y_i}{Z_i} \right)=\frac{Y_i}{Z_i}}\),即
並且可得兩個關鍵等式:
由兩階段抽樣定理,與第一階段簡單不等概抽樣的性質,有
這里,前一部分是漢森-赫維茨估計量的方差,后一部分是漢森-赫維茨估計量的均值。
對於\(v(\hat Y_{HH})\),在下面的\((*)\)式中將兩個關鍵等式代入,可得
對第一項,有
后一個等號實際上是從\(\displaystyle{\frac{\mathbb{D}_2(\hat Y_i)}{Z_i^2}}\)中分離出入樣概率\(Z_i\)后,剩下的部分視為樣本觀測值,從而\(\displaystyle{\sum_{i=1}^{N}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i}}\)成為此式中漢森-赫維茨統計量所估計的“總體總值”。同時,可以注意到此部分是\(\mathbb{D}(\hat Y_{HH})\)的后一部分。
對第二項,用同樣的分離方式,可得到
而從第三項,因\(\displaystyle{\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i}{Z_i} \right)=Y}\),結合\(\displaystyle{\sum_{i=1}^{N}Y_i=Y}\),\(\displaystyle{\sum_{i=1}^{N}Z_i=1}\),有
於是第二項與第三項相減,恰好得到
這恰好是\(\mathbb{D}(\hat Y_{HH})\)的前一部分。綜上,就得到
兩階段放回不等概抽樣中自加權統計量的設計
依前述,在兩階段放回不等概抽樣中,有
如果第二階段采用簡單隨機抽樣,則
如果希望\(\hat Y_{HH}\)是自加權的(即統計量是樣本總值或樣本均值的一個常數倍),則需要\(\displaystyle{\frac{M_i}{nm_iZ_i}=K}\),這里\(K\)是常數,更具體地有\(K\equiv\dfrac{1}{f_0}\),\(f_0\)為總體中任意一個二級單元被抽中的概率,即
對\(\mathrm{PPS}\)抽樣,有\(Z_i=M_i/M_0\),所以只要\(m_i=m\)為常數,\(\dfrac{M_i}{nm_iZ_i}=\dfrac{M_0}{nm}\)就是常數,此時
多階段放回不等概抽樣概述
多階段放回不等概抽樣的方式一般是:對除最后一階段的每一階段,采用與單元大小成比例的不等概抽樣(\(\mathrm{PPS}\)抽樣),對最后一階段的抽樣采用等概抽樣。
以三階段抽樣為例:
- 總體有\(N\)個初級單元,第\(i\)個初級單元被抽中的概率為\(Z_i\),\(\displaystyle{\sum_{i=1}^{N}Z_i=1}\)。
- 第\(i\)個初級單元有\(M_i\)個二級單元,第\(i,j\)個二級單元被抽中的概率為\(Z_{ij}\),\(\displaystyle{\sum_{j=1}^{M_i}Z_{ji}}=1\)。
- 第\(i,j\)個二級單元有\(K_{ij}\)個三級單元,第\(i,j,u\)個三級單元被抽中的概率為\(Z_{iju}\),\(\displaystyle{\sum_{u=1}^{K_{ij}}}Z_{iju}=1\)。
- 各階樣本量分別為\(n,m,k\)(定值,與單元無關)
此時,對總體總值\(Y\)的無偏估計為
定義\(\displaystyle{Y_{ij}=\sum_{u=1}^{K_{ij}}Y_{iju}}\),\(\displaystyle{Y_{i}=\sum_{j=1}^{M_i}Y_{ij}=\sum_{j=1}^{M_i}\sum_{u=1}^{K_{ij}}Y_{iju}}\),則\(\hat Y\)的方差為
定義\(\displaystyle{\hat Y_i=\frac{1}{Z_i}\left[\frac{1}{m}\sum_{j=1}^{m}\frac{1}{Z_{ij}}\left(\frac{1}{k}\sum_{u=1}^{k}\frac{y_{iju}}{Z_{iju}} \right) \right]}\),\(\mathbb{D}(\hat Y)\)的無偏估計為
為使\(\hat Y\)是自加權的,使前兩階段抽樣采用\(\mathrm{PPS}\)抽樣,最后一階段按放回的等概率抽樣進行,則此時
不放回不等概抽樣
概述
在不放回不等概抽樣中,每個單元\(Y_i\)的入樣概率為\(\pi_i\),任意兩個單元\(Y_i,Y_j\)同時入樣的概率為\(\pi_{ij}\),統稱為包含概率。應注意\(\pi_i\ne Z_i\),僅當\(n=1\)時\(\pi_i=Z_i\)。
第一個式子代表所有單元的入樣概率之和為\(n\),這是因為一共需要抽取\(n\)個樣本。
第二個式子代表,\(Y_i\)和其他所有單元一起入樣的概率之和為\((n-1)\pi_i\),可以將其看作兩個獨立事件,其一是\(Y_i\)入樣,概率為\(\pi_i\);其二是在剩余的單元中抽取\(n-1\)個樣本,故入樣概率之和是\(n-1\)。
第三個式子代表,所有兩個單元一起入樣的概率之和為\(\displaystyle{\frac{1}{2}n(n-1)}\),只需對第二個式子關於\(i\)求和再除以\(2\)去重。
嚴格的\(\mathrm{\pi PS}\)抽樣:如果每個單元的入樣概率與其大小或規模\(M_i\)嚴格成正比,即\(\displaystyle{Z_i=\frac{M_i}{M_0}}\),\(\pi_i=nZ_i\),則這種抽樣稱為嚴格的\(\mathrm{\pi PS}\)抽樣。
- 只有在\(n=2\)時,嚴格的\(\mathrm{\pi PS}\)抽樣才有一些簡單實用的方法。
- 對於\(n>2\)時,可以通過分層,在每層中進行嚴格的\(n=2\)的\(\mathrm{\pi PS}\)抽樣。
HT估計量的期望、方差
對於不放回不等概抽樣,對總體總值\(Y\)的估計采用霍維茨-湯普森(Horvitz-Thompson)估計量:
這里\(\alpha_i\)是代表\(Y_i\)入樣的示性變量,類似第一部分中對簡單隨機抽樣的討論,有
定理:如果\(\pi_i>0,i=1,2,\cdots ,N\),則
\(\hat Y_{HT}\)是\(Y\)的無偏估計,\(\mathbb{E}(\hat Y_{HT})=Y\)。
\(\hat Y_{HT}\)的方差為
\[\mathbb{D}(\hat Y_{HT})=\sum_{i=1}^{N}\frac{1-\pi_i}{\pi_i}Y_i^2+2\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j}Y_{i}Y_j. \]當\(n\)固定時,有
\[\mathbb{D}(\hat Y_{HT})=\sum_{i=1}^{N}\sum_{j>i}^{N}(\pi_i\pi_j-\pi_{ij})\left(\frac{Y_i}{\pi_i}-\frac{Y_j}{\pi_j} \right)^2. \]
注意到這里只有\(\alpha_i\)是隨機變量,且\(\mathbb{E}(\alpha_i)=\pi_i\),所以
對於方差,有
特別當\(n\)固定時,對給定的\(i\),
於是
這說明,要使估計量的方差\(\mathbb{D}(\hat Y_{HT})\)小,應使\(\displaystyle{\frac{Y_i}{\pi_i}}\)之間的差異盡可能小。
HT統計量方差的無偏估計
定理:如果\(\pi_i>0\),\(\pi_{ij}>0\),則\(\mathbb{D}(\hat Y_{HT})\)的無偏估計為
\[v(\hat Y_{HT})=\sum_{i=1}^{n}\frac{1-\pi_i}{\pi_i^2}y_i^2+2\sum_{i=1}^{n}\sum_{j>i}^{n}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j\pi_{ij}}y_iy_j. \]如果\(n\)固定,則\(v(\hat Y_{HT})\)也可以用
\[v_{YGS}(\hat Y_{HT})=\sum_{i=1}^{n}\sum_{j>i}^{n}\frac{\pi_i\pi_j-\pi_{ij}}{\pi_{ij}}\left(\frac{y_i}{\pi_i}-\frac{y_j}{\pi_j} \right)^2. \]當\(n=2\)時,\(v_{YHS}(\hat Y_{HT})>0\),否則無論是哪一種無偏估計,都有可能出現負值。
類似科恩菲爾德法,只需將\(y_i\)改成\(\alpha_iY_i\),並利用\(\alpha_i\)的相關性質:\(\displaystyle{\mathbb{E}(\alpha_i)=\pi_i,\mathbb{E}(\alpha_i\alpha_j)=\pi_{ij}}\)即可。
當\(n\)固定時,類似有
\(\mathrm{\pi PS}\)抽樣方法
常用的\(\mathrm{\pi PS}\)方法有:布魯爾方法,水野法,不嚴格\(\mathrm{\pi PS}\)抽樣法。
-
布魯爾(Brewer)方法
要求:對總體所有的單元,都有\(Z_i\le \dfrac{1}{2}\),只抽取\(n=2\)個單元。
步驟:按與\(\displaystyle{\frac{Z_i(1-Z_i)}{1-2Z_i}}\)成比例的概率抽取第一個單元\(j\),再按與\(\dfrac{Z_i}{1-Z_j}\)成比例的概率抽取第二個單元。
相關計算:
\[\pi_i=2Z_i,\quad \pi_{ij}=\frac{4Z_iZ_j(1-Z_i-Z_j)}{(1-2Z_i)(1-2Z_j)\left(1+\sum\limits_{i=1}^{N}\dfrac{Z_i}{1-2Z_i} \right)}.\\ \hat Y_{B}=\frac{y_i}{\pi_i}+\frac{y_j}{\pi_j}=\frac{1}{2}\left(\frac{y_i}{Z_i}+\frac{y_j}{Z_j} \right),\\ v_{YGS}(\hat Y_{B})=\frac{\pi_i\pi_j-\pi_{ij}}{\pi_{ij}}\left(\frac{y_i}{\pi_i}-\frac{y_j}{\pi_j} \right)^2. \] -
水野(Midzunol)法
要求:每個單元的大小滿足\(M_i\ge\dfrac{(n-1)M_0}{n(N-1)}\),抽取\(n>2\)個單元。
步驟:以概率\(Z_i^*=\dfrac{n(N-1)Z_i}{N-n}-\dfrac{n-1}{N-n}\)抽取第一個樣本單元,在剩下的\(N-1\)個單元中不放回等概率抽取\(n-1\)個樣本單元。
相關計算:
\[\pi_i=nZ_i,\\ \pi_{ij}=\frac{n-1}{N-1}\left[\frac{N-n}{N-2}(Z_i^*+Z_j^*)+\frac{n-2}{N-n} \right]. \] -
非嚴格\(\mathrm{\pi PS}\)抽樣——耶茨-格倫迪(Yates-Grundy)逐個抽取法
要求:\(n\)是不固定的而是隨機的;或是非嚴格不放回的;或是\(\pi_i\approx nZ_i\)的。
步驟:以\(Z_i\)抽取第一個樣本單元,再以\(\dfrac{Z_i}{1-Z_1}\)抽取第二個樣本單元,再以\(\dfrac{Z_i}{1-Z_1-Z_2}\)抽取第三個樣本單元……以此類推,直到抽出\(n\)個樣本單元。
相關計算:Yates-Grundy逐個抽取法常常不采用HT估計量,而使用Raj估計量。設\(y_1,\cdots,y_n\)為按抽中順序排列的樣本單元指標值,\(Z_1,\cdots,Z_n\)為對應的抽中概率,令
\[\left\{\begin{array}{} t_1=\dfrac{y_1}{Z_1},\\ t_2=y_1+\dfrac{y_2}{Z_2}(1-Z_1), \\ \cdots \\ t_n=y_1+y_2+\cdots+y_{n-1}+\dfrac{y_n}{Z_n}(1-Z_1-Z_2-\cdots-Z_{n-1}). \end{array}\right. \\ \hat Y_{\text{Raj}}=\frac{1}{n}\sum_{i=1}^{n}t_i,\\ v(\hat Y_{\text{Raj}})=\frac{1}{n(n-1)}\sum_{i=1}^{n}(t_i-\hat Y_{\text{Raj}})^2. \]
兩階段不放回不等概抽樣概述
抽樣方式:在兩階段抽樣中,第一階段采用不放回不等概方法抽取初級單元\(\mathrm{PSU}\),第\(i\)個\(\mathrm{PSU}\)的包含概率為\(\pi_i\),第\(i\)個和第\(j\)個\(\mathrm{PSU}\)同時入樣的包含概率為\(\pi_{ij}\);第二階段采用簡單隨機抽樣,對不同\(\mathrm{PSU}\)的抽樣相互獨立,則總體總值\(Y\)的HT估計量為
且\(\hat Y_i\)是\(Y_i\)的無偏估計,\(\hat Y_{HT}\)是\(Y\)的無偏估計。
定理:
\(\mathbb{E}(\hat Y_{HT})=Y\)。
\(\displaystyle{\mathbb{D}(\hat Y_{HT})=\sum_{i=1}^{N}\frac{1-\pi_i}{\pi_i}Y_i^2+2\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j}Y_iY_j+\sum_{i=1}^{N}\frac{\mathbb{D}(\hat Y_i)}{\pi_i}}\)。
當\(n\)固定時,\(\displaystyle{\mathbb{D}(\hat Y_{HT})=\sum_{i=1}^{N}\sum_{j>i}^{N}(\pi_i\pi_j-\pi_{ij})\left(\frac{Y_i}{\pi_i}-\frac{Y_j}{\pi_j} \right)^2+\sum_{i=1}^{N}\frac{\mathbb{D}(\hat Y_i)}{\pi_i}}\)。
\(\mathbb{D}(\hat Y_{HT})\)的無偏估計為
\[v(\hat Y_{HT})=\sum_{i=1}^{n}\frac{1-\pi_i}{\pi_i^2}\hat Y_i^2+2\sum_{i=1}^{n}\sum_{j>i}^{n}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_{ij}\pi_i\pi_j}\hat Y_i\hat Y_j+\sum_{i=1}^{n}\frac{v(\hat Y_i)}{\pi_i},\\ v_{YGS}(\hat Y_{HT})=\sum_{i=1}^{n}\sum_{j>i}^{n}\frac{\pi_i\pi_j-\pi_{ij}}{\pi_{ij}}\left(\frac{\hat Y_i}{\pi_i}-\frac{\hat Y_j}{\pi_j} \right)^2+\sum_{i=1}^{n}\frac{v(\hat Y_i)}{\pi_i}. \]