抽樣調查復習綱要
注:本文中提到的證明可點此查看。
前置准備
如何估計參數
抽樣調查研究的是有限總體的分布。一般說來,需要估計的參數為總體均值\(\bar Y\)、總體總值\(Y\)、總體比例\(P\)與比率\(R\),事實上它們都可以看做均值估計的變體,而區別無非在於,對總體總值有\(Y=N\bar Y\);對總體比例,它是\(Y_i=0/1\)時的特殊均值;對比率,它則是兩個均值的比。
當我們獲得某個估計量時,需要考慮它的精度,這個精度往往與總體的離散程度有關。為了刻畫總體的離散程度,引入方差\(S^2\),它定義為
特別對比例估計\(Y_i=0/1\),\(\bar{Y}=P\),有
顯然,對於一個未知的總體,\(S^2\)也是待估參數,我們只能從樣本中獲得關於總體方差的信息。然而計算可發現,估計量的方差往往與\(S^2\)有關,如果不估計\(S^2\),將不能獲得統計量的置信區間。因此,方差估計也是我們要考慮的問題。
對於存在輔助變量的情況,研究兩個指標之間的相關程度往往用協方差為
類似地,它也是待估參數。而\(X,Y\)的相關系數就是\(\rho=\dfrac{S_{yx}}{SS_x}=\dfrac{S_{yx}}{\sqrt{S^2S_x^2}}\)。
最后,如果某個估計量是某個參數的估計量,如均值\(\bar{Y}\)的估計量\(\hat{\bar Y}\),那么我們記它的期望為\({E}(\hat{\bar Y})\),方差為\(V(\hat{\bar {Y}})\)。由前所述,方差中往往包含待估參數,所以要對方差進行估計,將估計量記作\(v(\hat{\bar Y})\)。讀者應時刻記住\({E}(\hat{\bar{Y}})\)與\({V(\hat{\bar{Y}})}\)為一個數,但\(v(\hat{\bar{Y}})\)是一個統計量(可以看作\(\hat {{V}}(\hat{\bar{Y}})\))。當我們獲得以上信息后,可以由中心極限定理給出統計量\(\hat{\bar{Y}}\)的置信區間為:
特別當我們取\(\alpha=0.05\)時,有\(u_{\alpha/2}\approx 1.96\),這是非常常用的結果。
設計效應\(deff\):一個統計量的設計效應指的是在相同樣本量情況下,統計量方差與簡單隨機樣本方差之比,也就是相對於簡單隨機樣本的一個樣本,這個統計量用\(deff\)個樣本來達到相同效果。顯見\(deff\)越小統計量就越好。
學習框架
對一個抽樣方法,不外乎需要掌握以下的內容:
- 抽樣如何實施。
- 統計量的形式與性質。
- 方差與方差估計。
- 樣本量的確定。
在掌握以上三點的情況下,再學習部分重要定理的證明即可。
簡單隨機抽樣
簡單隨機抽樣的實施方法是:完全按照隨機原則取樣,事先確定每個抽樣單元被抽中的概率且它們應當是均等的。具體實施來看,又可以分為只調查研究對象的簡單估計,以及使用輔助變量的比估計與回歸估計。
對於簡單隨機估計,我們主要研究其均值\(\bar{Y}\)。
簡單估計
先討論簡單估計,簡單估計的形式很簡單,即
它是總體均值的無偏估計,即\({E}(\bar{y})=\bar{Y}\),證明方法是典型的科恩菲爾德法(證明1)。
接下來考慮方差,其方差的精確結果是\(V(\bar{y})=\dfrac{1-f}{n}S^2\)(證明1),但如前所述,\(S^2\)是未知的,因此需要用統計量估計\(S^2\)。常常用樣本方差估計總體方差,樣本方差即
可以證明,樣本方差是總體方差的無偏估計(證明2),因此,對\(V(\bar{y})\)的估計就是\(v(\bar{y})=\dfrac{1-f}{n}s^2\),運用中心極限定理,就得到其置信區間。
如果是比例估計,同理可以推得
比率估計
比率估計量利用了輔助統計量的性質,在調查中,運用輔助統計量的原因是輔助統計量的數據往往易於獲得,且輔助統計量往往與待估統計量具有一定的聯系。我們在選擇輔助統計量時,默認假定輔助變量的總體總值已知。
為了描述統計量之間的關系,使用協方差來刻畫相關程度,注意這里的協方差指的是隨機變量之間的協方差,而不是前述的待估參數\(S_{yx}\),但事實上,協方差與\(S_{yx}\)是正相關的,也就是說\(S_{yx}\)越大,輔助統計量與待估統計量之間的相關關系越大,使用比率估計的可靠性就越高。
為了估計\(S_{yx}\),我們使用樣本協方差\(s_{yx}\),有(無偏性證明見證明2)
現在可以介紹比率估計量,目標依然是估計\(\bar{Y}\),我們推斷可能有\(\dfrac{\bar{Y}}{\bar{X}}\approx\dfrac{\bar{y}}{\bar{x}}\),從而我們給出比率估計量的形式為
在我們假定下\(\bar{X}\)是一個常數,所以此式中的隨機變量實際上是比率\(\hat{R}=r=\dfrac{\bar{y}}{\bar{x}}\)。我們應注意到,這個統計量的分母依然是一個隨機變量,而\(E(r)\ne \dfrac{E(\bar y)}{E(\bar x)}=R\),這表明比率估計量並非無偏估計。但是,我們依然可知道\(E(r)\approx R\)。
對\(r\)的偏差估計,我們有(證明3)
這里后一個公式較為常用,為對\(V(r)\)作出估計,只要用\(r\)代替\(R\),用\(s_{yx}\)代替\(S_{yx}\),\(s^2\)代替\(S^2\),\(S_x^2\)代替\(s_x^2\)即可,即
綜合以上討論,特別對\(\bar{y}_{R}\),我們能得出以下結論:
回歸估計
回歸估計更充分地利用了輔助統計量的信息。比率估計量將樣本點\((x_i,y_i)\)視為正比例關系,如果將其描繪在\(xOy\)平面上,我們預期它的擬合結果將是一條通過原點的直線;但有時,\((x_i,y_i)\)僅是一條直線,不考慮截距可能造成較大的誤差。回歸估計就考慮了截距的影響,將估計量定為
需要注意的是,\(\beta\)並不一定是事先確定的常數,它可能隨抽樣結果靈活選擇,因此可以視之為隨機變量。自然 ,當\(\beta\)是事先確定的常數與隨機變量時,統計量的性質是不一樣的。
當\(\beta\)是常數\(\beta_0\)時,我們容易得到比率估計量的性質為
因此,為了使比率估計量有最小方差,只需對\(\beta_0\)求導,容易得到最優\(\beta_0\)為\(B=\dfrac{S_{xy}}{S_{x}^2}\),但是總體的\(S_{xy}\)和\(S_{x}^2\)未知,因此這個最優\(B\)往往難以確定。一個自然的想法是,用\(s_{yx}\)和\(s_x^2\)分別替代\(S_{xy}\)和\(S_x^2\),得到\(B\)的估計量為\(b=\dfrac{s_{yx}}{s_{x}^2}\),但此時它們都是隨機變量,統計量的性質就發生了改變。此時,
注意由於\(b\)與\(\bar{x}\)不獨立,\(E(b\bar{x})\)難以計算,但當\(n\)足夠大時有\(E(\bar{X}-\bar{x})\approx 0\),因此我們有
而對方差,我們只需直接用\(B=\dfrac{S_{yx}}{S_{x}^2}=\dfrac{\rho S}{S_{x}}\)代替\(b\),就可以近似得到以下的結果:
由於\(\rho^2\ge 0\),所以\(n\)不小時,回歸估計一般優於簡單估計。
分層隨機抽樣
對分層隨機抽樣,要將總體划分為\(L\)層,在每一層中分別執行簡單隨機抽樣。在分層隨機抽樣中,有一很重要的概念即層權\(W_h=\dfrac{N_h}{N}\),它是各層中樣本在總體中的比例,也是用於加權的權因子,這意味着為執行分層隨機抽樣,需要預先獲得層權,同時也說明層權是常數而非隨機變量。這里,我們估計的參數依然是總體均值\(\bar{Y}\)。
在分層抽樣中,很容易陷入一個誤區:即樣本中的層權一定與總體層權一致;如果總體比例是\(a:b:c\),則樣本中\(n_1:n_2:n_3=a:b:c\)。實際上這是不一定的,樣本量的選擇也是我們需要考慮的一個問題。
簡單估計
分層隨機抽樣的簡單估計,是對各層先執行簡單隨機估計,再利用層權進行加權。即
很容易驗證\(E(\bar{y}_{st})=\bar Y\),且根據簡單隨機抽樣的性質,它的方差為
在實際計算中,我們往往使用第一個等式,后一個等式在后面樣本量的確定上將被使用。
比率估計
比率估計需分為分別比估計和聯合比估計,它們的區別在於“比”與“分層”的先后。但由於出現了比,也就是隨機變量在分母的情況,無論是哪種比估計,都不會是無偏的。
分別比估計(separate),指的是在每一個層中分別作比估計,再將得到的比估計按層加權。由於每一層的層內比估計是漸進無偏的,所以分別比估計也是漸進無偏的,其性質都很自然,即
而聯合比估計(combined),指的是先分別作\(\bar{Y}\)和\(\bar{X}\)的分層抽樣簡單估計,再結合比估計的形式作比,也就是
其本質仍然是比率估計,但是對比率的估計采用了分層隨機抽樣的簡單估計,而不是簡單的隨機抽樣;同時,在構造過程中,不需要知道每一層的\(R_h\),自然也不用求其估計量\(r_h\)。我們可以證明有(證明4)
如何選擇兩種比估計?將兩個方差直接作差得到的結果可能稍顯復雜,我們可以針對每一層看。顯然對每一層若都有\(R=R_h\),則兩種比估計的效率相同,一般說來,如果每一層抽取的樣本量\(n_h\)都比較大,則分別比估計更有效,如果某些層樣本量不夠大,就采用聯合比估計。
樣本量確定
現在回到樣本量的選擇上,應當如何選擇樣本量最合適?一種自然的想法是,讓各層的樣本量之比等於層權之比:\(f_h=\dfrac{n_h}{N_h}=f\),即比例分配,這樣的做法雖略顯粗糙,但具有一個優良的性質:自加權。所謂自加權樣本,就是不需要按照特殊的抽樣方式構造統計量,只需要直接計算總體均值,再乘以一個常數即可。對於比例分配,我們有
可以發現,當我們使用比例分配時,分層隨機抽樣統計量與簡單隨機抽樣的統計量形式上是一致的,這就是自加權性質。
不過實際生活中,希望統計量的方差盡可能小,從而使抽樣精度變高,在受到實際條件約束時,如何選擇最小化方差的樣本,以及如何在方差滿足要求的情況下控制成本是我們需要考慮的問題。
對於成本的刻畫,一般使用線性函數。假設在第\(h\)層每調查一個樣本的平均成本為\(c_h\),固定成本為\(c_0\),那么總費用函數就是
對於方差,我們有
注意到后面一項與樣本量無關。為使\(C_{T}V(\bar{y}_{st})\)盡可能小,對此式稍作修改以便處理,最終有
由柯西不等式,最優分配的\(n_h\)應滿足(證明5)
值得注意的是,\(n_h\)之間的最優比例與總費用函數與預期的方差都無關,所以無論是給定最大費用還是最小方差,都應當先算出各\(n_h\)之間的最優比例。
最后,當\(c_h=c\)即各層抽樣單位成本相同時,最優分配有\(n_h\propto W_hS_h\),這種分配方案稱Neyman分配。
整群抽樣與多階段抽樣
多階段抽樣主要探究的是抽樣單元不一定是基本單元的情形,即將初次抽樣的單位定義為初級單元,然后可以普查整個初級單元,或者在初級單元內部再抽樣。前者稱為整群抽樣,后者則稱為多階段抽樣。可以說,整群抽樣是多階段抽樣的一個特例。
需要注意的是,整群抽樣和多階段抽樣具有比較特殊的符號表達,由於有兩個層級,所以\(Y\)視為PSD的總值,\(Y_i\)視為第\(i\)個PSD的總值,\(Y_{ij}\)才是每一個樣本值。為表達均值,\(\bar{\bar{Y}}\)表示所有PSD中所有SSD的均值,\(\bar{Y}_i\)表示第\(i\)個PSD中SSD的均值。可以看到,每多加一個修飾,參數所代表的層級就下降一級。而\(\bar{Y}\),指的就是群總值的均值。以上概念,需要讀者自己體會。
整群抽樣
我們只討論群規模相等的等概率整群抽樣,這時候\(N\)為PSD的個數,由於是等規模的群,所以每一個PSD中,視為有\(M\)個SSD。整群抽樣的特點就是,在第二階段獲得的樣本信息就是總體信息,如\(\bar{y}_i=\bar{Y}_i\),因為第二階段是普查。
現在,我們主要估計的目標是\(\bar{\bar Y}\)。既然整群抽樣的第一階段是簡單隨機抽樣,而且群規模之間又是相等的,那么一個自然的想法是,將每一個群的群均值構造為“抽樣單元”,構造簡單估計,即
使用如此的估計,必不可少的條件是群規模相等,因為在群規模相等時,群均值的均值就是總體均值,因為
這樣,由簡單隨機估計的性質,就有\(\displaystyle{E\left(\frac{1}{n}\sum_{i=1}^{n}\bar{y}_i \right)=\frac{1}{N}\sum_{i=1}^{N}\bar{y}_i=\bar{\bar{Y}}}\)。由此,我們也可以看出,其實整群抽樣就是變換了抽樣單位的簡單隨機抽樣,也因此我們有
整群抽樣方差分析
在整群抽樣中,我們往往會討論三個方差:總體方差、群間方差(between)與群內方差(within),有
這里,群內方差是不同群內方差的平均值,由方差分析的結論,三式的分母就是其自由度。顯然它們都是待估參數,在對總體情況不甚了解的時候需要對它們進行估計,由前所述,整群抽樣是另一種形式的簡單隨機抽樣,因此可以很容易給出\(S_b^2\)和\(S_w^2\)的估計:
這里\(s_b^2\)相當於簡單隨機抽樣中總體方差的估計,\(s_w^2\)相當於簡單隨機抽樣中總體均值的估計(讀者可自行尋找抽樣單位)。
引入方差分析的主要目的是用於研究設計效應,對它的研究用到群內相關系數:
這里運算符\(E\)表示對對所有離散的情況求平均,顯見
現在,我們可以給出結論:整群抽樣的設計效應為(證明6)
因\(\rho_c\)也是一個待估參數,故我們使用\(\hat\rho_c=\dfrac{s_b^2-s_w^2}{s_b^2+(M-1)s_w^2}\)來估計\(\rho_c\),這樣就可以計算設計效應。
兩階段抽樣
對多階段抽樣,我們以PSU規模相等的等概率兩階段抽樣作為示例,如此抽樣意味着第一階段從\(N\)個PSD中簡單隨機抽取\(n\)個,並從抽出的PSD中的\(M\)個SSD中隨機抽取\(m\)個,定義\(f_1=\dfrac{n}{N}\),\(f_2=\dfrac{m}{M}\)。符號規定可類比整群抽樣,但由於第二階段不是普查,所以\(\bar{y}_i\)只能作為\(\bar{Y}_i\)的一個估計量。以下定理在兩階段抽樣時十分常用:(證明7)對任意兩階段統計量\(\hat\theta\),有
這里\(E_2,V_2\)是固定初級單元時對第二階段的均值和方差,\(E_1,V_1\)分別是第一階段抽樣的均值和方差。
基於此,雖然\(\bar{y}_i\ne \bar{Y}_i\),但是\(\bar{y}_i\)會是\(\bar{Y}_i\)的一個無偏估計,因而對兩階段抽樣構造的統計量應當與整群抽樣類似,即
由兩階段抽樣定理,有
最后一個等號只有在初等單元等規模時才成立。
兩階段抽樣方差估計
為了估計其方差,我們需要引入一些符號。首先是PSD間方差\(S_1^2\),它是將群均值視為抽樣單元構造出的方差估計,即此時,將每一個群的均值看作一個抽樣個體。
其次是PSD內方差,對第\(i\)個PSD其PSD內方差\(S_{2i}^2\)為
特別將這些方差取平均值,就得到PSD內方差\(S_2^2\)為
現在我們可以給出\(\bar{\bar{y}}\)的方差為(證明8)
為找出\(V(\bar{\bar{y}})\)的估計,顯而易見只要替代了\(s_1^2\)和\(s_2^2\)即可,且自然
但它們並不全是無偏估計,事實上,有\(E(s_1^2)=S_1^2+\dfrac{1-f_2}{m}S_2^2\),\(E(s_2^2)=S_2^2\)(證明9),於是
兩階段抽樣可以類似地推廣到三階段抽樣,具體可見這篇文章。
不等概抽樣
不等概抽樣是用於補足樣本性質的常用手段,事實上它與整群抽樣和多階段抽樣的結合更為常見。不等概抽樣的應用,肯定是基於我們有設置“不等概率”的理由,一般我們稱之為樣本單元的規模,這是一個與\(Y_i\)相對應的屬性\(M_i\),且事先已知,務必注意\(M_i\)為常數。
注意,與之前不同,由於不等概抽樣會使均值發生變化,因此不等概抽樣對總體總值\(Y\)進行估計。這里我們討論最基礎的放回不等概抽樣與不放回不等概抽樣,對應的抽樣方式是\(\mathrm{PPS}\)抽樣與\(\mathrm{\pi PS}\)抽樣。需掌握Hansen-Hurwitz統計量與Horvitz-Thompson統計量,同時,引入示性變量來計算統計量某些性質的方法在這一章中再次被提及。
放回不等概抽樣
放回不等概抽樣相對於不放回不等概抽樣更易於實施,這是因為它每一次抽樣面對的總體都是一致的,因此每次抽樣的隨機變量可以認為是獨立同分布的。對於獨立同分布隨機變量列,我們只需研究一個,就能知道樣本量增大時的結果。
最常用的放回不等概抽樣方式嗎,是與規模大小成比例的抽樣,即\(\mathrm{PPS}\)抽樣。這是將\(M_i\)之間的比例作為抽中的概率\(Z_i\)的比例,也就是\(Z_i=\dfrac{M_i}{M_0}\),由此使得每個樣本的抽取具有不同概率。
為使得獲得的統計量是無偏的,應將樣本值除以其抽中的概率,這樣對每一次抽取,獲得觀測的實際上是\(\dfrac{Y_i}{Z_i}\),且
這表明對單次抽取,\(\dfrac{Y_i}{Z_i}\)是總體總值\(Y\)的無偏估計,再結合隨機變量列的獨立同分布性,可以推得\(\mathrm{PPS}\)抽樣的漢森-赫維茨(Hansen-Hurwitz)統計量為
顯然有
對其方差的估計,我們有以下無偏估計:(證明10)
需要注意的是,由於抽樣是不等概的,因此對簡單隨機抽樣的結論不再適用,對此定理的證明與科恩菲爾德法類似,需要學習。
兩階段放回不等概抽樣
前面提到,整群抽樣與兩階段抽樣可能會遇到PSD規模不等的情況,這時用\(\mathrm{PPS}\)抽樣可以很好地解決問題,因\(\mathrm{PPS}\)抽樣本身針對的就是抽樣單元的規模。事實上,放回不等概整群抽樣因其普查性,完全可以將\(Y_i\)視作抽樣的對象,故放回不等概整群抽樣與放回不等概抽樣完全一致,現在我們討論兩階段放回不等概抽樣。當然,此時的估計對象依然也是總體總值。
對兩階段放回不等概抽樣,規模仍取PSD中SSD的個數\(M_i\),第二階段習慣上采取簡單隨機抽樣,但也可以使用其他抽樣方式。由簡單隨機抽樣的無偏性,第二階段只需取\(\hat{Y}_i\)作為總體總值的無偏估計量即可構造HH統計量,形如
用兩階段抽樣基本定理可知\(E(\hat{Y}_{HH})=Y\),且
上式中需特別注意第三個等號,如果將簡單隨機抽樣中的結論不加思考地應用,很容易得到\(\displaystyle{E_1\left(\frac{1}{n}\sum_{i=1}^{n}\frac{V_2(\hat{Y}_i)}{Z_i^2} \right)=\frac{1}{N}\sum_{i=1}^{N}\frac{V_2(\hat{Y}_i)}{Z_i^2}}\)的錯誤結論,事實上,這還是一個HH統計量的期望。最后的\((*)\)式僅當第二階段采用簡單隨機抽樣時成立。
它仍是一個無偏估計,且與第二階段的抽樣方式無關。由於證明略復雜,可見這篇文章。
不放回不等概抽樣
不放回不等概抽樣則相對復雜一些,因為每次抽樣的分布不一致,但這也使得每個單元至多入樣一次,在調查上減小了成本。對每個單元\(Y_i\),稱其包含概率為\(\pi_i\),而兩個單元\(Y_i\)和\(Y_j\)同時入樣的包含概率記作\(\pi_{ij}\)。嚴格的\(\mathrm{\pi PS}\)抽樣指的是對抽樣前就固定的\(n\),總有\(\pi_i=nZ_i\)。
對不放回不等概抽樣,常用霍維茨-湯普森(Horvitz-Thompson)估計量來估計總體總值,如果記\(\alpha_i\)表示第\(i\)個單元入樣的示性隨機變量,則
只需利用期望和方差的性質,就能得到\(E(\hat{Y}_{HT})=Y\),其方差為
不過,對方差的估計並不是一件易事,常用的無偏估計為(注意分母的變化)
其證明略顯復雜,可見這篇文章。
特別當\(n\)固定時,對給定的\(i\),有
於是有(方差變換見證明11)
\(\mathrm{\pi PS}\)抽樣方法
\(\mathrm{\pi PS}\)抽樣方法設計是比較麻煩的,這里給出三種抽樣方法,其中,前兩種是嚴格的\(\mathrm{\pi PS}\)抽樣法,即當\(n\)固定時的抽樣,因此可以用\(n\)固定時的方差估計;后一種是非嚴格的\(\mathrm{\pi PS}\)抽樣,\(n\)是不固定的。
對\(n=2\)時\(\mathrm{\pi PS}\)抽樣有很好的方法,即Brewer方法,它要求所有總體單元的\(Z_i\le \dfrac{1}{2}\)(一般來說這是容易達到的)。首先按與\(\dfrac{Z_i(1-Z_i)}{1-2Z_i}\)成比例的概率抽取第一個單元,隨后再以和\(Z_i\)成比例的概率抽取下一個單元,這種抽樣方法是\(\mathrm{\pi PS}\)的,因為(證明12)
在這種情況下,應有(\(n\)固定為\(2\))
當\(n>2\)時,一般使用水野法:
-
以概率\(Z_i^*=\dfrac{n(N-1)Z_i}{N-n}-\dfrac{n-1}{N-n}\)(書上公式有誤)抽取第一個樣本單元,可驗證
\[\sum_{i=1}^{N}Z_i^*=\frac{n(N-1)}{N-n}-\frac{N(n-1)}{N-n}=1. \]為使\(Z_i^\ge 0\),要求每個單元大小滿足\(M_i\ge\dfrac{(n-1)M_0}{n(N-1)}\)。
-
在剩下的\(N-1\)中,不放回等概率地抽出\(n-1\)個樣本。
最后,非嚴格的\(\mathrm{\pi PS}\)抽樣針對\(n\)不固定的情況,以耶茨-格倫迪(Yates-Grundy)逐個抽取法為例。這是一種很自然的抽樣想法,即每一步都與和\(Z_i\)成比例的概率從未被抽取的樣本中抽樣。這種抽樣方式不滿足嚴格的\(\pi_i=nZ_i\),但是簡單易行。不過,因\(\pi_i\)不易計算,不能使用HT統計量,故使用Raj統計量,取
對\(\hat{Y}_{Raj}\),有
二重抽樣
二重抽樣針對信息不能預先了解的總體,先抽取一個大的初始樣本調查總體輔助信息,再從此初始樣本中抽取一個更小的子樣本,對子樣本進行詳細調查。在分層抽樣與不等概抽樣中,我們或多或少對總體有大致了解(如層權、規模),而二重抽樣,就能夠應對對總體不甚了解的情況。
要注意,二重抽樣的主要特征是,兩次抽樣的針對性不同。第一重抽樣雖然抽取的樣本量大,但是只調查輔助信息,因而單位成本也較低;第二重抽樣雖然抽取的樣本量小,但是要調查細節信息,因而單位成本較大。實際抽樣中,如何分配兩重的樣本量,也是需要考慮的問題。
分層二重抽樣
現在以二重抽樣的一個具體目標:確定層權為例,因執行分層抽樣需要預知層權,故層權未知時,可以使用二重抽樣進行預調查。具體操作是:
-
利用簡單隨機抽樣,從\(N\)個單位中隨機抽取\(n'\)個初始樣本,根據分層標志將第一重總體分層。如\(n'\)個樣本中有\(n_h\)個第\(h\)層樣本,則預估層權為
\[w_h'=\frac{n_h'}{n'}, \]這是一個隨機變量,但顯然\(E(w_h')=W_h\)。
-
利用分層隨機抽樣,抽取\(n\)個第二重樣本,第\(h\)層樣本單位數為\(n_h\)。這時,每一層的均值估計是
\[\bar{y}_h=\frac{1}{n_h}\sum_{h=1}^{L}y_{hj}. \]實際執行時,\(n'\)、\(n\)以及諸\(n_h\)由抽樣者制定。
對均值的估計,自然的結果是
要注意,二重抽樣依然是兩階段的,因此兩階段抽樣基本定理適用。在固定初始樣本(第一階段抽樣)后,\(w_h'\)和第一重樣本內第\(h\)層均值\(\bar{y}_h'\)都是固定的量。
由於第二層是分層隨機抽樣,令抽樣比為\(f_{hD}=\dfrac{n_h}{n_h'}=\dfrac{n_h}{w_h'n'}\),故固定初始樣本時,每一層的樣本均值\(\bar{y}_h\)應當是第一重樣本內的第\(h\)層均值\(\bar{y}_h'\)的無偏估計,也即\(E_2(\bar{y}_h)=\bar{y}_h'\)。這樣,我們可以證明\(\bar{y}_{stD}\)具有如下的性質:(證明14)
對\(V(\bar{y}_{stD})\)的估計是漸進無偏的,用以下稍顯繁瑣的式子來計算:
近似的結果需要兩次抽樣的方差比都可以忽略,這要求總體非常大,大到可以接受兩次可忽略抽樣比的簡單隨機抽樣。
分層二重抽樣的樣本量最優分配
在實施二重抽樣之前,我們要確定兩次抽樣的樣本量,即\(n'\)和\(n\)。確定最優樣本量的過程,在這里定義為在一定的費用約束下,令方差最小化。
先討論成本函數,設第一重抽樣的平均調查成本為\(c_1\),第二重第\(h\)層抽樣的平均調查成本為\(c_{2h}\),則
這里我們暫忽略固定成本\(c_0\)(因為對最后的討論沒有影響),但此時\(n_h\)是隨機變量,故我們應對\(C_{T}\)求期望,將期望作為最終的成本函數,即
使用Cauchy不等式,得到最優的樣本分配模式為(證明15):
得到了\(f_{hD}\),就可以通過\(n_h'\)來確定\(n_h\),最終確定\(n\)。
二重抽樣比估計
另一種需要應用輔助變量信息的估計方式是比估計,如果事前不知道輔助變量的\(\bar{X}\),也可以用二重抽樣預估。具體操作是:
-
抽取\(n'\)個第一重樣本,僅觀測輔助變量\(X\)的值,得到輔助變量的樣本均值為\(\bar{x}'=\displaystyle{\frac{1}{n'}\sum_{i=1}^{n'}x_i'}\),顯然有\(E_1(\bar{x}')=\bar{X}\);
-
在第一重樣本中抽取\(n\)個第二重樣本,構造比估計\(\hat{R}=\dfrac{\bar{y}}{\bar{x}}\),從而
\[\bar{y}_{RD}=\frac{\bar{y}}{\bar{x}}\bar{x}'. \]
由比估計的性質,我們知\(E_2(\bar{y}_{RD})\approx \bar{y}'\),故
即二重抽樣比估計是樣本均值的漸進無偏估計,且方差為
我們可以觀察它與分層二重抽樣方差的異同。對方差的估計,使用
二重抽樣比估計的樣本量最優分配
對二重抽樣比估計,需要事前確定的樣本量,一是初次抽樣的樣本量\(n'\),二是第二次抽樣的樣本量\(n=n'f\),從而費用函數的期望為
而方差為
故極小化
由柯西不等式,可知
其他抽樣方式
本部分抽樣方式均只需略作了解,故這里只給出了必要的結論與簡略的推導,應該覆蓋了考試范圍。
系統抽樣
對系統抽樣,我們主要討論等概率等距系統抽樣,即欲從\(N\)個總體抽取\(n\)個時,總有\(N=nk\),\(k\)是整數(否則需要圍成一個環)。此時,在\(1:k\)中隨機抽取一個\(Y_{r}\),並取\(Y_{r+(j-1)k}\),\(j=1:n\)作為樣本。對於一個抽樣來說\(k\)固定,故每個樣本實際上由\(r\)和\(j\)完全決定,我們定義
事實上,系統抽樣一共只可能有\(k\)組樣本,且每組樣本都是被整體抽中的,因此系統抽樣可以看作特殊的整群抽樣,此時\(r=1:k\)就代表\(k\)個群,\(j=1:n\)就代表一個群中的每個樣本。因此,等概率等距系統抽樣可以看作只抽取一個群的等概率等規模整群抽樣,故
顯然有\(E(\bar{y}_{sy})=\bar{Y}\),其方差為\(E(\bar{y}_{sy}-\bar{Y})^2\)。但需要注意,由於只抽取一個群,整群抽樣的方差在此不再適用,應使用\(V(\bar{y}_{sy})=\displaystyle{\frac{1}{k}\sum_{r=1}^{k}(\bar{Y}_{r}-\bar{Y})^2}\)。我們給出其方差為:(證明13)
稱\(S^2\)與\(S_{wsy}^2\)為總方差與群內方差。當\(S^2\)恆定時,群間方差\(S_{wsy}^2\)越大,\(\bar{y}_{sy}\)就越精確。與簡單隨機抽樣相比,注意到\(k=\dfrac{n}{N}=f\),可以得到以下結果:為使\(V(\bar{y}_{sy})<V(\bar{y}_{srs})\),需使\(S_{wsy}^2>S^2\)。因此,為縮小方差,應當做好排序工作,使每一個系統樣本都接近理想的群:群內差異大,群間差異小。
關於\(V(\bar{y}_{sy})\)的估計,需計算群內相關系數,考試不作要求。
捕獲再捕獲抽樣
捕獲再捕獲抽樣即標志重捕法,是一類較為熟悉的抽樣方式。如總體有\(N\)個個體,第一次抽取\(n_1\)個樣本並做上標記,第二次抽取\(n_2\)個樣本,可以觀察到其中帶標記的個體一共有\(m\)個。對\(N\)的一個自然估計是
它是比率估計量,因而是有偏的,且\(m\)越小方差將越大,如果\(m=0\),對\(N\)的估計將是失敗的。所以,我們對捕獲再捕獲抽樣往往使用Chapman估計為