第1部分:簡單隨機抽樣
概述
簡單隨機抽樣的抽取規則:
- 按隨機原則取樣。
- 每個抽樣單元被抽中的概率都是已知或事先確定的,或者可事先計算的。
- 每個抽樣單元被抽中的概率均等。
簡單隨機抽樣的實現方式:
- 從總體的\(N\)個單元中,一次整批抽取\(n\)個單元,使任何一個單元被抽中的概率都相等,任何\(n\)個不同單元組成的組合被抽中的概率也都相等。
- 從總體的\(N\)個單元中,逐個不放回地抽取單元,每次抽取到尚未入樣的任何一個單元的概率都相等,直到抽足\(n\)個單元為止,這樣所得的\(n\)個單元組成一個簡單隨機樣本。
- 按照從總體的\(N\)個單元中抽取\(n\)個單元的所有可能不同的組合構造所有可能的\(C_N^n\)個樣本,從\(C_{N}^n\)個樣本隨機抽取一個樣本,使每個樣本被抽到的概率都等於\(1/C_{N}^n\)。
抽樣比:\(f=n/N\)。
簡單估計量
研究對象:關於總體變量\(Y\)的\(N\)個變量值記為\(Y_1,\cdots,Y_N\),則總體均值和總體總值為
\[\bar Y=\frac{1}{N}\sum_{i=1}^N Y_i,\quad Y=\sum_{i=1}^N Y_i. \]
簡單估計量:從總體中抽取\(n\)個樣本的值記為\(y_1,\cdots,y_n\),則
\[\hat {\bar Y}=\bar y=\frac{1}{n}\sum_{i=1}^n y_i,\quad \hat Y=N\bar y=\frac{N}{n}\sum_{i=1}^n y_i. \]
為了研究比例和比率,進行\(0-1\)變換,即令
\[Y_i=\left\{\begin{array}l 1,& 總體中第i個單元具有所研究的特征;\\ 0,& 總體中第i個單元不具有所研究的特征. \end{array}\right. \]
此時
\[A=\sum_{i=1}^N Y_i,\quad P=\frac{A}{N}=\bar Y,\quad R=\frac{\bar Y}{\bar X},\\ \hat P=p=\frac{a}{n}=\frac{1}{n}\sum_{i=1}^{n} y_i=\bar y=\hat{\bar Y},\quad \hat R=r=\frac{\bar y}{\bar x}. \]
事實上,簡單估計量的核心都是樣本均值,只是分別使用不同的處理手段得到其他的簡單估計量。
簡單估計量的性質
兩個簡單引理
引理:從大小為\(N\)的總體中抽取一個樣本量為\(n\)的簡單隨機樣本,則總體中每個特定單元入樣的概率為\(\dfrac{n}{N}\),兩個特定單元都入樣的概率為\(\dfrac{n(n-1)}{N(N-1)}\)。
引理:從總體規模為\(N\)的總體中抽取一個樣本量為\(n\)的簡單隨機樣本。若對總體中的每個單元\(Y_i\),引進\(a_i\)為\(Y_i\)入樣的示性變量,則
\[\mathbb{E}(a_i)=\frac{n}{N}=f,\\ \mathbb{D}(a_i)=\frac{n}{N}\cdot\frac{N-n}{N}=f(1-f),\\ \mathrm{cov}(a_i,a_j)=-\frac{n}{N(N-1)}\left(1-\frac{n}{N} \right)=-\frac{f(1-f)}{N-1}. \]
這里證明引理2的第三條結論。注意到
\[\mathrm{cov}(a_i,a_j)=\mathbb{E}(a_ia_j)-\mathbb{E}(a_i)\mathbb{E}(a_j),\\ \mathbb{P}(a_ia_j=1)=\frac{n(n-1)}{N(N-1)}=\mathbb{E}(a_ia_j), \]
所以
\[\mathrm{cov}(a_i,a_j)=\frac{n(n-1)}{N(N-1)}-\frac{n^2}{N^2}=\frac{Nn(n-1)-n^2(N-1)}{N^2(N-1)}=\frac{-n(N-n)}{N^2(N-1)}=-\frac{f(1-f)}{N-1}. \]
樣本均值的期望
定理:對於簡單隨機抽樣,作為\(\bar Y\)的簡單估計,\(\hat{\bar Y}=\bar y\)是無偏的,即
\[\mathbb{E}(\bar y)=\bar Y. \]
證明1:\(n\)個總體構成的樣本\(S_{(i)}\)一共有\(C_{N}^n\)個,對應的樣本均值\(\bar y_{(i)}\)也有\(C_{N}^n\)個,故
\[\mathbb{E}(\bar y)=\frac{1}{C_{N}^n}\sum_{i=1}^{C_{N}^n}\bar y_{(i)}=\frac{1}{nC_{N}^n}\sum_{i=1}^{C_{N}^n}(Y_{i_1}+\cdots+Y_{i_n}), \]
這里\(Y_{i_n}\)代表第\(S_{(i)}\)的第\(i\)個分量。考慮進入樣本的任意特定一個總體單元的變量值,包含此總體單元的所有可能樣本一共有\(C_{N-1}^{n-1}\)個,因而在求和號內會出現\(C_{N-1}^{n-1}\)次,這樣\(\displaystyle\sum_{i=1}^{C_{N}^n}(Y_{i_1}+\cdots+Y_{i_n})\)必定包含了每一個\(Y_i,i=1,\cdots,N\)各\(C_{N-1}^{n-1}\)次,從而
\[\mathbb{E}(\bar y)=\frac{1}{nC_N^n}\sum_{i=1}^NC_{N-1}^{n-1} Y_i=\frac{NC_{N-1}^{n-1} \bar Y}{nC_{N}^n}=\bar Y. \]
證明2(科恩菲爾德法):對總體中每個單元\(Y_i\)引入如引理2所說的示性變量\(a_i\),則\(\bar y\)可表達為
\[\bar y=\frac{1}{n}\sum_{i=1}^{N} a_iY_i, \]
這里\(Y_i,i=1,\cdots,N\)都是常數,所以
\[\mathbb{E}(\bar y)=\frac{1}{n}\sum_{i=1}^{N}Y_i\mathbb{E}(a_i)=\frac{1}{n}\frac{n}{N}\sum_{i=1}^{N}Y_i=\bar Y. \]
若干關於樣本均值的期望的推論:
-
對於簡單隨機抽樣,\(\hat Y=N\bar y\)的期望為
\[\mathbb{E}(\hat Y)=\mathbb{E}(N\bar y)=N\mathbb{E}(\bar y)=N\bar Y. \]
-
對於簡單隨機抽樣,\(\hat P=p\)的期望為
\[\mathbb{E}(p)=\mathbb{E}(\bar y)=\bar Y=P. \]
-
對於簡單隨機抽樣,\(n\)較大時,\(\hat R=r\)的期望為
\[\mathbb{E}(r)=\mathbb{E}\left(\frac{\bar{x}}{\bar{y}} \right)\approx\frac{\mathbb{E}(\bar x)}{\mathbb{E}(\bar y)}=\frac{\bar X}{\bar Y}=R. \]
這是依概率收斂的性質所導致的。
樣本均值的方差
在抽樣理論中,總體的方差通常定義為
\[S^2=\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar Y)^2. \]
定理:對於簡單隨機抽樣,\(\bar y\)的方差為
\[\mathbb{D}(\bar y)=\frac{1-f}{n}S^2. \]
稱\(1-f=\dfrac{N-n}{N}\)為有限總體校正系數。
利用科恩菲爾德法證明,有
\[\begin{aligned} \mathbb{D}(\bar y)&= \mathbb{D}\left(\frac{1}{n}\sum_{i=1}^{N}a_iY_i \right)\\ &=\frac{1}{n^2}\left[\sum_{i=1}^{N}Y_i^2\mathbb{D}(a_i)+2\sum_{i<j}Y_iY_j\mathrm{cov}(a_i,a_j) \right] \\ &=\frac{1}{n^2}\left[f(1-f)\sum_{i=1}^{N}Y_i^2-2\frac{f(1-f)}{N-1}\sum_{i<j}^{N}Y_iY_j \right]\\ &=\frac{1}{n^2}\frac{n}{N}(1-f)\left[\sum_{i=1}^{N}Y_i^2-2\frac{1}{N-1}\left(\sum_{i<j}^{N}Y_iY_j \right) \right]\\ &=\frac{1-f}{nN}\left[\frac{N}{N-1}\sum_{i=1}^{N}Y_i^2-\frac{1}{N-1}\left(\sum_{i=1}^{N}Y_i^2+2\sum_{i<j}^{N}Y_iY_j \right) \right]\\ &=\frac{1-f}{nN}\left[\frac{N}{N-1}\sum_{i=1}^{N}Y_i^2-\frac{1}{N-1}\left(\sum_{i=1}^{N}Y_i \right)^2 \right]\\ &=\frac{1-f}{n(N-1)}\left[\sum_{i=1}^{N}Y_i^2-N\left(\frac{1}{N}\sum_{i=1}^{N}Y_i \right)^2 \right]\\ &=\frac{1-f}{n(N-1)}\left[\sum_{i=1}^{N}Y_i^2-N\bar Y^2 \right]\\ &=\frac{1-f}{n}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar Y )^2\\ &=\frac{1-f}{n}S^2. \end{aligned} \]
注意到\(\mathbb{D}(\bar y)\)中含有\(S^2\)而\(S^2\)需要依據總體計算,所以\(\mathbb{D}(\bar y)\)在給定樣本量和總體量的情況下仍是未知的,可以對其進行估計,估計量就是\(\hat{\mathbb{D}}(\bar y)\)。
若干關於樣本均值方差的推論:
-
對於簡單隨機抽樣,\(\hat Y=N\bar y\)的方差為
\[\mathbb{D}(\hat Y)=N^2\mathbb{D}(\bar y)=N^2\frac{1-f}{n}S^2. \]
-
對於簡單隨機抽樣,\(\hat P=p\)的方差為
\[\mathbb{D}(p)=\frac{1-f}{n}\frac{1}{N-1}NP(1-P). \]
當\(Y_i\)為\(0-1\)變量,即研究對象為比例時,有
\[\begin{aligned} S^2& =\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar Y)^2 \\ & =\frac{1}{N-1}\sum_{i=1}^{N}(Y_i^2-2Y_i\bar Y+\bar Y^2) \\ & =\frac{1}{N-1}\left(\sum_{i=1}^{N}Y_i^2-2\bar Y\sum_{i=1}^{N} Y_i+N\bar Y^2 \right)\\ &\xlongequal[P=\bar Y]{\sum Y_i^2=\sum Y_i=NP} \frac{1}{N-1}(NP-2NP^2+NP^2)\\ &=\frac{1}{N-1}NP(1-P). \end{aligned} \]
樣本均值的協方差
對總體的兩個變量或指標\(Y,X\),設\((Y_i,X_i)\)是第\(i\)個單元的相應特征值,則總體協方差為
\[S_{yx}=\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar Y)(X_i-\bar X). \]
記抽樣的樣本均值為\(\bar y,\bar x\),總體均值為\(\bar Y,\bar X\),則定義\(\bar y\)和\(\bar x\)的協方差為
\[\mathrm{cov}(\bar y,\bar x)=\mathbb{E}(\bar y-\bar Y)(\bar x-\bar X). \]
定理:對於簡單隨機抽樣,有
\[\mathrm{cov}(\bar y,\bar x)=\frac{1-f}{n}S_{yx} \]
引入人工變量\(u_i=y_i+x_i\),記\(\bar u=\bar y+\bar x\),\(\bar U=\bar Y+\bar X\),則\(\mathbb{D}(\bar u)=\mathbb{D}(\bar x)+\mathbb{D}(\bar y)+2\mathrm{cov}(\bar x,\bar y)\),
\[\begin{aligned} \mathrm{cov}(\bar y,\bar x)&=\frac{1}{2}[\mathbb{D}(\bar u)-\mathbb{D}(\bar x)-\mathbb{D}(\bar y)] \\ &= \frac{1}{2}\frac{1-f}{n}(S_u^2-S_x^2-S_y^2)\\ &=\frac{1}{2}\frac{1-f}{n}\frac{1}{N-1}\left[\sum_{i=1}^{N}(Y_i+X_i-\bar Y-\bar X)^2-\sum_{i=1}^{N}(Y_i-\bar Y)^2-\sum_{i=1}^{N}(X_i-\bar X)^2 \right]\\ &= \frac{1}{2}\frac{1-f}{n}\frac{2}{N-1}\sum_{i=1}^{N}(Y_i-\bar Y)(X_i-\bar X)\\ &=\frac{1-f}{n}S_{yx}. \end{aligned} \]
方差與協方差的估計
樣本方差定義為
\[s^2=\frac{1}{n-1}\sum_{i=1}^{n}(y_i-\bar y)^2. \]
定理:簡單隨機樣本的方差\(s^2\)是總體方差\(S^2\)的無偏估計。
\[\begin{aligned} \mathbb{E}(s^2)&=\frac{1}{n-1}\mathbb{E}\left[\sum_{i=1}^{n}y_i^2-n\bar y^2 \right]\\ &=\frac{1}{n-1}\left[\mathbb{E}\left(\sum_{i=1}^{N}a_iY_i^2 \right)-n\mathbb{E}(\bar y^2) \right]\\ &=\frac{1}{n-1}\left\{f\sum_{i=1}^{N}Y_i^2-n\left[\mathbb{D}(\bar y)+(\mathbb{E}(\bar y))^2 \right] \right\}\\ &=\frac{1}{n-1}\left[\frac{n}{N}\sum_{i=1}^{N}Y_i^2-(1-f)S^2-n\bar Y^2 \right]\\ &=\frac{1}{n-1}\left[\frac{n}{N}\left(\sum_{i=1}^{N}Y_i^2-N\bar Y^2 \right)-(1-f)S^2 \right]\\ &=\frac{1}{n-1}\left[f(N-1)S^2-(1-f)S^2 \right]\\ &=\frac{1}{n-1}(fN-1)S^2\\ &=S^2. \end{aligned} \]
若干關於方差的推論:
- 對於簡單隨機抽樣,\(\hat {\mathbb{D}}(\bar y)=v(\bar y)=\dfrac{1-f}{n}s^2\)是\(\mathbb{D}(\bar y)\)的無偏估計。
- 對於簡單隨機抽樣,\(\hat{\mathbb{D}}(\hat Y)=v(N\bar y)=N^2\dfrac{1-f}{n}s^2\)是\(\mathbb{D}(\hat Y)\)的無偏估計。
- 對於簡單隨機抽樣,\(\hat{\mathbb{D}}(\hat P)=v(p)=v(\bar y_{0-1})=\dfrac{1-f}{n-1}p(1-p)\)是\(\mathbb{D}(\hat P)\)的無偏估計。
定理:簡單隨機樣本的協方差
\[s_{yx}=\frac{1}{n-1}\sum_{i=1}^{n}(y_i-\bar y)(x_i-\bar x) \]
是總體協方差\(S_{yx}\)的無偏估計。
證明完全類似,即
\[\begin{aligned} \mathbb{E}(s_{yx})&=\frac{1}{n-1}\mathbb{E}\left[\sum_{i=1}^{n}(y_i-\bar y)(x_i-\bar x) \right]\\ &=\frac{1}{n-1}\mathbb{E}\left[\sum_{i=1}^{n}(y_ix_i-\bar y\bar x) \right]\\ &=\frac{1}{n-1}\left\{\frac{n}{N}\sum_{i=1}^{N}Y_iX_i -n[\mathbb{E}(\bar y)\mathbb{E}(\bar x)+\mathrm{cov}(\bar y,\bar x) ] \right\}\\ &=\frac{1}{n-1}\left[\frac{n}{N}\sum_{i=1}^{N}Y_iX_i-n\bar Y\bar X-(1-f)S_{yx} \right]\\ &=\frac{1}{n-1}\left[f\sum_{i=1}^{N}(Y_i-\bar Y)(X_i-\bar X)-(1-f)S_{yx} \right]\\ &=\frac{1}{n-1}[f(N-1)-(1-f)]S_{yx}\\ &=S_{yx}. \end{aligned} \]
中心極限定理
由於簡單估計量都以樣本均值為核心,故根據中心極限定理,簡單估計量接近正態分布,即
\[\bar Y\to N\left(\mathbb{E}(\bar y),\sqrt{\mathbb{D}(\bar y)}\right) \]
用樣本調查值計算出\(\bar y\)和\(v(\bar y)\),然后進行如下替代:
\[\bar Y\stackrel{\approx}\to N\left(\bar y,\sqrt{v(\bar y)}\right) \]
置信水平為\(1-\alpha\)的置信區間為
\[\left[\bar y-z_{\alpha/2}\sqrt{\frac{1-f}{n}},\bar y+z_{\alpha/2}\sqrt{\frac{1-f}{n}} \right]. \]
比率估計量概述
比率估計量研究的是與調查變量高度相關的其他輔助變量,如果輔助變量信息質量較好,則利用這些信息有助於提高估計的精度,故簡單估計量不如比率估計量。
輔助變量的特點:
- 必須與主要變量高度相關。
- 輔助變量與主要變量之間的相關關系整體上相當穩定。
- 輔助變量的總體總值必須是已知的,或是易得的。
- 輔助變量的信息質量好,調查成本低。
主要變量的總體均值\(\bar Y\)的比率估計量為:
\[\hat{\bar Y}_{R}=\bar y_{R}=\bar X\frac{\bar y}{\bar x}=\frac{1}{N}X\hat {R}. \]
主要變量的總體總值\(Y\)的比率估計量為:
\[\hat Y_{R}=N\hat{\bar Y}_{R}=X\frac{\bar y}{\bar x}=X\hat R. \]
其核心都是\(\hat R=\dfrac{\bar y}{\bar x}\)。
比率估計量的性質
比率估計量的期望
引理:對於簡單隨機抽樣,\(n\)較大時,\(\hat {R}=r\)的期望為
\[\mathbb{E}(\hat R)=\mathbb{E}(r)\approx R. \]
即\(r\)不是\(R\)的無偏估計,但是是漸進無偏的。
漸進無偏性由樣本均值的一致性可得,當\(n\)充分大時,有\(\dfrac{\bar y}{\bar x}\approx\dfrac{\bar y}{\bar X}\),所以
\[\mathbb{E}(r)=\mathbb{E}\left(\frac{\bar y}{\bar x} \right)\approx\mathbb{E}\left(\frac{\bar y}{\bar X} \right)=\frac{\mathbb{E}(\bar y)}{\bar X}=\frac{\bar Y}{\bar X}=R. \]
推論:
-
對於簡單隨機抽樣,\(n\)較大時,\(\bar y_{R}\)的期望為
\[\mathbb{E}(\bar y_{R})\approx\bar XR=\bar Y. \]
-
對於簡單隨機抽樣,\(n\)較大時,\(\hat Y_{R}\)的期望為
\[\mathbb{E}(\hat Y_{R})=\mathbb{E}(N\bar y_{R})\approx N\bar Y=Y. \]
比率估計量的方差
引理:對於簡單隨機抽樣,\(n\)較大時,\(\hat R=r\)的方差為
\[\mathbb{D}(r)\approx\frac{1}{\bar X^2}\frac{1-f}{n}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-RX_i)^2. \]
由於\(\mathbb{E}(\hat R)\approx R\),所以\(\mathrm{MSE}(\hat R)\approx \mathbb{D}(\hat R)=\mathbb{E}(\hat R-R)^2\),而
\[\hat R-R=\frac{\bar y-R\bar x}{\bar x}, \]
所以當\(n\)足夠大時,\(\hat R-R\approx\dfrac{\bar y-R\bar x}{\bar X}\),故
\[\mathbb{E}(\hat R-R)\approx \mathbb{E}\left(\frac{\bar y-R\bar x}{\bar X} \right)=\frac{1}{\bar X}(\bar Y-R\bar X)=0,\\ \mathbb{E}(\hat R-R)^2\approx\frac{1}{\bar X^2}\mathbb{E}(\bar y-R\bar x)^2 \]
令\(G_i=Y_i-RX_i\),則\(\bar g=\bar y-R\bar x\),\(\bar G=0\),有
\[\mathbb{E}(\hat R-R)^2\approx \frac{1}{\bar X^2}\mathbb{E}(\bar g^2)=\frac{1}{\bar X^2}\mathbb{D}(\bar g),\\ \]
所以
\[\begin{aligned} \mathbb{D}(\hat R)&\approx \frac{1}{\bar X^2}\mathbb{D}(\bar g)\\ &=\frac{1}{\bar X^2}\frac{1-f}{n}\frac{1}{N-1}\sum_{i=1}^{N}(G_i-\bar G)^2\\ &=\frac{1}{\bar X^2}\frac{1-f}{n}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-RX_i)^2. \end{aligned} \]
推論:
-
對於簡單隨機抽樣,\(n\)較大時,\(\hat Y_{R}=N\bar y_{R}\)的方差為
\[\mathbb{D}(\hat Y_{R})\approx N^2\frac{1-f}{n}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-RX_i)^2. \]
-
對於簡單隨機抽樣,\(n\)較大時,\(\bar y_{R}\)的方差為
\[\mathbb{D}(\bar y_{R})\approx \frac{1-f}{n}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-RX_i)^2. \]
符號規定:用\(S_x^2,S_y^2\)分別表示\(X,Y\)的總體方差,\(S_{yx}\)表示\(Y,X\)的總體協方差,\(\rho=\dfrac{S_{yx}}{S_xS_{y}}=\dfrac{S_{yx}}{\sqrt{S_{y}^2S_{x}^2}}\)定義為\(Y,X\)的總體相關系數,再定義相對方差、相對協方差為
\[C_y^2=\frac{S_y^2}{\bar Y^2},\quad C_{x}^2=\frac{S_x^2}{\bar X^2},\quad C_{yx}=\frac{S_{yx}}{\bar Y\bar X}. \]
在引入這些符號后,有
\[\begin{aligned} & \quad \frac{1}{N-1}\sum_{i=1}^{N}(Y_i-RX_i)^2\\ &= \frac{1}{N-1}\sum_{i=1}^{N}[(Y_i-RX_i)-(\bar Y-R\bar X)]^2\\ &=\frac{1}{N-1}\sum_{i=1}^{N}[(Y_i-\bar Y)-R(X_i-\bar X)]^2 \\ &=\frac{1}{N-1}\sum_{i=1}^{N}\left[(Y_i-\bar Y)^2-2R(Y_i-\bar Y)(X_i-\bar X)+R^2(X_i-\bar X)^2 \right]\\ &=S_y^2-2RS_{yx}+R^2S_{x^2}\\ &=\bar Y^2(C_y^2-2C_{yx}+C_x^2). \end{aligned} \]
於是比率估計量的估計式可以簡化。
回歸估計量
如果\(Y\)和輔助變量\(X\)之間存在近似的線性關系,但該直線並不通過\(XY\)平面坐標原點,則最好構造\(Y\)對\(X\)的線性回歸關系進行估計。主要變量總體均值\(\bar Y\)的回歸估計量是
\[\bar y_{lr}=\bar y+\beta(\bar X-\bar x). \]
這里\(\beta=-\dfrac{\partial(\bar y_{lk})}{\partial(\bar x)}\)為回歸系數,表示主要變量相對輔助變量的變化率。
- \(\beta=0\)時,\(\bar y_{lr}=\bar y\),即簡單估計量。
- \(\beta = \dfrac{\bar y}{\bar x}\)時,\(\bar y_{lr}=\bar y_{R}\),即比率估計量。
- \(\beta=1\)時,\(\bar y_{lr}=\bar X+(\bar y-\bar x)\),稱為差估計量。
類似有總體總值的回歸估計量為\(\hat Y_{lr}=N\bar y_{lr}\)。
回歸估計量的性質
回歸系數已知
對於簡單隨機抽樣,如\(\beta\)為常數\(\beta_0\),則
\[\mathbb{E}(\bar y_{lr})=\bar Y,\\ \mathbb{D}(\bar y_{lr})=\frac{1-f}{n}(S_y^2 - 2\beta S_{yx} + \beta_0^2S_x^2). \]
為使回歸估計量的精度最高,即\(\mathbb{D}(\bar y_{lr})\)最小,應有
\[\beta_0=B=\frac{S_{yx}}{S_x^2}=\rho\frac{S_{y}}{S_{x}}. \]
此時有
\[\min \mathbb{D}(\bar y_{lr})=\frac{1-f}{n}S_y^2(1-\rho^2). \]
回歸系數未知
對於簡單隨機抽樣,如果\(\beta\)未知,需要通過樣本進行估計,則一般選擇最小二乘估計,取
\[b=\frac{S_{yx}}{S_{x}^2}=\frac{\sum_{i=1}^{n}(y_i-\bar y)(x_i-\bar x)}{\sum_{i=1}^{n}(x_i-\bar x)^2},\\ \bar y_{lr}=\bar y+b(\bar X-\bar x). \]
此時,當\(n\)足夠大時,有
\[\mathbb{E}(\bar y_{lr})\approx \bar Y,\\ \mathbb{D}(\bar y_{lr})\approx \mathrm{MSE}(\bar y_{lr})\approx \frac{1-f}{n}S^2(1-\rho^2). \]
抽樣的設置
確定樣本大小:一般利用絕對誤差限來替代抽樣誤差,即置信度為\(1-\alpha\)時,
\[\mathbb{P}(|\bar y-\bar Y|\le d)=1-\alpha\Rightarrow \mathbb{P}\left(\frac{|\bar y-\bar Y|}{\sqrt{\mathbb{D}(\bar y)}}\le \frac{d}{\sqrt{\mathbb{D}(\bar y)}} \right)=1-\alpha,\\ \Downarrow \\ z_{\alpha/2}=\frac{d}{\sqrt{\mathbb{D}(\bar y)}},\quad \mathbb{D}(\bar y)=\frac{d^2}{z^2_{\alpha/2}}. \]
由於\(\mathbb{D}(\bar y)=\dfrac{1-f}{n}S^2=\left(\dfrac{1}{n}-\dfrac{1}{N} \right)S^2\),所以
\[\frac{1}{n}=\frac{1}{N}+\frac{d^2}{z_{\alpha/2}^2S^2}. \]
要確定樣本量,應遵循以下的步驟:
-
確定估計精度水平,包括誤差限\(d\)和置信度\(1-\alpha\),由此得到分位數\(z_{\alpha/2}\)。
-
按照保守原則(樣本容量寧大勿小),實施對總體方差\(S^2\)的預估。可以使用以下方法預估\(S^2\):
- 利用以前的調查結果和經驗;
- 利用預調查或試調查的結果;
- 利用同類或相似或有關的二手數據結果;
- 利用某些理論上的結論;
- 利用有經驗的專家的判斷。
-
確定初始樣本量為
\[n_0=\frac{1}{\dfrac{1}{N}+\dfrac{d^2}{z_{\alpha/2}^2S^2}}. \]
-
確定抽樣方式,並根據不同抽樣方式的設計效應\(\mathrm{deff}\)對樣本容量進行調整:
\[n_1=n_0\times \mathrm{deff}. \]
設計效應:任意抽樣方式下的抽樣方差除以簡單隨機抽樣方式下的抽樣方差的商,簡單隨機抽樣的\(\mathrm{deff}=1\)。
-
判定有效回答率\(r\),並根據有效回答率對樣本容量進行再調整:
\[n_2=\frac{n_1}{r}. \]
-
附加考慮。
習題
2.3,2.4,2.5,2.7,2.9,2.10