樣本既然是隨機變量, 就有一定的概率分布, 這個概率分布就叫作樣本分布. 樣本分布是樣本所受隨機性影響的最完整的描述.
要決定樣本分布, 就要根據觀察值的具體指標的性質 (這往往涉及有關的專業知識), 以及對抽樣方式和對試驗進行的方式的了解, 此外常常還必須加一些人為的假定
EX1:
一大批產品共有 \(N\) 個, 其中廢品 M 個, $N $已知, 而 M 未知. 現在從中抽出 \(n\) 個加以檢驗, 用以估計 M 或廢品率 \(p = \frac{M}{N}\)
(1) 有放回抽樣, 即每次抽樣后記下結果, 然后將其放回去, 再抽第二個, 直到抽完 $n $個為止. 求樣本分布.
(2) 不放回抽樣, 即一次抽一個, 依次抽取, 直到抽完 \(n\) 個為止.求樣本分布.
\(P\left(X_{i}=1\right)=M / N, P\left(X_{i}=0\right)=(N-M)/N\)
\(P\left(X_{1}=x_{1}, \cdots, X_{n}=x_{n}\right)=\left(\frac{M}{N}\right)^{a}\left(\frac{N-M}{N}\right)^{n-a}\)
\(x_1,\dots,x_n\)都為0或者1,\(\sum\limits_{i=1}^{n}x_i=a\)
采用不放回抽樣,
\(\sum\limits_{i=1}^{n}x_i=a\),\(x_1,\dots,x_n\)都為0或者1
\(P\left(X_{1}=x_{1}, X_{2}=x_{2}, \cdots, X_{n}=x_{n}\right)\)
\(=\underbrace{\frac{M}{N} \cdot \frac{M-1}{N-1} \cdots \frac{M-a+1}{N-a+1} }_{x_i=1}\cdot \underbrace{\frac{N-M}{N-a} \cdots \frac{N-M-n+a+1}{N-n+1}}_{x_i=0}\)
EX2:
為估計一物件的重量 a, 用一架天平將它重復稱 n 次, 結果記為\(X_{1}, \cdots, X_{n}\) , 求樣本\(X_{1}, \cdots, X_{n}\) 的聯合分布.
(1) 假定各次稱重是獨立進行的, 即某次稱重結果不受其它次稱重結果的影響. 這樣 \(X_{1}, \cdots, X_{n}\)就可以認為是相互獨立的隨機變量.
(2) 假定各次稱重是在 “相同條件” 下進行的, 可理解為每次用同一天平, 每次稱重由同一人操作, 且周圍環境 (如溫度、濕度等)都相同. 在這個假定下, 可認為 \(X_{1}, \cdots, X_{n}\) 是同分布的. 在上述兩個假定下, \(X_{1}, \cdots, X_{n}\) 是 n 個獨立同分布的隨機變量, 即為簡單隨機樣本.
由概率論中的中心極限定理可知這種誤差近似服從正態分布. 再假定天平沒有系統誤差, 則可進一步假定此誤差為均值為 0 的正態分布. 可以把X 1 (它可視為物重 a 加上稱量誤差之和) 的概率分布為 \(N\left(a, \sigma^{2}\right)\)
\(f\left(x_{1}, \cdots, x_{n}\right)=(\sqrt{2 \pi} \sigma)^{-n} \exp \left\{-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-a\right)^{2}\right\}\)
正態總體樣本均值和樣本方差的分布
設隨機變量\(X_{1}, \cdots, X_{n} i.i.d. \sim N\left(a, \sigma^{2}\right), \quad c_{1}, c_{2}, \cdots, c_{n}\)為常數
\(T=\sum\limits_{k=1}^{n} c_{k} X_{k} \sim N\left(a \sum_{k=1}^{n} c_{k}, \sigma^{2} \sum_{k=1}^{n} c_{k}^{2}\right)\)
\(c_{1}=\cdots=c_{n}=1 / n,T=\frac{1}{n} \sum_{i=1}^{n} X_{i}=\bar{X}\)
\(\bar{X} \sim N\left(a, \sigma^{2} / n\right)\)