數理統計13:非正態總體的區間估計,極限分布


上篇文章中,我們了解了樞軸量法,並用它處理了正態分布相關參數的區間估計。事實上,能給出正態分布參數較好形式的區間估計的原因,在於正態分布的點估計本身具有良好的性質——正態分布的可變換性、\(\chi^2\)分布的可加性、\(t\)分布和\(F\)分布具有分位數表、\(\bar X\)\(S^2\)相互獨立,等等。

本文,我們將探討其他分布的區間估計。由於本系列為我獨自完成的,缺少審閱,如果有任何錯誤,歡迎在評論區中指出,謝謝

Part 1:指數分布與均勻分布

我們現在討論的求區間估計的方法,都是基於良好點估計的。將這兩種分布單獨列出來,是因為其充分統計量:\(T=\sum_{j=1}^n X_j\)\((X_{(1)},X_{(n)})\)的分布容易求得,故試想可以通過和正態分布相似的方法,找出其置信區間。

對於指數分布\(E(\lambda)\),要求\(\lambda\)的區間估計,因為\(\bar X\)\(1/\lambda\)的UMVUE,所以\(\lambda\)的區間估計應當通過\(\bar X\)\(T\)予以一定的變化求得。由於\(T\sim \Gamma(n,\lambda)\),所以\(2\lambda T\sim \chi^2(2n)\),故\(2\lambda T\)是一個樞軸量,容易找到一個區間,以\(1-\alpha\)的概率包含\(2\lambda T\)的觀測值,取等尾區間即\(2\lambda T\in[\chi^2_{1-\alpha/2}(2n),\chi^2_{\alpha/2}(2n)]\),所以\(\lambda\)\(1-\alpha\)置信區間是

\[\left[\frac{\chi^2_{1-\alpha/2}(2n)}{2T},\frac{\chi^2_{\alpha/2}}{2T} \right]. \]

rm(list=ls())
dev.off()

n <- 100  # 樣本容量
lambda <- 5  # 指數分布的參數
l <- qchisq(0.025, df=2*n)
u <- qchisq(0.975, df=2*n)
upper.bound <- c()
lower.bound <- c()
for (j in 1:10000){
  sumx <- sum(rexp(n, rate = lambda))
  upper.bound[j] <- u / (2*sumx)
  lower.bound[j] <- l / (2*sumx)
}

plot(1:10000, rep(lambda, 10000), ylim = c(2, 8), cex=0.1)
points(1:10000, upper.bound, col = 'red', cex=0.1)
points(1:10000, lower.bound, col = 'blue', cex=0.1)
sum(upper.bound < lambda | lower.bound > lambda)

在10000個觀測值計算出的置信區間中,有502個區間沒有包含真值。

對於均勻分布\(U(0,\theta)\)\(X_{(n)}\)為其充分完備統計量,由LS定理,\(\theta\)的UMVUE為

\[\frac{n+1}{n}T. \]

所以\(\theta\)的區間估計應該用\(T\)表示。取樞軸量為

\[\frac{T}{\theta}\stackrel{d}=Y_{(n)}\sim \beta(n,1),\quad Y_1,\cdots,Y_n\stackrel{i.i.d.}\sim U(0,1). \]

故樞軸量的密度函數是

\[g(x)=nx^{n-1}I_{0<x<1},\\ \frac{\theta}{T}\sim p(x)=nx^{-(n+1)}I_{x>1}. \]

這里用到一個結論:隨機變量倒數的密度。可以簡單推導如下:若恆正隨機變量\(X\sim F(x),p(x)\),則

\[\mathbb{P}\left(\frac{1}{X}\le x \right)=\mathbb{P}\left(X\ge \frac{1}{x}\right)=1-F\left(\frac{1}{x} \right), \]

這里假設\(X\)是連續的,所以

\[p_{\frac{1}{X}}(x)=\frac{\mathrm{d}}{\mathrm{d}x}\left[1-F\left(\frac{1}{x} \right) \right]=p\left(\frac{1}{x} \right)\cdot\frac{1}{x^2}. \]

要找到一個區間以\(1-\alpha\)的概率包含\(\theta/T\)的觀測值,就是找到上界和下界\(1\le c<d\),使得

\[\mathbb{P}\left(c\le \frac{\theta}{T}\le d\right)=\mathbb{P}(cT\le \theta\le dT)= \int_c^dnx^{-(n+1)}\mathrm{d}x=\frac{1}{c^n}-\frac{1}{d^n}=1-\alpha, \]

關於如何選取這樣的\(c,d\),我們可以設\(d=c+l\),為了使得精度最高,轉化為這樣的規划問題:

\[\min l,\\ \text{s.t. }\frac{1}{c^n}-\frac{1}{(c+l)^n}=C. \]

由於\(1/x^n\)是減函數,所以應當盡可能讓\(c\)小,所以取\(c=1\)最佳,此時有\(d=\alpha^{-\frac{1}{n}}\),所以\(\theta\)的置信區間是

\[\left[T,\frac{T}{\sqrt[n]{\alpha}} \right]. \]

不過,並不是所有充分統計量都具有這么好的性質,對於離散型隨機變量,或者一些較為復雜的連續分布,UMVUE的分布也比較復雜,我們只能給出一個近似的區間估計。

Part 2:極限分布

極限分布是針對統計量而言的,大多數統計量一定會包含樣本容量\(n\)(否則充分多的抽樣就沒有意義),然而,當\(n\)具體等於某一個數\(n_0\)時,統計量的分布可能很復雜,不易求出。統計量的極限分布,指的是當樣本容量趨向於無窮時,統計量的分布如果會趨近一個確定的分布,就稱這個確定分布是該統計量的極限分布。

注意,極限分布與無窮是密不可分的,如果沒有趨於無窮的過程,則無論樣本容量\(n\)是多大,都不能稱為極限分布。同樣,隨着樣本容量的無限增大,統計量可能表現出一些性質,比如依概率收斂於某個點(即相合性)等等,這就被稱為大樣本性質,它也依賴於樣本大小趨於無窮的要求。

中心極限定理是用於理解極限分布的最好工具,它指出,如果某個總體\(X\)的期望\(\mu\)和方差\(\sigma^2\)存在,則從總體\(X\)中抽取的樣本\(\boldsymbol{X}=(X_1,\cdots,X_n)\)具有如下的性質:

\[\frac{\sqrt{n}(\bar X-\mu)}{\sigma}=\frac{\sum_{j=1}^n X_n-n\mu}{\sigma\sqrt{n}}\stackrel{d}\to N(0,1). \]

\(\sigma\)\(\mu\)均為已知量時,等式左邊的量是給定樣本就可以計算出的量,因而是統計量,如果將這個統計量記作\(T\),則隨着樣本容量的趨於無窮,\(T\)的分布會趨向於標准正態分布。

大數定律也是隨着樣本容量趨於無窮才會表現出來的性質,它指出,如果某個總體\(X\)的期望\(\mu\)存在,則從總體\(X\)種抽取的樣本\(\boldsymbol{X}=(X_1,\cdots,X_n)\)具有如下的性質:

\[\bar X=\frac{\sum_{j=1}^n X_j}{n}\stackrel{P}\to \mu. \]

不論\(\mu\)是否已知,\(\bar X\)均為統計量,因此單點分布\(\mu\)就是\(\bar X\)的極限分布。事實上,由中心極限定理可以知道\(\bar X\sim N(\mu,\sigma^2/n)\),隨着\(n\)趨向於無窮大,方差趨向於\(0\),自然就是單點分布。

柯爾莫哥洛夫強大數定律又將樣本均值對總體均值的收斂增強為幾乎必然的。

由於中心極限定理對分布族的約束很少,只要求其存在一階矩和二階矩,大數定律的約束則更少,因而它的應用很廣泛。我們還要提出Slutsky引理,這個定理將中心極限定理和大數定律聯系在一起。

Slutsky引理:令\(\{X_n\}\)\(\{Y_n\}\)是兩個隨機變量列,滿足\(n\to \infty\)\(X_n\stackrel{d}\to X\)\(Y_n\stackrel{P}\to c\),則有

  • \(X_n\pm Y_n\stackrel{d}\to X\pm c\)
  • \(X_nY_n\stackrel{d}\to cX\)
  • \(c\ne 0\),則\(X_n/Y_n\stackrel{d}\to X/c\)

我們將在接下來的部分中,給出Slutsky引理的應用。

Part 3:大樣本下的區間估計

對於一些小樣本下不好解決的區間估計問題,使用極限分布,就可以給出近似置信水平的區間估計。以下以二項分布和泊松分布為例。

首先是二項分布\(B(1,p)\)的參數\(p\),求其\(1-\alpha\)置信區間,如果利用\(T=\sum_{j=1}^n X_j\sim B(n,p)\)構造樞軸量會比較麻煩,因而考慮大樣本方法,使用中心極限定理、大數定律和Slutsky引理給出區間估計。

注意到

\[\frac{\sqrt{n}(\bar X-p)}{\sqrt{p(1-p)}}\stackrel{d}\to N(0,1),\quad \sqrt{\bar X(1-\bar X)}\stackrel{P}\to \sqrt{p(1-p)} \]

所以可以構建如下的樞軸量:

\[\frac{\sqrt{n}(\bar X-p)}{\sqrt{\bar X(1-\bar X)}}\stackrel{d}\to N(0,1). \]

於是,\(p\)\(1-\alpha\)置信區間就是

\[\left[\bar X-\sqrt{\frac{\bar X(1-\bar X)}{n}}u_{\alpha/2},\bar X+\sqrt{\frac{\bar X(1-\bar X)}{n}}u_{\alpha/2} \right]. \]

\(n=100\)\(p=0.4\)的情況下,10000個觀測區間有532個落入了所求的置信區間,置信區間的平均長度為\(0.191\)

Rplot

事實上,

\[\frac{\sqrt{n}(\bar X-p)}{\sqrt{p(1-p)}}\stackrel{d}\to N(0,1) \]

已經是一個樞軸量,並且從中可以反解出\(p\)\(\bar X\)之間的關系,只是比較復雜。書上給出了按照這種方式構造的置信區間為\([c_1,c_2]\)

\[c_1,c_2=\frac{n}{n+u_{\alpha/2}^2}\left[\bar X+\frac{u_{\alpha/2}^2}{2n}\pm u_{\alpha/2}\sqrt{\frac{\bar X(1-\bar X)}{n}+\frac{u_{\alpha/2}^2}{4n^2}} \right]. \]

不妨也用這個置信區間看看效果,在相同的參數下,有488個樣本觀測值生成的置信區間不包括參數真值,區間的平均長度是\(0.188\)。因此,這個置信區間的效果確實比二次近似的效果稍好,但是復雜得太多了。

再看泊松分布,設\(X\sim P(\lambda)\),則

\[\frac{\sqrt{n}(\bar X-\lambda)}{\sqrt{\lambda}}\stackrel{d}\to N(0,1), \]

同樣,這已經是一個樞軸量,但我們會使用Slutsky引理對其簡化,得到

\[\frac{\sqrt{n}(\bar X-\lambda)}{\sqrt{\bar X}}\stackrel{d}\to N(0,1), \]

所以\(\lambda\)\(1-\alpha\)置信區間為

\[\left[\bar X-\sqrt{\frac{\bar X}{n}}u_{\alpha/2},\bar X+\sqrt{\frac{\bar X}{n}}u_{\alpha/2} \right]. \]

更一般地,使用極限分布構造\(\theta\)的近似置信區間在很多情況下是可行的,這依賴於以下事實:\(\theta\)的極大似然估計\(\hat\theta_n\)有漸進正態分布:

\[\sqrt{\frac{n}{I(\theta)}}(\hat\theta_n-\theta)\stackrel{d}\to N(0,1). \]

這里\(I(\theta)\)是信息函數,即

\[I(\theta)=\mathbb{E}\left[\left(\frac{\partial \ln f(x;\theta)}{\partial\theta}\right)^2 \right]. \]

\(\sigma^2(\theta)=\frac{1}{I(\theta)}\),則由Slutsky引理,可以得到\(\theta\)\(1-\alpha\)置信區間為:

\[\left[\hat\theta_n-\frac{u_{\alpha/2}}{\sqrt{n}}\sigma(\hat\theta_n),\hat\theta_n+\frac{u_{\alpha/2}}{\sqrt{n}}\sigma(\hat\theta_n) \right]. \]

這是一個通用性的結論,但不是很有必要記憶,只需在遇到實際問題時知道極限分布的使用即可。

以上兩個例子中,\(p\)\(\lambda\)都是總體的均值,故中心極限定理會得出\(\bar X\)與參數的對稱形式。有時候,總體的均值並不顯式地體現在某些參數中,這就是非參數估計。現在給定一個分布\(F\),只知道其均值\(\mu\)和方差\(\sigma^2\)是存在的,要如何對總體均值\(\mu\)進行估計?一樣可以使用中心極限定理,由於

\[\frac{\sqrt{n}(\bar X-\mu)}{\sigma}\stackrel{d}\to N(0,1),\quad S^2\stackrel{P}\to \sigma^2, \]

這里\(\bar X\)\(S^2\)分別是樣本均值和樣本方差,所以

\[\frac{\sqrt{n}(\bar X-\mu)}{S}\stackrel{d}\to N(0,1). \]

於是可以給出\(\mu\)的近似\(1-\alpha\)置信區間為

\[\left[\bar X-\frac{S}{\sqrt{n}}u_{\alpha/2},\bar X+\frac{S}{\sqrt{n}}u_{\alpha/2} \right]. \]

柯西分布是一種特殊的參數分布,其分布族為

\[f(x;\theta)=\frac{1}{\pi[1+(x-\theta)^2]},\quad x\in\mathbb{R},\theta\in\mathbb{R}. \]

這里參數\(\theta\)是總體中位數。由於柯西分布不存在矩,故中心極限定理不再適用,這種情況下應當如何給出總體中位數的區間估計呢?令\(m_n\)\(\boldsymbol{X}=(X_1,\cdots,X_n)\)的樣本中位數,則顯然

\[m_n-\theta\stackrel{d}= \theta_0, \]

是一個樞軸量,這里\(\theta_0\)\(\theta=0\)時柯西分布的樣本中位數,與參數\(\theta\)無關。

這里,我們需要一個與樣本中位數相關的引理,設總體\(f\)的中位數是\(\xi\),即\(\int_{-\infty}^\xi f(x)\mathrm{d}x=0.5\),且\(\xi\)在以上積分定義下唯一,則對於樣本分位數\(m\),有

\[2\sqrt{n}f(\xi)(m-\xi)\stackrel{d}\to N(0,1). \]

在具體的柯西分布下,有

\[\frac{2\sqrt{n}}{\pi}(m_n-\theta)\stackrel{d}\to N(0,1), \]

於是\(\theta\)\(1-\alpha\)置信區間是

\[\left[m_n-\frac{\pi}{2\sqrt{n}}u_{\alpha/2},m_n+\frac{\pi}{2\sqrt{n}}u_{\alpha/2} \right]. \]


事實上,區間估計理論中還有Fisher的信仰推斷法,但這種方法的爭議尚未停止,我也不是很了解,所以在這里就跳過。從下一篇文章開始,我們就進入數理統計的另一個步驟:假設檢驗。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM