數理統計4:均勻分布的參數估計,次序統計量的分布,Beta分布


接下來我們就對除了正態分布以外的常用參數分布族進行參數估計,具體對連續型分布有指數分布、均勻分布,對離散型分布有二項分布、泊松分布幾何分布。

今天的主要內容是均勻分布的參數估計,內容比較簡單,讀者應嘗試一邊閱讀,一邊獨立推導出本文的結論。由於本系列為我獨自完成的,缺少審閱,如果有任何錯誤,歡迎在評論區中指出,謝謝

Part 1:均勻分布的參數估計

一般說來,離散分布似乎比連續分布好討論一些,但是對於參數估計問題,由於我們此前接觸的正態分布是連續的,具有樣本聯合密度函數,所以大家也許對具有聯合密度的分布會更熟悉。

對於均勻分布\(U(a,b)\),它有兩個參數:下界和上界。為找到其充分統計量,需寫出其樣本聯合密度,不妨先寫出總體密度:

\[f_1(x)=\frac{1}{b-a}I_{a<x<b}, \]

注意,要討論均勻分布的密度,示性函數是必不可少的(不過在討論分布函數時倒往往不用示性函數,希望你在實踐中能知道為什么),否則會給結論的得出造成障礙。接下來是聯合密度函數:

\[\begin{aligned} f(\boldsymbol{x})&=\frac{1}{(b-a)^n}I_{a<x_1<b}\cdots I_{a<x_n<b}\\ &=\frac{1}{(b-a)^n}I_{a<x_{(1)}<x_{(n)}<b}. \end{aligned} \]

這里的關鍵技巧在於,把\(n\)個條件\(I_{a<x_i<b}\)整合成

\[I_{a<x_{(1)}<x_{(n)}<b}, \]

這樣就將\(n\)個樣本壓縮成兩個關鍵的統計量\(X_{(1)},X_{(n)}\),從而由因子分解定理,\((X_{(1)},X_{(n)})\)\((a,b)\)的充分統計量,因此對\(a,b\)的估計,就是對\((X_{(1)},X_{(n)})\)作調整,使之成為\(a,b\)的估計量。

對均勻分布的表示方法還有一種:\(U(a,a+r)\)\(r>0\)。這種表示往往不關心\(a\)的值,而只是關心均勻分布的區間有多廣。這種形式下,樣本的聯合密度函數是

\[f(\boldsymbol{x})=\frac{1}{r^n}I_{x_{(n)}-x_{(1)}<r}\cdot I_{a<x_{(1)}}. \]

由因子分解定理,此時樣本極差\(R=R(\boldsymbol{X})=X_{(n)}-X_{(1)}\)\(r\)的充分統計量。

現在是無偏調整環節,為了使參數估計量是無偏的,就得求\(X_{(1)}\)\(X_{(n)}\)的期望,因此不可避免地需要討論它們的分布。對於一般的次序統計量我們還沒有求過分布,但是樣本最小、最大值的分布,在概率論里已經討論過(不過當時可能大家都沒記吧),只要用邏輯關系就可以得出。

不過,次序統計量終究是比較重要的,它的分布值得單獨說一下。因此,我們先討論一般情況下次序統計量的分布,再具體到均勻分布,得出\(a,b\)的無偏估計量。

Part 2:次序統計量

先給出次序統計量的定義,雖然大家可能都已經很明確了:如果\(X_1,\cdots,X_n\)是來自總體\(X\sim F\)的簡單隨機樣本,按大小順序排列為\(X_{(1)}\le \cdots \le X_{(n)}\)后,\((X_{(1)},\cdots,X_{(n)})\)為樣本的次序統計量。

必須明白的是,次序統計量也是統計量,而且是一個\(n\)維隨機向量,只是我們一般研究的是其中一兩個向量的邊際分布。並且,\(X_{(1)}\)\(X_1\)的分布肯定是不同的,這是因為加上了次序性以后,隨機向量內部出現了結構,從而改變了分布。下面是對\(U(0,1)\)中抽樣的1000次模擬,每一次模擬樣本容量為5,兩圖分別是\(X_1\)的分布與\(X_{(1)}\)的分布。

rm(list = ls())
x <- c()
xmin <- c()
for (i in 1:1000){
  u01 <- runif(5)
  x[i] <- u01[1]
  xmin[i] <- sort(u01)[1]
}

split.screen(c(1, 2))

screen(1)
hist(x, main = "X1的分布")

screen(2)
hist(xmin, main = "最小值的分布")
Rplot01

現在,對一般的分布函數\(F\)\(X_1,\cdots,X_n\stackrel{\mathrm{i.i.d.}}\sim F\),我們來探討次序統計量\(X_{(k)}\)的密度\((1\le k\le n)\),記此密度為\(p_{k}(x)\)。求次序統計量的密度函數,最好采用一種微元的處理方式,即

\[p_k(x)=F_k'(x)=\lim_{\Delta x\to 0}\frac{F_k(x+\Delta x)-F_k(x)}{\Delta x}, \]

單獨分析極限以內的部分,\(F_k(x+\Delta x)-F_k(x)\)意味着\(X_{(k)}\)落在\(x\)\(x+\Delta x\)之間,這相當於\(n\)個樣本中,有\(k-1\)個落在\(x\)之前,\(n-k\)個落在\(x+\Delta x\)之后,剩下一個剛好落在區間內。由於各個樣本之間出現概率是均等的,所以考慮到輪換性,可以考慮\(X_1,\cdots,X_{k-1}<x\)\(X_{k+1},\cdots,X_n>x+\Delta x\),恰好有\(X_k\in[x,x+\Delta x]\),再乘上\(C_{n}^{k-1}C_{n-k+1}^{n-k}\)即可。所以

\[\quad F_k(x+\Delta x)-F_k(x)=C_{n}^{k-1}C_{n-k+1}^1[F(x)]^{k-1}[1-F(x+\Delta x)]^{n-k}[F(x+\Delta x)-F(x)], \]

而恰好

\[\lim_{\Delta x\to 0}\frac{F(x+\Delta x)-F(x)}{\Delta x}=p(x), \]

所以代回\(p_k(x)\),有

\[p_k(x)=n!p(x)\cdot\frac{[F(x)]^{k-1}}{(k-1)!}\frac{[1-F(x)]^{n-k}}{(n-k)!}. \]

這就得到了\(X_{(k)}\)的密度。特別代入\(k=1\)\(k=n\)時,有

\[p_1(x)=n[1-F(x)]^{n-1}p(x)\Rightarrow F_1(x)=1-[1-F(x)]^n;\\ p_n(x)=n[F(x)]^{n-1}p(x)\Rightarrow F_n(x)=[F(x)]^n. \]

之前我們在討論最小值、最大值的分布時,總是從邏輯關系先得出分布函數,再求導得出密度函數;這里的思路卻剛好相反,先導出密度函數,再積分得到分布函數。

采用這種微元的思想,導出任意個次序統計量的聯合分布也很簡單。考慮兩個次序統計量\((X_{(k)},X_{(l)})\)的分布且假定\(k\le l\),則同理有

\[p_{k,l}(x,y)=\lim_{\Delta x\to 0 \\ \Delta y\to 0}\frac{F(x+\Delta x,y+\Delta y)-F(x,y)}{\Delta x\Delta y}. \]

分子也可以看成有\(k-1\)個位於\(x\)之前,\(l-k-1\)個位於\(x,y\)之間,\(n-l\)個位於\(y\)之后,但這里還要注意\(x<y\)。所以通過相似的計算,可以得出

\[p_{k,l}(x,y)=n!p(x)p(y)\cdot\frac{[F(x)]^{k-1}}{(k-1)!}\cdot\frac{[F(y)-F(x)]^{l-k-1}}{(l-k-1)!}\cdot \frac{[1-F(y)]^{n-l}}{(n-l)!}I_{x<y}. \]

注意到次序統計量密度函數的規律性的話,應該很容易背出它的形式,而不需要每次都推導一遍。

應當注意到,將樣本的取值范圍通過\(x,y,\cdots\)分成若干截,按照次序統計量的特性將樣本分配到每個點、每個區間上,每個區間的樣本數量對應着當前段取值的概率,也對應着樣本在區間內部的輪換可能性。

本段只是次序統計量記憶的一個技巧,具體細節可以由讀者自己完善。

一般研究到兩個樣本的邊際分布就完全夠用了,具體的數字特征還有賴於具體的分布函數來計算,不過既然我們研究的是均勻分布,就用均勻分布來討論一下好了。

Part 3:均勻分布次序統計量與\(\beta\)分布

我們不需要討論任何均勻分布\(U(a,b)\),只需要討論其中的代表:\(U(0,1)\),這是因為如果\(U\sim U(0,1)\),則\((b-a)U+a\sim U(a,b)\)(請讀者自己嘗試證明這一點,不要想得太復雜哦)。

\(U(0,1)\)的分布函數\(F(x)\)和密度函數\(p(x)\)分別是

\[p(x)=I_{0<x<1},\\ F(x)=x,\quad (0\le x\le 1). \]

所以\(X_{(k)}\)的密度函數代入計算,是

\[p_k(x)=n!\frac{x^{k-1}}{(k-1)!}\frac{(1-x)^{n-k}}{(n-k)!}I_{0<x<1}=\frac{\Gamma(n+1)}{\Gamma(k)\Gamma(n-k+1)}x^{k-1}(1-x)^{n-k+1-1}I_{0<x<1}. \]

前面那個分數,恰好是歐拉函數中的\(\beta\)函數的倒數

\[\beta(k,n-k+1)=\frac{\Gamma(k)\Gamma(n-k+1)}{\Gamma(n+1)}, \]

因此有

\[p_k(x)=\frac{1}{\beta(k,n-k+1)}x^{k-1}(1-x)^{n-k+1-1}I_{0<x<1}. \]

暫時你可能不會對這個形式的密度函數有很大的觸動,但是以后我們會經常跟這個密度函數打交道,我們稱之為\(\beta\)分布。形式上,\(\beta\)分布的支撐集\((0,1)\),即\(\beta\)分布只會在\((0,1)\)上取值,並且忽略其正則化常數后,剩下的部分呈現的形式是\(x^{a-1}(1-x)^{b-1}\),對這部分積分,可以得到

\[\int_{0}^{1}x^{a-1}(1-x)^{b-1}\mathrm{d}x=\beta(a,b). \]

現在,我們可以給出\(\beta\)分布的定義了:稱\(X\sim \beta(a,b)\),如果\(X\)具有如下的密度函數:

\[p(x)=\frac{1}{\beta(a,b)}x^{a-1}(1-x)^{b-1}. \]

可以看到,\(\beta\)分布最重要的特征就是,其(去掉正則化系數的剩余部分)是\(x\)\((1-x)\)的任意次方。

同時,我們可以得出一個重要結論:若\(X_{(k)}\)\(U(0,1)\)的第\(k\)個次序統計量,則

\[X_{(k)}\sim \beta(k, n-k+1). \]

下面是對\(U(0,1)\)抽取5個樣本時,\(X_{(2)}\)的分布模擬,藍色的是樣本分布,紅色的是理論分布。

rm(list = ls())
xmin <- c()
for (i in 1:10000){
  u01 <- runif(5)
  xmin[i] <- sort(u01)[2]
}
plot(density(xmin), main = "5樣本中X_{(2)}的分布", col = 'blue')  # 繪制核密度函數

y <- seq(0, 1, 0.0001)
beta24 <- dbeta(y, 2, 4)  # 繪制Beta(2, 4)的密度函數
lines(y, beta24, col = 'red')
Rplot

現討論\(\beta\)分布的數字特征,以便以后對\(X_{(1)},X_{(n)}\)作無偏調整。由於\(\beta\)分布核的特殊形式,其期望和方差都很好計算。設\(X\sim \beta(a,b)\),則

\[\begin{aligned} \mathbb{E}(X)&=\int_0^1 \frac{1}{\beta(a,b)}x^a(1-x)^{b-1}\mathrm{d}x\\ &=\frac{\beta(a+1,b)}{\beta(a,b)}\int_0^1\frac{1}{\beta(a+1,b)}x^{a+1-1}(1-x)^{b-1}\mathrm{d}x\\ &=\frac{\Gamma(a+1)\Gamma(b)/\Gamma(a+b+1)}{\Gamma(a)\Gamma(b)/\Gamma(a+b)}\\ &=\frac{a}{a+b}. \end{aligned} \]

這里第三個等號成立是因為積分內部是\(\beta(a+1,b)\)的密度函數,其完全積分為1。同理方差為

\[\begin{aligned} \mathbb{E}(X^2)&=\int_0^1\frac{1}{\beta(a,b)}x^{a+1}(1-x)^{b-1}\mathrm{d}x\\ &=\frac{\beta(a+2,b)}{\beta(a,b)}\\ &=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\frac{\Gamma(a+2)\Gamma(b)}{\Gamma(a+b+2)}\\ &=\frac{(a+1)a}{(a+b+1)(a+b)},\\ \mathbb{D}(X)&=\mathbb{E}(X^2)-[\mathbb{E}(X)]^2\\ &=\frac{a(a+1)}{(a+b+1)(a+b)}-\frac{a^2}{(a+b)^2}\\ &=\frac{a(a+1)(a+b)-a^2(a+b+1)}{(a+b+1)(a+b)^2}\\ &=\frac{ab}{(a+b+1)(a+b)^2}. \end{aligned} \]

具體到\(X_{(k)}\sim \beta(k,n-k+1)\),有

\[\mathbb{E}(X_{(k)})=\frac{k}{n+1},\quad \mathbb{D}(X_{(k)})=\frac{k(n-k+1)}{(n+1)^2(n+2)}\to 0. \]

特別對\(X_{(1)},X_{(k)}\),有

\[\mathbb{E}(X_{(1)})=\frac{1}{n+1},\quad \mathbb{E}(X_{(k)})=\frac{n}{n+1}. \]

對於\(U(a,b)\),其樣本最小值和最大值記作\(Y_{(1)}\)\(Y_{(n)}\),則有

\[Y_{(k)}=(b-a)X_{(k)}+a,\\ \mathbb{E}(Y_{(1)})=\frac{an+b}{n+1}\to a,\\ \mathbb{E}(Y_{(n)})=\frac{bn+a}{n+1}\to b. \]

所以對均勻分布而言,樣本最小值、樣本最大值分別是下界、上界的漸進無偏估計。由於其方差趨近於0,也容易證明,樣本最小值、樣本最大值是弱相合估計

現在討論總體極差的估計,在上面的討論中已經知道總體極差應當用樣本極差來估計。對於\(X\sim U(0,1)\),令\(R=X_{(n)}-X_{(1)}\),為討論其分布,需要作一個簡單變換:

\[U=X_{(1)},\\ V=X_{(n)}-X_{(1)}. \]

這個變換的Jacobi行列式絕對值為\(|J|=1\),所以

\[\begin{aligned} p(u,v)&=p_{1,n}(x_{(1)},x_{(n)}) \\ &=n(n-1)(x_{(n)}-x_{(1)})^{n-2}I_{0<x_{(1)}<x_{(n)}<1} \\ &=n(n-1)v^{n-2}I_{0<u<u+v<1}. \end{aligned} \]

欲求\(V\)的邊際分布,考慮積分范圍是\(u\in(0,1-v)\),所以

\[p_v(v)=I_{0<v<1}\int_0^{1-v} n(n-1)v^{n-2}\mathrm{d}u=n(n-1)(1-v)v^{n-2}I_{0<v<1}. \]

這就是\(R\)的密度函數:

\[p_R(x)=n(n-1)(1-x)x^{n-2}I_{0<x<1}, \]

求其期望,有

\[\begin{aligned} \mathbb{E}(R)&=n(n-1)\int_0^1 x(x^{n-2}-x^{n-1})\mathrm{d}x\\ &=n(n-1)\left(\frac{1}{n}-\frac{1}{n+1} \right)\\ &=\frac{n-1}{n+1}. \end{aligned} \]

\(Y_{(n)}-Y_{(1)}=(a+r-a)(X_{(n)}-X_{(1)})=rR\),所以

\[\mathbb{E}(Y_{(n)}-Y_{(1)})=\frac{r(n-1)}{n+1}\to r, \]

故樣本極差為\(r\)的漸進無偏估計,可以修正為無偏估計:

\[R_n^*=\frac{n+1}{n-1}r. \]

對下表中每個\(n\)進行10000次\(U(3,8)\)模擬,得到樣本極差的均值如下:

\(n\) 5 10 15 20 30 40 50 100 200
\(\mathrm{mean}(R_n)\) 3.3475 4.0927 4.3769 4.5258 4.6764 4.7538 4.8055 4.9024 4.9505
\(\mathbb{E}(R_n)\) 3.3333 4.0909 4.3750 4.5238 4.6774 4.7561 4.8039 4.9010 4.9502
rm(list = ls())
nlst <- c(5, 10, 15, 20, 30, 40, 50, 100, 200)
meanlst <- c()
for (j in 1:9){
  R <- c()
  for (i in 1:10000){
    minmax <- range(runif(nlst[j], 3, 8))
    R[i] <- minmax[2] - minmax[1]
  }
  meanlst[j] <- mean(R)
}

meanlst

最后,我們繞了一個大圈,還沒有說今天的結論呢。既然今天我們的主要目標是對\(U(a,b)\)進行參數估計,我們有以下的結論:

  1. 對於均勻分布\(U(a,b)\)\((X_{(1)},X_{(n)})\)\((a,b)\)的充分統計量。
  2. \(X_{(1)}\)\(a\)的漸進無偏估計,\(X_{(n)}\)\(b\)的漸進無偏估計。總有\(\mathbb{E}(X_{(1)})>a,\mathbb{E}(X_{(n)})<b\)
  3. 樣本極差是總體極差的漸進無偏估計,總有\(\mathbb{E}(R)<b-a\)

這些估計量的有偏性來源往往很直觀,因為不管如何抽取,樣本都不可能比\(a\)小,比\(b\)大,所以無論抽取次數多少,\(X_{(1)}\)的支撐總在\(a\)的右側,\(X_{(n)}\)的支撐總在\(b\)的左側,所以期望必定不是\(a,b\)。極差也同理,不管抽取次數多少,期望總是小於實際極差的。

思考:能不能利用\((X_{(1)},X_{(n)})\)給出\(a,b\)的無偏估計量?

此外,我們今天還認識了一個非常重要的分布:\(\beta\)分布。如果\(X\sim \beta(a,b)\),則其密度函數為

\[p_X(x)=\frac{1}{\beta(a,b)}x^{a-1}(1-x)^{b-1}I_{0<x<1}. \]

它的特點是:支撐集為\((0,1)\),核為\(x^k(1-x)^l\)。特別地,我們指出如果\(X_1,\cdots,X_n\)是來自\(U(0,1)\)的簡單隨機樣本,則

\[X_{(k)}\sim \beta(k,n-k+1). \]


今天我們花了大量的篇幅討論均勻分布的點估計問題,明天我們就轉向另一個連續分布:指數分布。同時,明天我們將看到另一個歐拉函數導出的分布:\(\Gamma\)分布。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM