數理統計5:指數分布的參數估計,Gamma分布,Gamma分布與其他分布的聯系


今天的主角是指數分布,由此導出\(\Gamma\)分布,同樣,讀者應嘗試一邊閱讀,一邊獨立推導出本文的結論。由於本系列為我獨自完成的,缺少審閱,如果有任何錯誤,歡迎在評論區中指出,謝謝

Part 1:指數分布的參數估計

指數分布是單參數分布族,總體\(X\sim E(\lambda)\)有時也記作\(\mathrm{Exp}(\lambda)\),此時的總體密度函數為

\[f(x)=\lambda e^{-\lambda x}I_{x>0}. \]

現尋找其充分統計量,樣本聯合密度函數為

\[\begin{aligned} f(\boldsymbol{x})&=\lambda^n\exp\left\{-\lambda\sum_{j=1}^n x_j \right\}I_{x_1>0}\cdots I_{x_n>0}\\ &=\lambda^ne^{-n\lambda \bar x}I_{x_{(1)}>0}, \end{aligned} \]

由因子分解定理,取

\[g(\bar x,\lambda)=\lambda^ne^{-n\lambda \bar x},\quad h(\boldsymbol{x})=I_{x_{(1)}>0}, \]

可以得到\(\bar X\)\(\lambda\)的充分統計量。但是指數分布的參數並非均值,而是均值的倒數,所以對\(\bar X\)也有

\[\mathbb{E}(\bar X)=\mathbb{E}(X)=\frac{1}{\lambda}. \]

注意,千萬不要想當然地認為期望和一般的函數之間是可交換的,即一般來說\(\mathbb{E}[f(X)]\ne f[\mathbb{E}(X)]\),所以你不能認為\(\bar X^{-1}\)就是\(\lambda\)的無偏估計量。

每到此時,我就想舉對數正態分布的例子:\(X\sim N(0,\sigma^2)\),求\(e^{X}\)的期望。顯然有

\[\begin{aligned} \mathbb{E}(e^{X})&=\int_{-\infty}^\infty e^x\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left\{-\frac{x^2}{2\sigma^2} \right\}\mathrm{d}x\\ &=\int_{-\infty}^\infty \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left\{-\frac{x^2-2\sigma^2x}{2\sigma^2} \right\}\mathrm{d}x\\ &=e^{\frac{\sigma^2}{2}}\int_{-\infty}^\infty \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left\{-\frac{(x-\sigma^2)^2}{2\sigma^2} \right\}\mathrm{d}x\\ &=e^{\frac{\sigma^2}{2}}. \end{aligned} \]

最后一個等號處,積分是\(N(\sigma^2,\sigma^2)\)的密度函數全積分為1。這說明

\[\mathbb{E}(e^{X})=e^{\frac{\sigma^2}{2}}\ne 1=e^{\mathbb{E}(X)}. \]

同樣,也能告訴我們股票的波動率越大,期望收益也越大

但是,用\(\bar X^{-1}\)總是有一定道理的,至少在量級上保持了跟待估參數的一致性。如果我們要進行無偏調整,則需要求出\(\bar X\)的具體密度。不妨設\(T=\sum_{j=1}^n X_j\),則\(T=n\bar X\),如果我們能求出\(T\)的分布,也一樣能得出\(\bar X^{-1}\)的期望。

Part 2:獨立同分布指數分布之和與\(\Gamma\)分布

為求\(T\)的分布,引入一個Jacobi行列式為1的線性變換:

\[\left\{\begin{array}l Y_{1} = X_{1}, \\ Y_{2}=X_{2},\\ \vdots \\ Y_{n-1}=X_{n-1}, \\ Y_{n}=X_{1}+\cdots+ X_{n}. \end{array}\right. \]

\((Y_{1},\cdots,Y_{n})\)的聯合密度函數為

\[\begin{aligned} f_{Y}(\boldsymbol{y})&=f_X(y_{1},\cdots,y_{n-1},y_n-y_{n-1}-\cdots-y_1)\\ &=\lambda^n\exp\left\{-\lambda\left[\sum_{j=1}^{n-1}y_j+\left(y_n-\sum_{j=1}^{n-1}y_j \right) \right] \right\}I_{y_1>0}\cdots I_{y_{n-1}>0}I_{y_n>\sum_{j=1}^{n-1}y_j}\\ &=\lambda^n e^{-\lambda y_n}I_{y_1>0}\cdots I_{y_{n-1}>0}I_{y_n>\sum_{j=1}^{n-1}y_j}. \end{aligned} \]

接下來要依次對\(y_1,\cdots,y_{n-1}\)作積分,為方便計,記

\[\mathcal B_k=y_n-\sum_{j=k}^{n-1}y_j,\quad k=1,2,\cdots,n-1,\\ \mathcal B_{k+1}-\mathcal B_{k}=y_k. \]

現在,\(y_1\)的積分范圍是\((0,y_n-y_{n-1}-\cdots-y_2)=(0,\mathcal B_2)\),即

\[f_{Y_2,\cdots,Y_n}(y_2,\cdots,y_n)=\lambda^ne^{-\lambda y_n}\mathcal B_2I_{y_2>0}\cdots I_{y_{n-1}>0}I_{\mathcal B_2>0}. \]

再對\(y_2\)積分,其積分范圍是\((0,\mathcal B_3)\),即

\[\begin{aligned} &\quad f_{Y_3,\cdots,Y_n}(y_3,\cdots,y_n)\\ &=\lambda ^ne^{-\lambda y_n}\int_{0}^{\mathcal B_3}\mathcal B_2\mathrm{d}y_2\\ &=\lambda^ne^{-\lambda y_n}\int_0^{\mathcal B_3}(\mathcal B_3-y_2)\mathrm{d}y_2\\ &=\lambda^n e^{-\lambda y_n}\cdot\frac{\mathcal B_3^2}{2}I_{y_3>0}\cdots I_{y_{n-1}>0}I_{\mathcal B_3>0}. \end{aligned} \]

繼續下去的步驟就很機械了,對\(y_3\)積分時積分范圍是\((0,\mathcal B_4)\),所以

\[\begin{aligned} &\quad f_{Y_4,\cdots,Y_n}(y_4,\cdots,y_n)\\ &=\frac{1}{2}\lambda^n e^{-\lambda y_n}\int_0^{\mathcal B_4}[\mathcal B_4-y_3]^2\mathrm{d}y_3\\ &=\frac{1}{2}\lambda^n e^{-\lambda y_n}\int_0^{\mathcal B_4}[\mathcal B_4-y_3]^2\mathrm{d}(\mathcal B_4-y_3)\\ &=\frac{1}{2\cdot 3}\lambda^n e^{-\lambda y_n}\mathcal B_4^3I_{y_4>0}\cdots I_{y_{n-1}>0}I_{\mathcal B_4>0}. \end{aligned} \]

將這個過程一直進行下去,容易得到

\[f_{Y_{n-1},Y_n}(y_{n-1},y_n)=\frac{1}{(n-2)!}\lambda^ne^{-\lambda y_n}\mathcal B_{n-1}^{n-2}I_{y_{n-1}>0}I_{y_n>y_{n-1}}, \]

進行最后一次積分就能得到\(T\)的密度函數為

\[f_T(x)=\frac{1}{(n-1)!}\lambda^ne^{-\lambda x}x^{n-1}. \]

這里有一個稍微有點耍賴的技巧。如果你不想一個個積分,而又記住了指數分布和的密度函數形式,則可以用數學歸納法驗證指數分布和的密度函數恰有如此的形式。

讀者可以自行用數學歸納法計算一遍,這個計算量是比較小的。

同樣,我們以后會經常跟這個密度函數打交道。因為階乘只適用於整數,將其解析延拓到\(\mathbb{R}^+\)上有\((n-1)!=\Gamma(n)\),注意到其核為\(e^{-\lambda x}x^{n-1}\),對於任意\(n>0,\lambda >0\),有

\[\int_0^{\infty}e^{-\lambda x}x^{n-1}\mathrm{d}x=\int_0^{\infty}\frac{1}{\lambda^n}e^{-\lambda x}(\lambda x)^{n-1}\mathrm{d}(\lambda x)=\frac{\Gamma(n)}{\lambda ^n}, \]

所以其正則化因子為\(\frac{\lambda^n}{\Gamma(n)}\)。現在我們可以正式給出\(\Gamma\)分布的定義:稱\(X\sim\Gamma(n,\lambda)\),如果\(X\)具有如下的密度函數:

\[p(x)=\frac{\lambda^n}{\Gamma(n)}x^{n-1}e^{-\lambda x}. \]

\(n\)為整數時,\(\Gamma(n)=(n-1)!\)。同時,我們得到一個重要結論:若\(X_1,\cdots,X_n\stackrel{\mathrm{i.i.d.}}\sim E(\lambda)\),則

\[T=\sum_{j=1}^n X_j\sim \Gamma(n,\lambda). \]

Tlst <- c()
for (i in 1:100000){
  Tlst[i] <- sum(rexp(5, 3))  # T為5個E(3)樣本之和
}

plot(density(Tlst), main = "T的樣本密度", col = "blue", xlim = c(0, 6))
xlst <- seq(0, 6, 0.00001)
ylst <- dgamma(xlst, 5, 3)
lines(xlst, ylst, col = "red")
Rplot

由於\(\Gamma\)分布核函數的特點,其期望和方差也是容易求出的。現設\(X\sim \Gamma(n)\),則

\[\mathbb{E}(X)=\int_0^{\infty}\frac{\lambda^n}{\Gamma(n)}x^ne^{-\lambda x}\mathrm{d}x=\frac{\Gamma(n+1)}{\lambda\Gamma(n)}\int_0^{\infty}\frac{\lambda^{n+1}}{\Gamma(n+1)}x^{n+1-1}e^{-\lambda x}\mathrm{d}x=\frac{n}{\lambda}. \]

這說明\(n\)越大\(X\)的期望越大,\(\lambda\)越大\(X\)的期望越小,如果將其視為獨立指數分布的和也能得到這個結論。

\[\mathbb{E}(X^2)=\frac{\Gamma(n+2)}{\lambda^2\Gamma(n)}=\frac{n(n+1)}{\lambda^2},\\ \mathbb{D}(X)=\mathbb{E}(X^2)-[\mathbb{E}(X)]^2=\frac{n}{\lambda^2}. \]

現在回到正題,計算指數分布均值倒數\(\bar X^{-1}\)的期望,先計算\(T^{-1}\)的期望,容易計算得到

\[\mathbb{E}(T^{-1})=\int_0^{\infty}\frac{\lambda ^n}{\Gamma(n)}x^{n-2}e^{-\lambda x}\mathrm{d}x=\frac{\lambda\Gamma(n-1)}{\Gamma(n)}=\frac{\lambda}{n-1}, \]

因此自然有

\[\mathbb{E}\left(\frac{1}{\bar X} \right)=\mathbb{E}\left(\frac{n}{T} \right)=\frac{\lambda n}{n-1}. \]

因此,\(\bar X^{-1}\)只是\(\lambda\)漸進無偏估計,可以對它經過無偏處理得到無偏估計:

\[\hat\lambda(\boldsymbol{X})=\frac{n-1}{n\bar X}. \]

下面進行\(\hat \lambda\)的有偏估計、無偏估計的模擬計算,從指數分布\(E(2)\)中抽樣。為了體現出區別,圖中的每一個點都是100個估計量的平均值。

rm(list = ls())
unbiased_estimator <- c()
biased_estimator <- c()
for (j in 1:100){
  meanlst <- c()
  for (i in 1:100){
    samples <- rexp(10, 2)  # 每次產生10個樣本計算均值
    meanlst[i] <- 1/mean(samples)
  }
  biased_estimator[j] <- mean(meanlst)
  unbiased_estimator[j] <- 9/10*biased_estimator[j]
}

split.screen(c(1, 2))
screen(1)
plot(biased_estimator, main = "有偏估計", ylim = c(1.5, 2.5))
abline(h = 2, col = "blue")

screen(2)
plot(unbiased_estimator, main = "無偏估計", ylim = c(1.5, 2.5))
abline(h = 2, col = "blue")
Rplot01

Part 3:\(\Gamma\)分布與其他分布

\(\Gamma\)分布與許多分布具有緊密的聯系(中心極限定理這種與正態分布的聯系就不說了)。與指數分布的聯系是顯然的:\(\Gamma(1,\lambda)\)就是\(E(\lambda)\),這點從上面的推導可以得出。

需要注意一點:指數分布的參數是其尺度參數。什么意思呢?對於\(X\sim E(\lambda)\),它的分布函數是\(F(x)=1-e^{-\lambda x}\),對其作伸縮變換\(aX\),有

\[F_{aX}(x)=\mathbb{P}(aX<x)=F\left(\frac{x}{a} \right)=1- e^{-\frac{\lambda x}{a}}, \]

對比\(F(x)\)的形式,發現\(aX\sim E(\lambda /a)\),這就代表伸縮變換不改變指數分布的性質,所以說指數分布的參數是其尺度參數。既然\(\Gamma\)分布是指數分布的直接推廣,則\(\Gamma\)分布也具有這樣的性質:若\(X\sim \Gamma(n,\lambda)\),則

\[aX\sim \Gamma\left(n,\frac{\lambda }{a} \right). \]

這樣的變換不改變數量參數\(n\),這也是指數分布中得到的直接推廣結論。

還記得正態分布的衍生分布——\(\chi^2(n)\)分布嗎?之前,因為卡方分布的密度函數過於復雜,不好記憶,所以我們跳過了,但了解過\(\Gamma\)分布的密度函數后再回看卡方分布,就會有一種熟悉感。

對於\(X\sim \chi^2(n)\),其密度函數為

\[p(x)=\frac{1}{2^{n/2}\Gamma(n/2)}x^{\frac{n}{2}-1}e^{-\frac{x}{2}}, \]

可以看到,它的核剛好是\(e^{-x}\)的某次方,乘以\(x\)的某次方形式,前面的正則化系數由核決定,因此,\(\chi^2(n)\)分布本質上也是\(\Gamma\)分布的一種特例,即

\[X\sim \Gamma\left(\frac{n}{2},\frac{1}{2} \right). \]

這樣,再記憶\(\chi^2(n)\)分布的密度函數就會顯得容易一些了。另外,如果\(2n\)是整數,也可以通過\(\Gamma\)分布的伸縮變換將其變成卡方分布:

\[X\sim \Gamma(n,\lambda)\Rightarrow 2\lambda X\sim \Gamma\left(n,\frac{1}{2} \right)=\chi^2(2n),\\ X\sim E(\lambda)\Rightarrow 2\lambda X\sim \chi^2(2). \]

最后,由於我們接下來要進入離散分布的參數估計,在這里也給出一個\(\Gamma\)分布與泊松分布的聯系,這個聯系在隨機過程中會發揮一定的作用,其證明在數理統計中倒不是特別重要。

\(N\)定義為滿足下列條件的\(n\)值:\(X_1,X_2,\cdots\stackrel{\mathrm{i.i.d.}}\sim E(\lambda)\)

\[\sum_{j=1}^n X_j\le 1<\sum_{j=1}^{n+1}X_j \]

\(N\sim P(\lambda)\)

下面給出這個定理的證明,其中的思想可以學習。

\(\sum_{j=1}^k X_j\)的密度函數為\(p_k(x)\),則由於\(\sum _{j=1}^k X_j\sim \Gamma(k,\lambda)\),所以

\[p_k(x)=\frac{\lambda^k}{\Gamma(n)}x^{k-1}e^{-\lambda x}. \]

由全概率公式(連續形式),

\[\begin{aligned} &\quad \mathbb{P}(N=k)\\ &=\mathbb{P}\left(\sum_{j=1}^kX_i\le 1,\sum_{j=1}^{k+1}X_i>1 \right)\\ &=\int_0^1\mathbb{P}\left(\sum_{j=1}^{k+1} X_j>1\bigg|\sum_{j=1}^k X_i=x \right)p_k(x)\mathrm{d}x\\ &=\int_0^1\mathbb{P}(X_{k+1}>1-x)p_k(x)\mathbb{d}x\\ &=\int_0^1e^{-\lambda {(1-x)}}\frac{\lambda^k}{(k-1)!}x^{k-1}e^{-\lambda x}\mathrm{d}x\\ &=\frac{\lambda^k e^{-\lambda}}{(k-1)!}\int_0^1 x^{k-1}\mathrm{d}x\\ &=\frac{\lambda^k}{k!}e^{-\lambda}. \end{aligned} \]

這是泊松分布的分布列,故\(N\sim P(\lambda)\)


在上面兩篇文章中,將連續分布的點估計進行了詳細的討論,並引出了次序統計量的分布,介紹了\(\Gamma\)分布與\(\beta\)分布。接下來,我們將轉向離散型分布的參數點估計,看看離散形式下因子分解定理應當如何使用。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM