今天的主角是指數分布,由此導出\(\Gamma\)分布,同樣,讀者應嘗試一邊閱讀,一邊獨立推導出本文的結論。由於本系列為我獨自完成的,缺少審閱,如果有任何錯誤,歡迎在評論區中指出,謝謝!
Part 1:指數分布的參數估計
指數分布是單參數分布族,總體\(X\sim E(\lambda)\)有時也記作\(\mathrm{Exp}(\lambda)\),此時的總體密度函數為
現尋找其充分統計量,樣本聯合密度函數為
由因子分解定理,取
可以得到\(\bar X\)是\(\lambda\)的充分統計量。但是指數分布的參數並非均值,而是均值的倒數,所以對\(\bar X\)也有
注意,千萬不要想當然地認為期望和一般的函數之間是可交換的,即一般來說\(\mathbb{E}[f(X)]\ne f[\mathbb{E}(X)]\),所以你不能認為\(\bar X^{-1}\)就是\(\lambda\)的無偏估計量。
每到此時,我就想舉對數正態分布的例子:\(X\sim N(0,\sigma^2)\),求\(e^{X}\)的期望。顯然有
\[\begin{aligned} \mathbb{E}(e^{X})&=\int_{-\infty}^\infty e^x\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left\{-\frac{x^2}{2\sigma^2} \right\}\mathrm{d}x\\ &=\int_{-\infty}^\infty \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left\{-\frac{x^2-2\sigma^2x}{2\sigma^2} \right\}\mathrm{d}x\\ &=e^{\frac{\sigma^2}{2}}\int_{-\infty}^\infty \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left\{-\frac{(x-\sigma^2)^2}{2\sigma^2} \right\}\mathrm{d}x\\ &=e^{\frac{\sigma^2}{2}}. \end{aligned} \]最后一個等號處,積分是\(N(\sigma^2,\sigma^2)\)的密度函數全積分為1。這說明
\[\mathbb{E}(e^{X})=e^{\frac{\sigma^2}{2}}\ne 1=e^{\mathbb{E}(X)}. \]
同樣,也能告訴我們股票的波動率越大,期望收益也越大。
但是,用\(\bar X^{-1}\)總是有一定道理的,至少在量級上保持了跟待估參數的一致性。如果我們要進行無偏調整,則需要求出\(\bar X\)的具體密度。不妨設\(T=\sum_{j=1}^n X_j\),則\(T=n\bar X\),如果我們能求出\(T\)的分布,也一樣能得出\(\bar X^{-1}\)的期望。
Part 2:獨立同分布指數分布之和與\(\Gamma\)分布
為求\(T\)的分布,引入一個Jacobi行列式為1的線性變換:
則\((Y_{1},\cdots,Y_{n})\)的聯合密度函數為
接下來要依次對\(y_1,\cdots,y_{n-1}\)作積分,為方便計,記
現在,\(y_1\)的積分范圍是\((0,y_n-y_{n-1}-\cdots-y_2)=(0,\mathcal B_2)\),即
再對\(y_2\)積分,其積分范圍是\((0,\mathcal B_3)\),即
繼續下去的步驟就很機械了,對\(y_3\)積分時積分范圍是\((0,\mathcal B_4)\),所以
將這個過程一直進行下去,容易得到
進行最后一次積分就能得到\(T\)的密度函數為
這里有一個稍微有點耍賴的技巧。如果你不想一個個積分,而又記住了指數分布和的密度函數形式,則可以用數學歸納法驗證指數分布和的密度函數恰有如此的形式。
讀者可以自行用數學歸納法計算一遍,這個計算量是比較小的。
同樣,我們以后會經常跟這個密度函數打交道。因為階乘只適用於整數,將其解析延拓到\(\mathbb{R}^+\)上有\((n-1)!=\Gamma(n)\),注意到其核為\(e^{-\lambda x}x^{n-1}\),對於任意\(n>0,\lambda >0\),有
所以其正則化因子為\(\frac{\lambda^n}{\Gamma(n)}\)。現在我們可以正式給出\(\Gamma\)分布的定義:稱\(X\sim\Gamma(n,\lambda)\),如果\(X\)具有如下的密度函數:
當\(n\)為整數時,\(\Gamma(n)=(n-1)!\)。同時,我們得到一個重要結論:若\(X_1,\cdots,X_n\stackrel{\mathrm{i.i.d.}}\sim E(\lambda)\),則
Tlst <- c()
for (i in 1:100000){
Tlst[i] <- sum(rexp(5, 3)) # T為5個E(3)樣本之和
}
plot(density(Tlst), main = "T的樣本密度", col = "blue", xlim = c(0, 6))
xlst <- seq(0, 6, 0.00001)
ylst <- dgamma(xlst, 5, 3)
lines(xlst, ylst, col = "red")

由於\(\Gamma\)分布核函數的特點,其期望和方差也是容易求出的。現設\(X\sim \Gamma(n)\),則
這說明\(n\)越大\(X\)的期望越大,\(\lambda\)越大\(X\)的期望越小,如果將其視為獨立指數分布的和也能得到這個結論。
現在回到正題,計算指數分布均值倒數\(\bar X^{-1}\)的期望,先計算\(T^{-1}\)的期望,容易計算得到
因此自然有
因此,\(\bar X^{-1}\)只是\(\lambda\)的漸進無偏估計,可以對它經過無偏處理得到無偏估計:
下面進行\(\hat \lambda\)的有偏估計、無偏估計的模擬計算,從指數分布\(E(2)\)中抽樣。為了體現出區別,圖中的每一個點都是100個估計量的平均值。
rm(list = ls())
unbiased_estimator <- c()
biased_estimator <- c()
for (j in 1:100){
meanlst <- c()
for (i in 1:100){
samples <- rexp(10, 2) # 每次產生10個樣本計算均值
meanlst[i] <- 1/mean(samples)
}
biased_estimator[j] <- mean(meanlst)
unbiased_estimator[j] <- 9/10*biased_estimator[j]
}
split.screen(c(1, 2))
screen(1)
plot(biased_estimator, main = "有偏估計", ylim = c(1.5, 2.5))
abline(h = 2, col = "blue")
screen(2)
plot(unbiased_estimator, main = "無偏估計", ylim = c(1.5, 2.5))
abline(h = 2, col = "blue")

Part 3:\(\Gamma\)分布與其他分布
\(\Gamma\)分布與許多分布具有緊密的聯系(中心極限定理這種與正態分布的聯系就不說了)。與指數分布的聯系是顯然的:\(\Gamma(1,\lambda)\)就是\(E(\lambda)\),這點從上面的推導可以得出。
需要注意一點:指數分布的參數是其尺度參數。什么意思呢?對於\(X\sim E(\lambda)\),它的分布函數是\(F(x)=1-e^{-\lambda x}\),對其作伸縮變換\(aX\),有
對比\(F(x)\)的形式,發現\(aX\sim E(\lambda /a)\),這就代表伸縮變換不改變指數分布的性質,所以說指數分布的參數是其尺度參數。既然\(\Gamma\)分布是指數分布的直接推廣,則\(\Gamma\)分布也具有這樣的性質:若\(X\sim \Gamma(n,\lambda)\),則
這樣的變換不改變數量參數\(n\),這也是指數分布中得到的直接推廣結論。
還記得正態分布的衍生分布——\(\chi^2(n)\)分布嗎?之前,因為卡方分布的密度函數過於復雜,不好記憶,所以我們跳過了,但了解過\(\Gamma\)分布的密度函數后再回看卡方分布,就會有一種熟悉感。
對於\(X\sim \chi^2(n)\),其密度函數為
可以看到,它的核剛好是\(e^{-x}\)的某次方,乘以\(x\)的某次方形式,前面的正則化系數由核決定,因此,\(\chi^2(n)\)分布本質上也是\(\Gamma\)分布的一種特例,即
這樣,再記憶\(\chi^2(n)\)分布的密度函數就會顯得容易一些了。另外,如果\(2n\)是整數,也可以通過\(\Gamma\)分布的伸縮變換將其變成卡方分布:
最后,由於我們接下來要進入離散分布的參數估計,在這里也給出一個\(\Gamma\)分布與泊松分布的聯系,這個聯系在隨機過程中會發揮一定的作用,其證明在數理統計中倒不是特別重要。
若\(N\)定義為滿足下列條件的\(n\)值:\(X_1,X_2,\cdots\stackrel{\mathrm{i.i.d.}}\sim E(\lambda)\),
則\(N\sim P(\lambda)\)。
下面給出這個定理的證明,其中的思想可以學習。
設\(\sum_{j=1}^k X_j\)的密度函數為\(p_k(x)\),則由於\(\sum _{j=1}^k X_j\sim \Gamma(k,\lambda)\),所以
\[p_k(x)=\frac{\lambda^k}{\Gamma(n)}x^{k-1}e^{-\lambda x}. \]由全概率公式(連續形式),
\[\begin{aligned} &\quad \mathbb{P}(N=k)\\ &=\mathbb{P}\left(\sum_{j=1}^kX_i\le 1,\sum_{j=1}^{k+1}X_i>1 \right)\\ &=\int_0^1\mathbb{P}\left(\sum_{j=1}^{k+1} X_j>1\bigg|\sum_{j=1}^k X_i=x \right)p_k(x)\mathrm{d}x\\ &=\int_0^1\mathbb{P}(X_{k+1}>1-x)p_k(x)\mathbb{d}x\\ &=\int_0^1e^{-\lambda {(1-x)}}\frac{\lambda^k}{(k-1)!}x^{k-1}e^{-\lambda x}\mathrm{d}x\\ &=\frac{\lambda^k e^{-\lambda}}{(k-1)!}\int_0^1 x^{k-1}\mathrm{d}x\\ &=\frac{\lambda^k}{k!}e^{-\lambda}. \end{aligned} \]這是泊松分布的分布列,故\(N\sim P(\lambda)\)。
在上面兩篇文章中,將連續分布的點估計進行了詳細的討論,並引出了次序統計量的分布,介紹了\(\Gamma\)分布與\(\beta\)分布。接下來,我們將轉向離散型分布的參數點估計,看看離散形式下因子分解定理應當如何使用。