數理統計3:充分統計量,因子分解定理,點估計的評判標准


上一章的末尾提到,我們應當選擇全部的樣本來進行參數估計,而不是只選擇部分的樣本。那么什么叫做選擇全部的樣本呢?它的定義標准是什么?這就是今天要探討的充分統計量問題。由於本系列為我獨自完成的,缺少審閱,如果有任何錯誤,歡迎在評論區中指出,謝謝

Part 1:充分統計量

對參數進行估計,要使用從樣本加工而來的統計量,這是一種對樣本的信息提取。但我們知道,加工在簡化信息結構的同時,肯定也丟失了一部分信息。要如何加工樣本,才能盡可能多地刪掉無用信息,保留盡可能多的有效信息——或者更進一步地,保留全部的有效信息呢?這需要我們對有效和無效作出定義上的區分。

眾所周知,信息是有效的還是無效的,取決於我們要使用信息來做什么。比如說想判斷第二天的氣溫來看看應該穿什么衣服,那么“明天會下雨”這個信息就是有效的,而“奧運會將在2021年開”這個信息就無效了。現在我們想要使用信息來對參數作估計,擁有的全部信息就是樣本觀測,要保留全部的有效信息,必須將樣本按一定方式加工成統計量。

充分統計量的定義就為此而生,它的定義是:對於統計量\(T=T(\boldsymbol{X})\),如果在已知\(T\)的條件下樣本\(\boldsymbol{X}\)的條件分布與待估參數\(\theta\)無關,則稱\(T(\boldsymbol{X})\)\(\theta\)的充分統計量。

這也就是說,如果給定了\(T\),則\(\boldsymbol{X}|T\)的聯合分布(聯合密度)中甚至不含有\(\theta\),自然不包含\(\theta\)的任何信息,因此在給定\(T\)的情況下再關注\(\boldsymbol{X}\)是沒有必要的。這就是充分性的由來。

我們貌似是第一次出現\(T=T(\boldsymbol{X})\)這種記法,但它應該不至於太陌生。事實上這里左右兩邊的\(T\)代表不一樣的意思,右邊的\(T\)是一個\(n\)元函數\(T(x_1,\cdots,x_n)\),而\(\boldsymbol{X}=(X_1,\cdots,X_n)\)就是它的取值,因此\(T(\boldsymbol{X})\)代表了一個樣本的函數,也就是一個統計量,這個統計量用\(T\)表示。

另外,別忘了樣本的兩重性,由於樣本\(\boldsymbol{X}\)在觀測前是一個\(n\)維隨機向量,所以必然有聯合密度函數,由此,條件分布也就可以理解了。

現在,我們來驗證正態分布的樣本均值是一個充分統計量,也就是要證明

\[f(X_1,\cdots,X_n|\bar X) \]

\(\theta\)無關。直接計算較為不便,我們在探究\(\bar X,S^2\)的分布時引入過一個正交變換\(\boldsymbol{Y}=A\boldsymbol{X}\),並且成功得出了\(Y_1=\sqrt{n}\bar X\)。由於正交變換是可逆的,所以\(\boldsymbol{X}\)\(\boldsymbol{Y}\)兩組樣本可相互轉換,沒有丟失任何信息。既然如此,我們只需要證明給定\(Y_1\)的情況下,\(\boldsymbol{Y}|Y_1\)的聯合分布與\(\mu\)是無關的即可。此時

\[Y_1\sim N(\sqrt{n}\mu,\sigma^2),\quad Y_i\sim N(0,\sigma^2). \]

又因為\(Y_1,\cdots,Y_n\)相互獨立,所以\(\boldsymbol{Y}\)的聯合密度為

\[f(\boldsymbol{y})=f_1(y_1)f_2(y_2)\cdots f_n(y_n),\\ \]

這里每一個\(f_i(y_i)\)\(Y_i\)的邊緣密度。於是條件密度為

\[f(\boldsymbol y|y_1)=\frac{f(\boldsymbol{y})}{f_1(y_1)}=f_2(y_2)\cdots f_n(y_n), \]

顯然\(f(\boldsymbol{y}|y_1)\)\(\mu\)無關,故\(Y_1\)\(\mu\)的充分統計量。

如果直接從\(\boldsymbol X\)的聯合密度入手,則不如從\(T=n\bar X\)入手,引入一個這樣的一一變換:

\[Y_1=X_1,\\ \vdots \\ Y_{n-1}=X_{n-1},\\ Y_n=X_1+X_2+\cdots+X_n. \]

這個變換的Jacobi行列式是\(|J|=1\)。要驗證\(Y_n\)對於\(\mu\)的充分性,只要求出

\[f_{\boldsymbol{Y}}(\boldsymbol y|y_n)=\frac{f_{\boldsymbol{Y}}(\boldsymbol{y})}{f_n(y_n)} \]

即可。計算過程較為繁瑣,這里就不寫了。

在上面引用塊中提到的一一變換構造法,可以用定義來驗證一個統計量是否是充分的。為作對比,我們也可以看一個非充分統計量:\(X_1\)。它的條件密度是

\[f(\boldsymbol x|x_1)=\frac{f(\boldsymbol x)}{f_1(x_1)}=f_2(x_2)\cdots f_n(x_n), \]

這里每一個\(f_i(x_i)\)\(X_i\)的邊緣密度。顯然,這個條件密度里含有\(\mu\),所以\(X_1\)不是\(\mu\)的充分統計量。

Part 2:因子分解定理

如果用定義驗證某個統計量是充分的,則一般要經歷以下幾個步驟:

  1. 構造一個一一變換,用目標統計量替代\(X_n\)
  2. 計算一一變換后的隨機向量的概率密度函數;
  3. 計算條件密度,觀察是否與待估參數有關。

這每一步,都可能具有很大的計算量,比如第一步要計算變換的Jacobi行列式,第二步要代入原聯合密度,第三步要計算條件密度。所以用定義來驗證某個統計量是否充分,是比較繁瑣的。

因子分解定理提供了一種驗證統計量是否充分的簡單方式,是一個十分重要的定理,其證明略顯復雜,可以跳過。定理內容是這樣的:

設樣本\(\boldsymbol{X}\)聯合密度函數或聯合分布列\(f(\boldsymbol{x},\theta)\)依賴於參數\(\theta\)\(T=T(\boldsymbol{X})\)是一個統計量,則\(T\)為充分統計量的充要條件\(f(\boldsymbol{x},\theta)\)可以分解為

\[f(\boldsymbol{x},\theta)=g(T(\boldsymbol{x}),\theta)h(\boldsymbol{x}). \]

這里要注意,是樣本的聯合密度函數或者聯合分布列,千萬別拿總體的密度就直接做了。這樣的分解形式,指的是樣本中跟\(\theta\)有關的部分都可以被打包成統計量\(T(X)\)的形式。具體到正態分布上,正態分布的聯合概率密度函數為

\[\begin{aligned} f(\boldsymbol{x})&=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^n\exp\left\{-\frac{1}{2\sigma^2}\sum_{j=1}^n(x_j-\mu)^2 \right\}\\ &=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^n\exp\left\{-\frac{\sum_{j=1}^n x_j^2-2\mu\sum_{j=1}^n x_j+n\mu^2}{2\sigma^2} \right\}\\ &=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^n\exp\left\{-\frac{\sum_{j=1}^n x_j^2+n\mu^2}{2\sigma^2} \right\}\exp\left(\frac{n\mu\bar x}{\sigma^2} \right)\\ &=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^ne^{-\frac{n\mu^2}{2\sigma^2}}\exp\left\{\frac{n\mu\bar x}{\sigma^2} \right\}\exp\left\{-\frac{1}{2\sigma^2}\sum_{j=1}^n x_j^2 \right\}. \end{aligned} \]

對參數\(\mu\)的估計問題,可以不用考慮\(\sigma^2\)(即視為已知常數),有如下分解:

\[g(t,\mu)=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^ne^{-\frac{n\mu^2}{\sigma^2}}e^{\frac{nt\mu}{\sigma^2}}, \\ h(\boldsymbol{x})=\exp\left\{-\frac{1}{2\sigma^2}\sum_{j=1}^nx_j^2 \right\}. \]

而對參數\(\sigma^2\)的估計問題,則需要考慮\(\mu\)是否已知,可以將\(f(\boldsymbol{x})\)作如下分解:

\[\begin{aligned} f(\boldsymbol{x})&=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^n\exp\left\{-\frac{1}{2\sigma^2}\sum_{j=1}^n(x_j-\bar x+\bar x-\mu)^2 \right\}\\ &=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^n\exp\left\{-\frac{(n-1)s^2-n(\bar x-\mu)^2}{2\sigma^2} \right\} \end{aligned} \]

此時待估參數為\((\mu,\sigma^2)\),取

\[g((s^2,\bar x),(\mu,\sigma^2))=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^n\exp\left\{\frac{n(\bar x-\mu)-(n-1)s^2}{2\sigma^2} \right\},\\ h(\boldsymbol{x})=1, \]

即可說明\((\bar X,S^2)\)\((\mu,\sigma^2)\)的充分統計量,注意此時的參數不止一個。

現在考慮一種特殊的情況:\(\mu\)已知的情況下\(\sigma^2\)的估計,我們會看到此時我們將不需要\(\bar x\)

\[f(\boldsymbol{x})=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^n\exp\left\{-\frac{1}{2\sigma^2}\sum_{j=1}^n(x_j-\mu)^2 \right\}, \]

\(Q=\sum_{j=1}^n (x_j-\mu)^2\),則\(f(\boldsymbol{x})\)自身已經是因子分解所需的形式,所以\(Q\)是充分統計量。

\(Q\)作無偏調整,事實上,

\[\frac{Q}{\sigma^2}\sim \chi^2(n), \]

所以

\[\mathbb{E}(Q)=n\sigma^2, \]

無偏調整后\(\sigma^2\)的無偏估計量應該是

\[\frac{Q}{n}=\frac{1}{n}\sum_{j=1}^n(x_j-\mu)^2. \]

容易證明它也是弱相合的。

總之,有了因子分解定理,我們可以用很小的計算量驗證某個統計量是充分統計量或不是。同時,因子分解定理更大的作用是,給我們提供了一種尋找充分統計量的方式。對於任何給定的分布,理論上都可以用因子分解定理找充分統計量,再進行一定的調整。

最后,需要指出的是,充分統計量的一一變換仍然是充分統計量,不僅局限於線性變換。用因子分解定理,這個結論是顯然的。

Part 3:好的點估計該是什么樣的

我們馬上要向着非正態分布,向着其他參數分布拓展了。所謂參數分布,就是其分布信息可以完全由有限個參數決定,我們只要用一定的統計量估計出這些個參數,將這些估計量的觀測值作為參數的估計。

理論上來說,一個參數可以用任何統計量來估計,比如剛才的方差,我們就在均值已知、未知的情況下提出了兩個不同的估計量:

\[\frac{Q}{n}=\frac{1}{n}\sum_{j=1}^n(X_j-\mu)^2,\quad S^2=\frac{1}{n-1}\sum_{j=1}^n(X_j-\bar X)^2. \]

為什么在均值已知的時候,我們就會選擇\(Q/n\)而不是\(S^2\)呢?事實上\(S^2\)依然是充分統計量。這就涉及到了統計量的評判問題。

以下是幾個常用的估計量評判准則,評價估計量時,一定要說明估計量所估計的參數\(\theta\)是什么。這里,我們假設\(\theta\)的點估計是\(\hat\theta=\hat\theta(\boldsymbol{X})\)

  1. 無偏性:如果\(\mathbb{E}(\hat\theta)=\theta\),則稱\(\hat\theta\)具有無偏性。
  2. 有效性:如果\(\mathbb{E}(\hat\theta_1)=\mathbb{E}(\hat\theta_2)=\theta\),但是\(\mathbb{D}(\hat\theta_1)\le \mathbb{D}(\hat\theta_2)\),且至少存在一個\(\theta\)使得不等號嚴格成立,則稱\(\hat\theta_1\)\(\hat\theta_2\)有效。
  3. 漸進無偏性:如果\(\mathbb{E}(\hat\theta)\ne \theta\)\(\mathbb{E}(\hat\theta)\to \theta(n\to \infty)\),則稱\(\hat\theta\)具有漸進無偏性。
  4. 相合性:如果\(\hat\theta\stackrel{P}\to \theta\),則稱\(\hat\theta\)具有弱相合性;如果\(\hat\theta\stackrel{\mathrm{a.s.}}\to\theta\),則稱\(\hat\theta\)具有強相合性。

可以看出,前兩個性質與樣本容量無關,稱為小樣本性質,后兩個性質與樣本容量有關,且需要樣本容量趨向於無窮大時才能體現出來,稱為大樣本性質

對於正態分布的\(\bar X\)\(S^2\),我們已經驗證過它們的無偏性與弱相合性,事實上對於\(\bar X\),由柯爾莫哥洛夫強大數定律,它是強相合於總體均值\(\mu\)的。而有效性,依賴於更多的知識,這里就不展開討論了。

柯爾莫哥洛夫強大數定律:設\(\{\xi_n\}\)是定義在概率空間\((\Omega,\mathscr F,\mathbb{P})\)上的獨立同分布隨機變量序列,且\(\mathbb{E}|\xi_1|<\infty\)。記\(\mathbb{E}(\xi_1)=\mu\),則

\[\frac{1}{n}\sum_{j=1}^n \xi_j\stackrel{\mathrm{a.s.}}\to\mu. \]


下一篇文章中,我們會運用因子分解定理對許多常見的參數分布作參數估計,為日后討論點估計的更多性質打下基礎。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM