上一章的末尾提到,我們應當選擇全部的樣本來進行參數估計,而不是只選擇部分的樣本。那么什么叫做選擇全部的樣本呢?它的定義標准是什么?這就是今天要探討的充分統計量問題。由於本系列為我獨自完成的,缺少審閱,如果有任何錯誤,歡迎在評論區中指出,謝謝!
Part 1:充分統計量
對參數進行估計,要使用從樣本加工而來的統計量,這是一種對樣本的信息提取。但我們知道,加工在簡化信息結構的同時,肯定也丟失了一部分信息。要如何加工樣本,才能盡可能多地刪掉無用信息,保留盡可能多的有效信息——或者更進一步地,保留全部的有效信息呢?這需要我們對有效和無效作出定義上的區分。
眾所周知,信息是有效的還是無效的,取決於我們要使用信息來做什么。比如說想判斷第二天的氣溫來看看應該穿什么衣服,那么“明天會下雨”這個信息就是有效的,而“奧運會將在2021年開”這個信息就無效了。現在我們想要使用信息來對參數作估計,擁有的全部信息就是樣本觀測,要保留全部的有效信息,必須將樣本按一定方式加工成統計量。
充分統計量的定義就為此而生,它的定義是:對於統計量\(T=T(\boldsymbol{X})\),如果在已知\(T\)的條件下樣本\(\boldsymbol{X}\)的條件分布與待估參數\(\theta\)無關,則稱\(T(\boldsymbol{X})\)是\(\theta\)的充分統計量。
這也就是說,如果給定了\(T\),則\(\boldsymbol{X}|T\)的聯合分布(聯合密度)中甚至不含有\(\theta\),自然不包含\(\theta\)的任何信息,因此在給定\(T\)的情況下再關注\(\boldsymbol{X}\)是沒有必要的。這就是充分性的由來。
我們貌似是第一次出現\(T=T(\boldsymbol{X})\)這種記法,但它應該不至於太陌生。事實上這里左右兩邊的\(T\)代表不一樣的意思,右邊的\(T\)是一個\(n\)元函數\(T(x_1,\cdots,x_n)\),而\(\boldsymbol{X}=(X_1,\cdots,X_n)\)就是它的取值,因此\(T(\boldsymbol{X})\)代表了一個樣本的函數,也就是一個統計量,這個統計量用\(T\)表示。
另外,別忘了樣本的兩重性,由於樣本\(\boldsymbol{X}\)在觀測前是一個\(n\)維隨機向量,所以必然有聯合密度函數,由此,條件分布也就可以理解了。
現在,我們來驗證正態分布的樣本均值是一個充分統計量,也就是要證明
與\(\theta\)無關。直接計算較為不便,我們在探究\(\bar X,S^2\)的分布時引入過一個正交變換\(\boldsymbol{Y}=A\boldsymbol{X}\),並且成功得出了\(Y_1=\sqrt{n}\bar X\)。由於正交變換是可逆的,所以\(\boldsymbol{X}\)和\(\boldsymbol{Y}\)兩組樣本可相互轉換,沒有丟失任何信息。既然如此,我們只需要證明給定\(Y_1\)的情況下,\(\boldsymbol{Y}|Y_1\)的聯合分布與\(\mu\)是無關的即可。此時
又因為\(Y_1,\cdots,Y_n\)相互獨立,所以\(\boldsymbol{Y}\)的聯合密度為
這里每一個\(f_i(y_i)\)是\(Y_i\)的邊緣密度。於是條件密度為
顯然\(f(\boldsymbol{y}|y_1)\)與\(\mu\)無關,故\(Y_1\)是\(\mu\)的充分統計量。
如果直接從\(\boldsymbol X\)的聯合密度入手,則不如從\(T=n\bar X\)入手,引入一個這樣的一一變換:
\[Y_1=X_1,\\ \vdots \\ Y_{n-1}=X_{n-1},\\ Y_n=X_1+X_2+\cdots+X_n. \]這個變換的Jacobi行列式是\(|J|=1\)。要驗證\(Y_n\)對於\(\mu\)的充分性,只要求出
\[f_{\boldsymbol{Y}}(\boldsymbol y|y_n)=\frac{f_{\boldsymbol{Y}}(\boldsymbol{y})}{f_n(y_n)} \]即可。計算過程較為繁瑣,這里就不寫了。
在上面引用塊中提到的一一變換構造法,可以用定義來驗證一個統計量是否是充分的。為作對比,我們也可以看一個非充分統計量:\(X_1\)。它的條件密度是
這里每一個\(f_i(x_i)\)是\(X_i\)的邊緣密度。顯然,這個條件密度里含有\(\mu\),所以\(X_1\)不是\(\mu\)的充分統計量。
Part 2:因子分解定理
如果用定義驗證某個統計量是充分的,則一般要經歷以下幾個步驟:
- 構造一個一一變換,用目標統計量替代\(X_n\);
- 計算一一變換后的隨機向量的概率密度函數;
- 計算條件密度,觀察是否與待估參數有關。
這每一步,都可能具有很大的計算量,比如第一步要計算變換的Jacobi行列式,第二步要代入原聯合密度,第三步要計算條件密度。所以用定義來驗證某個統計量是否充分,是比較繁瑣的。
因子分解定理提供了一種驗證統計量是否充分的簡單方式,是一個十分重要的定理,其證明略顯復雜,可以跳過。定理內容是這樣的:
設樣本\(\boldsymbol{X}\)的聯合密度函數或聯合分布列\(f(\boldsymbol{x},\theta)\)依賴於參數\(\theta\),\(T=T(\boldsymbol{X})\)是一個統計量,則\(T\)為充分統計量的充要條件是\(f(\boldsymbol{x},\theta)\)可以分解為
這里要注意,是樣本的聯合密度函數或者聯合分布列,千萬別拿總體的密度就直接做了。這樣的分解形式,指的是樣本中跟\(\theta\)有關的部分都可以被打包成統計量\(T(X)\)的形式。具體到正態分布上,正態分布的聯合概率密度函數為
對參數\(\mu\)的估計問題,可以不用考慮\(\sigma^2\)(即視為已知常數),有如下分解:
而對參數\(\sigma^2\)的估計問題,則需要考慮\(\mu\)是否已知,可以將\(f(\boldsymbol{x})\)作如下分解:
此時待估參數為\((\mu,\sigma^2)\),取
即可說明\((\bar X,S^2)\)是\((\mu,\sigma^2)\)的充分統計量,注意此時的參數不止一個。
現在考慮一種特殊的情況:\(\mu\)已知的情況下\(\sigma^2\)的估計,我們會看到此時我們將不需要\(\bar x\)。
\[f(\boldsymbol{x})=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^n\exp\left\{-\frac{1}{2\sigma^2}\sum_{j=1}^n(x_j-\mu)^2 \right\}, \]令\(Q=\sum_{j=1}^n (x_j-\mu)^2\),則\(f(\boldsymbol{x})\)自身已經是因子分解所需的形式,所以\(Q\)是充分統計量。
對\(Q\)作無偏調整,事實上,
\[\frac{Q}{\sigma^2}\sim \chi^2(n), \]所以
\[\mathbb{E}(Q)=n\sigma^2, \]無偏調整后\(\sigma^2\)的無偏估計量應該是
\[\frac{Q}{n}=\frac{1}{n}\sum_{j=1}^n(x_j-\mu)^2. \]容易證明它也是弱相合的。
總之,有了因子分解定理,我們可以用很小的計算量驗證某個統計量是充分統計量或不是。同時,因子分解定理更大的作用是,給我們提供了一種尋找充分統計量的方式。對於任何給定的分布,理論上都可以用因子分解定理找充分統計量,再進行一定的調整。
最后,需要指出的是,充分統計量的一一變換仍然是充分統計量,不僅局限於線性變換。用因子分解定理,這個結論是顯然的。
Part 3:好的點估計該是什么樣的
我們馬上要向着非正態分布,向着其他參數分布拓展了。所謂參數分布,就是其分布信息可以完全由有限個參數決定,我們只要用一定的統計量估計出這些個參數,將這些估計量的觀測值作為參數的估計。
理論上來說,一個參數可以用任何統計量來估計,比如剛才的方差,我們就在均值已知、未知的情況下提出了兩個不同的估計量:
為什么在均值已知的時候,我們就會選擇\(Q/n\)而不是\(S^2\)呢?事實上\(S^2\)依然是充分統計量。這就涉及到了統計量的評判問題。
以下是幾個常用的估計量評判准則,評價估計量時,一定要說明估計量所估計的參數\(\theta\)是什么。這里,我們假設\(\theta\)的點估計是\(\hat\theta=\hat\theta(\boldsymbol{X})\):
- 無偏性:如果\(\mathbb{E}(\hat\theta)=\theta\),則稱\(\hat\theta\)具有無偏性。
- 有效性:如果\(\mathbb{E}(\hat\theta_1)=\mathbb{E}(\hat\theta_2)=\theta\),但是\(\mathbb{D}(\hat\theta_1)\le \mathbb{D}(\hat\theta_2)\),且至少存在一個\(\theta\)使得不等號嚴格成立,則稱\(\hat\theta_1\)比\(\hat\theta_2\)有效。
- 漸進無偏性:如果\(\mathbb{E}(\hat\theta)\ne \theta\)但\(\mathbb{E}(\hat\theta)\to \theta(n\to \infty)\),則稱\(\hat\theta\)具有漸進無偏性。
- 相合性:如果\(\hat\theta\stackrel{P}\to \theta\),則稱\(\hat\theta\)具有弱相合性;如果\(\hat\theta\stackrel{\mathrm{a.s.}}\to\theta\),則稱\(\hat\theta\)具有強相合性。
可以看出,前兩個性質與樣本容量無關,稱為小樣本性質,后兩個性質與樣本容量有關,且需要樣本容量趨向於無窮大時才能體現出來,稱為大樣本性質。
對於正態分布的\(\bar X\)和\(S^2\),我們已經驗證過它們的無偏性與弱相合性,事實上對於\(\bar X\),由柯爾莫哥洛夫強大數定律,它是強相合於總體均值\(\mu\)的。而有效性,依賴於更多的知識,這里就不展開討論了。
柯爾莫哥洛夫強大數定律:設\(\{\xi_n\}\)是定義在概率空間\((\Omega,\mathscr F,\mathbb{P})\)上的獨立同分布隨機變量序列,且\(\mathbb{E}|\xi_1|<\infty\)。記\(\mathbb{E}(\xi_1)=\mu\),則
\[\frac{1}{n}\sum_{j=1}^n \xi_j\stackrel{\mathrm{a.s.}}\to\mu. \]
下一篇文章中,我們會運用因子分解定理對許多常見的參數分布作參數估計,為日后討論點估計的更多性質打下基礎。