矩陣形式的線性回歸模型
模型設定與最小二乘估計
利用矩陣形式推導多元線性回歸模型的解,其思想主要來源於線性方程組和矩陣形式的相互轉化。而線性方程組則來源於樣本觀測數據,首先我們假設總體模型的設定:
\[y=\beta_0+\beta_1x_1+\cdots+\beta_kx_k+u \ . \]
用 \(n\) 表示樣本容量,我們可以把來自總體的每一次觀測樣本寫成一個方程:
\[\left\{ \begin{array}{l} y_1=\beta_0+\beta_1x_{11}+\cdots+\beta_kx_{1k}+u_1\ , \\ y_2=\beta_0+\beta_1x_{21}+\cdots+\beta_kx_{2k}+u_2\ , \\ \ \vdots \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \vdots \\ y_n=\beta_0+\beta_1x_{n1}+\cdots+\beta_kx_{nk}+u_n\ , \\ \end{array} \right. \]
定義如下的數據向量和矩陣:
\[\boldsymbol{Y}=\left[ \begin{array}{c} y_1 \\ y_2 \\ \vdots \\ y_n \\ \end{array} \right] \ ,\ \ \ \ \boldsymbol{X}=\left[ \begin{array}{ccccc} 1 & x_{11} & x_{12} & \cdots & x_{1k} \\ 1 & x_{21} & x_{22} & \cdots & x_{2k} \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & x_{n1} & x_{n2} & \cdots & x_{nk} \\ \end{array} \right] \ , \ \ \ \ \boldsymbol\beta=\left[ \begin{array}{c} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_k \\ \end{array} \right] \ ,\ \ \ \ \boldsymbol\mu=\left[ \begin{array}{c} u_1 \\ u_2 \\ \vdots \\ u_n \\ \end{array} \right] \ . \]
其中 \(\boldsymbol{Y}\) 表示被解釋變量的觀測數據的 \(n\times1\) 向量, \(\boldsymbol{X}\) 表示解釋變量的觀測數據的 \(n\times(k+1)\) 矩陣,\(\boldsymbol\beta\) 表示所有參數的 \((k+1)\times1\) 向量,\(\boldsymbol\mu\) 表示觀測不到的誤差項 \(n\times1\) 向量。
於是,我們可以將帶有 \(n\) 個觀測樣本的總體回歸模型寫成矩陣形式:
\[\boldsymbol{Y}=\boldsymbol{X\beta}+\boldsymbol{\mu} \ . \]
和一元模型類似,想要求解 \(\boldsymbol{\beta}\) 的最小二乘估計,還是從最小化殘差平方和開始。設 \(\boldsymbol\mu\) 的估計值(即殘差向量)為 \(\hat{\boldsymbol\mu}=\boldsymbol{e}\) ,首先定義殘差平方和:
\[{\rm SSR}=\sum_{i=1}^n e_i^2=\boldsymbol{e}^{\rm T}\boldsymbol{e}=\left(\boldsymbol{Y}-\boldsymbol{X}\hat{\boldsymbol\beta}\right)^{\rm T}\left(\boldsymbol{Y}-\boldsymbol{X}\hat{\boldsymbol\beta}\right) \]
滿足最小化殘差平方和的 \(\hat{\boldsymbol\beta}\) 一定滿足一階條件:
\[\begin{aligned} \frac{\partial{\rm SSR}}{\partial\hat{\boldsymbol\beta}} &=\frac{\partial}{\partial\hat{\boldsymbol\beta}}\left(\boldsymbol{Y}-\boldsymbol{X}\hat{\boldsymbol\beta}\right)^{\rm T}\left(\boldsymbol{Y}-\boldsymbol{X}\hat{\boldsymbol\beta}\right) \\ &=\frac{\partial}{\partial\hat{\boldsymbol\beta}}\left(\boldsymbol{Y}^{\rm T}\boldsymbol{Y}-\hat{\boldsymbol\beta}^{\rm T}\boldsymbol{X}^{\rm T}\boldsymbol{Y}-\boldsymbol{Y}^{\rm T}\boldsymbol{X}\hat{\boldsymbol\beta}+\hat{\boldsymbol\beta}^{\rm T}\boldsymbol{X}^{\rm T}\boldsymbol{X}\hat{\boldsymbol\beta}\right) \\ &=2\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\hat{\boldsymbol\beta}-\boldsymbol{X}^{\rm T}\boldsymbol{Y} \right)=0 \ , \end{aligned} \]
當 \(\boldsymbol{X}^{\rm T}\boldsymbol{X}\) 可逆時,求解一階條件即可得到
\[\hat{\boldsymbol\beta}=\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{Y} \ . \]
此時我們可以計算出 OLS 擬合值和殘差的 \(n\times1\) 向量
\[\hat{\boldsymbol{Y}}=\boldsymbol{X}\hat{\boldsymbol\beta}=\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{Y} \ , \]
\[\boldsymbol{e}=\boldsymbol{Y}-\hat{\boldsymbol{Y}}=\boldsymbol{Y}-\boldsymbol{X}\hat{\boldsymbol{\beta}} \ . \]
基本假定
接下來我們想要利用矩陣形式來推導 OLS 估計的期望和方差。在這之前我們需要對模型提出基本假設,以保證 OLS 估計的可行性和合理性。
假定 1:線性於參數
總體回歸模型可以寫成: \(\boldsymbol{Y}=\boldsymbol{X\beta}+\boldsymbol{\mu}\) ,其中 \(\boldsymbol{Y}\) 和 \(\boldsymbol{\beta}\) 是線性關系。
假定 2:不存在完全共線性
矩陣 \(X\) 的秩為 \(k+1\) 。
這是對解釋變量之間不存在線性相關假定的嚴格定義。在該假定成立的情況下,\(\boldsymbol{X}^{\rm T}\boldsymbol{X}\) 是非奇異的(即可逆),有 \({\rm r}(\boldsymbol{X}^{\rm T}\boldsymbol{X})=k+1\) ,此時 \(\hat{\boldsymbol{\beta}}\) 是唯一的解。
假定 3:零條件均值
以整個矩陣 \(\boldsymbol{X}\) 為條件,每個 \(u_i\) 的均值都為 \(0\) :
\[{\rm E}(u_i|\boldsymbol{X})=0 \ , \ \ \ \ i=1,2,\cdots,n \ , \]
該假定可以寫成向量形式:\({\rm E}(\boldsymbol{\mu}|\boldsymbol{X})=0\) ,對應於多元回歸模型的隨機抽樣假定 MLR.2 和零條件均值假定 MLR.4 。
假定 4:同方差和不存在序列相關
(1) \({\rm Var}(u_i|\boldsymbol{X})=\sigma^2 \ ,\ \ i=1,2,\cdots,n\) ;
(2) \({\rm Cov}(u_i,\,u_j|\boldsymbol{X})=0\) 對任意的 \(i\neq j\) 成立。
該假定又被稱為球型擾動假定。若隨機干擾項滿足該假設,則稱該模型具有球形擾動項。可以寫作矩陣形式:\({\rm Var}(\boldsymbol\mu|\boldsymbol{X})=\sigma^2\boldsymbol{I}_n\) ,其中 \(\boldsymbol{I}_n\) 為 \(n\times n\) 單位矩陣。
假定 5:正態性假定
以 \(\boldsymbol{X}\) 為條件,\(u_i\) 服從獨立同分布的 \(N(0,\,\sigma^2)\) ,\(i=1,2,\cdots,n\) 。
用矩陣形式表示為:給定 \(\boldsymbol{X}\) ,隨機干擾項 \(\boldsymbol{\mu}\) 服從均值為 \(0\) 和方差-協方差矩陣為 \(\sigma^2\boldsymbol{I}_n\) 的多元正態分布
\[\boldsymbol{\mu}|\boldsymbol{X}\sim N(\boldsymbol{0},\,\sigma^2\boldsymbol{I}_n) \ . \]
正態性假定是對模型的隨機干擾項施加的最強的假設。在正態性假定下,對於所有的觀測 \(i\) ,每個 \(u_i\) 都獨立於解釋變量。在時間序列數據中,實質上是一個嚴格外生性假設,我們在時間序列的部分進行介紹。
統計性質
在一元和多元回歸模型中,我們都曾給出了 OLS 估計量具有 BLUE 的性質,但當時我們並沒有對所有的統計性質進行推導證明。基於以上基本假定,我們可以利用矩陣運算的優良性質來推導 OLS 估計的統計性質。
定理 1:OLS 的無偏性
在假定 1 至假定 3 的條件下,OLS 估計量 \(\hat{\boldsymbol\beta}\) 是 \(\boldsymbol\beta\) 的無偏估計。
證明:首先通過運算將 \(\boldsymbol\beta\) 從估計量 \(\hat{\boldsymbol\beta}\) 中分離出來,然后對剩余部分利用零條件均值假定。
\[\begin{aligned} \hat{\boldsymbol\beta}&=\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{Y} \\ &=\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\left(\boldsymbol{X\beta}+\boldsymbol{\mu}\right) \\ &=\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{X\beta}+\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{\mu} \\ &=\boldsymbol{\beta}+\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{\mu} \ . \end{aligned} \]
對上式以 \(\boldsymbol{X}\) 為條件取條件期望:
\[{\rm E}(\hat{\boldsymbol\beta}\big|\boldsymbol{X})={\rm E}\left[\boldsymbol{\beta}+\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{\mu}\big|\boldsymbol{X}\right]=\boldsymbol{\beta}+\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\cdot{\rm E}\left(\boldsymbol\mu|\boldsymbol{X}\right)=\boldsymbol{\beta} \ . \]
定理 2:OLS 估計量的協方差矩陣
在假定 1 至假定 4 的條件下,\({\rm Var}(\hat{\boldsymbol\beta})=\sigma^2\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\) 。
證明:利用無偏性證明中的結論:\(\hat{\boldsymbol{\beta}}=\boldsymbol{\beta}+\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{\mu}\) ,取條件方差得
\[\begin{aligned} {\rm Var}(\hat{\boldsymbol\beta}|\boldsymbol{X})&={\rm Var}\left(\boldsymbol{\beta}+\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{\mu}\right) \\ &=\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\cdot{\rm Var}(\boldsymbol\mu|\boldsymbol{X})\cdot\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1} \\ &=\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\cdot\sigma^2\boldsymbol{I}_n\cdot\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1} \\ &=\sigma^2\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1} \\ &=\sigma^2\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1} \ . \end{aligned} \]
該定理表明,\(\hat\beta_j\) 的方差可以由 \(\sigma^2\) 乘以 \(\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\) 的主對角線上的第 \(j\) 個元素得到。
定理 3:高斯-馬爾科夫定理
在假定 1 至假定 4 的條件下,\(\hat{\boldsymbol\beta}\) 是最佳線性無偏估計。
證明:只需證明有效性,即證明 \(\hat{\boldsymbol\beta}\) 在 \(\boldsymbol\beta\) 的所有線性無偏估計中擁有最小方差。
假設 \(\tilde{\boldsymbol\beta}=\boldsymbol{A}^{\rm T}\boldsymbol{Y}\) 是 \(\boldsymbol\beta\) 的其他任意一個線性無偏估計量,其中 \(\boldsymbol{A}\) 是一個 \(n\times(k+1)\) 的矩陣。由於 \(\tilde{\boldsymbol\beta}\) 滿足以 \(\boldsymbol{X}\) 為條件的無偏性,因此矩陣 \(\boldsymbol{A}\) 就不能任意取得,需要對矩陣 \(\boldsymbol{A}\) 加以限制。寫出
\[\tilde{\boldsymbol\beta}=\boldsymbol{A}^{\rm T}\boldsymbol{Y}=\boldsymbol{A}^{\rm T}\left(\boldsymbol{X\beta}+\boldsymbol{\mu}\right) =\left(\boldsymbol{A}^{\rm T}\boldsymbol{X}\right)\boldsymbol{\beta}+\boldsymbol{A}^{\rm T}\boldsymbol{\mu} \ . \]
取條件期望得
\[\begin{aligned} {\rm E}(\tilde{\boldsymbol{\beta}}|\boldsymbol{X})&={\rm E}\left[\left(\boldsymbol{A}^{\rm T}\boldsymbol{X}\right)\boldsymbol{\beta}+\boldsymbol{A}^{\rm T}\boldsymbol{\mu}\big|\boldsymbol{X}\right] \\ &=\boldsymbol{A}^{\rm T}\boldsymbol{X}\boldsymbol{\beta}+\boldsymbol{A}^{\rm T}\cdot{\rm E}({\mu}\big|\boldsymbol{X})\\ &=\boldsymbol{A}^{\rm T}\boldsymbol{X}\boldsymbol{\beta} \ . \end{aligned} \]
由無偏性 \({\rm E}(\tilde{\boldsymbol{\beta}}|\boldsymbol{X})=\boldsymbol\beta\) ,必須有 \(\boldsymbol{A}^{\rm T}\boldsymbol{X}\boldsymbol{\beta}=\boldsymbol{\beta}\) 對所有的 \(\boldsymbol\beta\) 都成立,因此有矩陣方程 \(\boldsymbol{A}^{\rm T}\boldsymbol{X}=\boldsymbol{I}_{k+1}\) 成立。該方程刻畫了 \(\boldsymbol\beta\) 的所有線性無偏估計量的共同特征。
計算方差:
\[{\rm Var}(\tilde{\boldsymbol\beta}|\boldsymbol{X})=\boldsymbol{A}^{\rm T}{\rm Var}(\boldsymbol\mu|\boldsymbol{X})\boldsymbol{A}=\sigma^2\boldsymbol{A}^{\rm T}\boldsymbol{A} \ . \]
因此,
\[\begin{aligned} {\rm Var}(\tilde{\boldsymbol\beta}|\boldsymbol{X})-{\rm Var}(\hat{\boldsymbol\beta}|\boldsymbol{X})&=\sigma^2\left[\boldsymbol{A}^{\rm T}\boldsymbol{A}-\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\right] \\ &=\sigma^2\left[\boldsymbol{A}^{\rm T}\boldsymbol{A}-\boldsymbol{A}^{\rm T}\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{A}\right] \\ &=\sigma^2\boldsymbol{A}^{\rm T}\left[\boldsymbol{I}_{n}-\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\right]\boldsymbol{A} \\ &\triangleq\sigma^2\boldsymbol{A}^{\rm T}\boldsymbol{M}\boldsymbol{A} \ . \end{aligned} \]
其中,定義 \(\boldsymbol{M}\triangleq\boldsymbol{I}_{n}-\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\) 。易證 \(\boldsymbol{M}^{\rm T}=\boldsymbol{M}\) 且 \(\boldsymbol{M}^2=\boldsymbol{M}\) 。因此 \(\boldsymbol{M}\) 是對稱冪等矩陣,所以 \(\boldsymbol{A}^{\rm T}\boldsymbol{M}\boldsymbol{A}\) 對任意的 \(n\times(k+1)\) 矩陣 \(\boldsymbol{A}\) 都是半正定的,所以
\[{\rm Var}(\tilde{\boldsymbol\beta}|\boldsymbol{X})-{\rm Var}(\hat{\boldsymbol\beta}|\boldsymbol{X})\geq0 \ . \]
因此,OLS 在用於估計 \(\boldsymbol\beta\) 的任何一個線性組合時總能得到最小方差,即 OLS 估計量 \(\hat{\boldsymbol\beta}\) 具有有效性。
定理 4:\(\hat\sigma^2\) 的無偏估計
在假定 1 至假定 4 的條件下,\(\hat\sigma^2\) 是 \(\sigma^2\) 的無偏估計。
證明:利用定理 3 中定義的矩陣 \(\boldsymbol{M}\) 改寫殘差,注意到:
\[\boldsymbol{M}\boldsymbol{X}=\boldsymbol{X}-\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{X}=\boldsymbol{X}-\boldsymbol{X}=0 \ , \]
因此有殘差:
\[\boldsymbol{e}=\boldsymbol{Y}-\boldsymbol{X}\hat{\boldsymbol{\beta}} =\boldsymbol{Y}-\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{Y} =\boldsymbol{M}\boldsymbol{Y}=\boldsymbol{M}\left(\boldsymbol{X\beta}+\boldsymbol{\mu}\right) =\boldsymbol{M}\boldsymbol{\mu} \ . \]
計算殘差平方和為:
\[{\rm SSR}=\boldsymbol{e}^{\rm T}\boldsymbol{e}=\boldsymbol\mu^{\rm T}\boldsymbol{M}^{\rm T}\boldsymbol{M}\boldsymbol{\mu}=\boldsymbol\mu^{\rm T}\boldsymbol{M}\boldsymbol{\mu} \ . \]
注意到殘差平方和是一個常數,即 \(\boldsymbol\mu^{\rm T}\boldsymbol{M}\boldsymbol{\mu}\) 是一個常數,因此它本身等於它的跡,有
\[\begin{aligned} {\rm E}\left({\rm SSR}|\boldsymbol{X}\right)&={\rm E}\left(\boldsymbol\mu^{\rm T}\boldsymbol{M}\boldsymbol{\mu}|\boldsymbol{X}\right) \\ &={\rm E}\left[{\rm tr}\left(\boldsymbol\mu^{\rm T}\boldsymbol{M}\boldsymbol{\mu}\right)\big|\boldsymbol{X}\right] \\ &={\rm E}\left[{\rm tr}\left(\boldsymbol{M}\boldsymbol{\mu}\boldsymbol\mu^{\rm T}\right)\big|\boldsymbol{X}\right] \\ &={\rm tr}\left[{\rm E}\left(\boldsymbol{M}\boldsymbol{\mu}\boldsymbol\mu^{\rm T}\right)\big|\boldsymbol{X}\right] \\ &={\rm tr}\left[\boldsymbol{M}{\rm E}\left(\boldsymbol{\mu}\boldsymbol\mu^{\rm T}\right)\big|\boldsymbol{X}\right] \\ &={\rm tr}\left[\boldsymbol{M}\sigma^2\boldsymbol{I}_n\right] \\ &=\sigma^2{\rm tr}\left(\boldsymbol{M}\right)=\sigma^2(n-k-1) \ . \end{aligned} \]
最后一個等號成立是因為
\[\begin{aligned} {\rm tr}(\boldsymbol{M})&={\rm tr}\left[\boldsymbol{I}_{n}-\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\right] \\ &=n-{\rm tr}\left[\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\right]\\ &=n-{\rm tr}\left[\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{X}\right] \\ &=n-{\rm tr}(\boldsymbol{I}_{k+1})=n-k-1 \ . \end{aligned} \]
因此
\[{\rm E}(\hat\sigma^2|\boldsymbol{X})=\frac{{\rm E}\left({\rm SSR}|\boldsymbol{X}\right)}{n-k-1}=\sigma^2 \ . \]
至此,我們完成了多元回歸模型中沒有推導的高斯-馬爾科夫定理的證明,以及 \(\sigma^2\) 的無偏性證明。
統計推斷
關於變量的統計推斷,我們主要討論估計參數的統計分布及其檢驗要求的 \(t\) 統計量。
在正態性假定下,我們可以證明在 \(\boldsymbol{X}\) 的條件下,\(\hat{\boldsymbol\beta}\) 服從均值為 \(\boldsymbol\beta\) 協方差矩陣為 \(\sigma^2\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\) 的多元正態分布。這是進行 \(\boldsymbol\beta\) 的統計推斷的基礎。接下來我們證明:
\[\frac{\hat\beta_j-\beta_j}{{\rm se}(\hat\beta_j)}\sim t(n-k-1) \ , \ \ \ \ j=0,1,2,\cdots,k \ . \]
首先,由 \(\hat{\boldsymbol\beta}\) 的正態性,\({\rm sd}(\hat\beta_j)=\sigma\sqrt{c_{jj}}\) ,其中 \(c_{jj}\) 是矩陣 \(\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\) 中主對角線上的第 \(j\) 個元素,所以有
\[\frac{\hat\beta_j-\beta_j}{{\rm sd}(\hat\beta_j)}\sim N(0,\,1) \ . \]
其次,我們可以證明
\[\frac{(n-k-1)\hat\sigma^2}{\sigma^2}\sim\chi^2(n-k-1) \ . \]
利用對稱冪等矩陣 \(\boldsymbol{M}=\boldsymbol{I}_{n}-\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\) ,並且 \({\rm r}(M)=n-k-1\) 有結論
\[\frac{(n-k-1)\hat\sigma^2}{\sigma^2}=\frac{\boldsymbol\mu^{\rm T}\boldsymbol{M}\boldsymbol{\mu}}{\sigma^2}=\left(\boldsymbol\mu/\sigma\right)^{\rm T}\boldsymbol{M}\left(\boldsymbol\mu/\sigma\right) \ , \]
由於 \(\boldsymbol\mu/\sigma\sim N(0,\,\boldsymbol{I}_n)\) ,根據 \(\chi^2\) 分布的性質有 \(\left(\boldsymbol\mu/\sigma\right)^{\rm T}\boldsymbol{M}\left(\boldsymbol\mu/\sigma\right)\sim\chi^2(n-k-1)\) 。
接着,我們還需要證明 \(\hat{\boldsymbol\beta}\) 和 \(\hat\sigma^2\) 是獨立的。需要用到一個多元正態分布的性質。
引理:設 \(\boldsymbol{Y}\) 是一個 \(n\times 1\) 的隨機向量,如果 \(\boldsymbol{Y}\sim N(0,\,\sigma^2\boldsymbol{I}_n)\) ,\(\boldsymbol{A}\) 是一個 \(k\times n\) 的非隨機矩陣,而 \(\boldsymbol{B}\) 是一個 \(n\times n\) 的對稱冪等矩陣,則 \(\boldsymbol{A}\boldsymbol{Y}\) 和 \(\boldsymbol{Y}^{\rm T}\boldsymbol{B}\boldsymbol{Y}\) 獨立的充分必要條件是 \(\boldsymbol{AB}=0\) 。
我們知道 \(\hat{\boldsymbol\beta}=\boldsymbol{\beta}+\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{\mu}\) , \(\hat\sigma^2=\dfrac{\boldsymbol\mu^{\rm T}\boldsymbol{M}\boldsymbol{\mu}}{n-k-1}\) 。
由於 \(\boldsymbol{X}^{\rm T}\boldsymbol{M}=\boldsymbol{M}\boldsymbol{X}=0\) ,所以 \(\boldsymbol{}\)\(\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{M}=0\) 。根據上述引理知 \(\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{\mu}\) 和 \(\boldsymbol\mu^{\rm T}\boldsymbol{M}\boldsymbol{\mu}\) 獨立,所以 \(\hat{\boldsymbol\beta}\) 和 \(\hat\sigma^2\) 也是獨立的。
最后我們可以寫出
\[\frac{\hat\beta_j-\beta_j}{{\rm se}(\hat\beta_j)}=\frac{\hat\beta_j-\beta_j}{{\rm sd}(\hat\beta_j)}\bigg/\frac{{\rm se}(\hat\beta_j)}{{\rm sd}(\hat\beta_j)}=\frac{\hat\beta_j-\beta_j}{{\rm sd}(\hat\beta_j)}\bigg/\sqrt{\frac{\hat\sigma^2}{\sigma^2}} \sim t(n-k-1) \ . \]
這個定理通過嚴格的數理統計的推導證明了我們用 \(\hat\sigma\) 代替 \(\sigma\) 並構造 \(t\) 統計量的合理性。
至此,我們完成了經典假設下從簡單回歸模型到多元回歸模型的全部知識介紹,並利用矩陣形式對其中的部分統計性質進行了嚴格的推導證明。其中涉及的矩陣運算以及數理統計的相關性質,在此不過多介紹。不熟悉的讀者可以查閱線性代數和數理統計相關教材。