數學 - 回歸分析 - 第 3 章 多元線性回歸 - 3.2 回歸參數估計


3.2 回歸參數的估計

與一元線性回歸類似,我們需要對回歸參數進行估計。估計的方法一般有兩種,最小二乘估計和最大似然估計。

3.2.1 回歸參數的普通最小二乘估計

多元線性回歸方程未知參數 \(\beta_0\)\(\beta_1\)\(\cdots\)\(\beta_p\) 仍然可以采用最小二乘估計。對於式 \((3.1.5)\) 表示的樣本回歸模型 \(\bm{y} = X \bm{\beta} + \bm{\varepsilon}\),所謂最小二乘法,就是尋找 \(\hat{\beta}_0\)\(\hat{\beta}_1\)\(\cdots\)\(\hat{\beta}_p\) 使離差平方和最小。

\[\begin{align*} Q(\hat{\beta}_0,\hat{\beta}_1,\cdots,\hat{\beta}_p) & = \sum_{i=1}^n [y_i - (\hat{\beta}_0 + \hat{\beta}_1 x_{i1} + \cdots + \hat{\beta}_p x_{ip})]^2 \\ & = \min_{\beta_0 \, ,\beta_1 \, ,\cdots ,\beta_p} [y_i - (\beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip})]^2 \end{align*} \tag{3.2.1} \]

依照式 \((3.2.1)\) 求出的 \(\hat{\beta}_0\)\(\hat{\beta}_1\)\(\cdots\)\(\hat{\beta}_p\) 就稱為 \(\beta_0\)\(\beta_1\)\(\cdots\)\(\beta_p\) 的最小二乘估計。

從式 \((3.2.1)\) 中求 \(\hat{\beta}_0\)\(\hat{\beta}_1\)\(\cdots\)\(\hat{\beta}_p\) 是一個求極值問題,由於 \(Q\) 是關於 \(\beta_0\)\(\beta_1\)\(\cdots\)\(\beta_p\) 的非負二次函數,因而最小值總是存在,由費馬引理,極值點必須滿足下列方程組

\[\left\{ \begin{align*} \frac{\partial Q}{\partial \beta_0} \Bigg|_{\beta_0 = \hat{\beta}_0} & = -2 \sum_{i=1}^n (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_{i1} - \cdots -\hat{\beta}_p x_{ip} ) = 0 \\ \frac{\partial Q}{\partial \beta_1} \Bigg|_{\beta_1 = \hat{\beta}_1} & = -2 \sum_{i=1}^n (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_{i1} - \cdots -\hat{\beta}_p x_{ip} ) x_{i1} = 0 \\ & \quad \vdots \\ \frac{\partial Q}{\partial \beta_p} \Bigg|_{\beta_p = \hat{\beta}_p} & = -2 \sum_{i=1}^n (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_{i1} - \cdots -\hat{\beta}_p x_{ip} ) x_{ip} = 0 \\ \end{align*}\tag{3.2.2} \right. \]

以上方程組經整理后,得出用矩陣形式表示的正規方程組

\[X'(\bm{y} - X \hat{\bm{\beta}}) = 0 \tag{3.2.3} \]

移項得

\[X'X \hat{\bm{\beta}} = X'\bm{y} \]

\(X'X\) 可逆時,即得回歸參數的最小二乘估計

\[\hat{\bm{\beta}} = (X'X)^{-1} X' \bm{y} \tag{3.2.4} \]

得到了經驗回歸方程

\[\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x_1 + \cdots + \hat{\beta}_p x_p \tag{3.2.5} \]

3.2.3 回歸值與殘差

(1) 回歸值

在求出回歸參數的最小二乘估計后,可以用經驗回歸方程 \((3.2.5)\) 計算因變量的回歸值與殘差。

\[\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_{i1} + \cdots + \hat{\beta}_p x_{ip} \tag{3.2.6} \]

稱上式為觀測值 \(y_i\)回歸擬合值,簡稱回歸值或擬合值。

類似地,稱向量 \(\hat{\bm{y}}=X \hat{\bm{\beta}}=(\hat{y}_1,\cdots,\hat{y}_n)'\) 為因變量向量 \(\bm{y} = (y_1, \cdots, y_n)'\) 的回歸值。由式 \((3.2.4)\) 可得

\[\hat{\bm{y}} = X \hat{\bm{\beta}} = X (X'X)^{-1} X' \bm{y} \tag{3.2.7} \]

由式 \((3.2.7)\) 可以看到,矩陣 \(X (X'X)^{-1} X'\) 的作用是把因變量向量 \(\bm{y}\) 變為擬合值向量 \(\hat{\bm{y}}\),從形式上看是給 \(\bm{y}\) 帶上了一頂“帽子”,因而形象地稱矩陣 \(X (X'X)^{-1} X'\)帽子矩陣,並記為 \(H\),於是有

\[\hat{\bm{y}} = H \bm{y} \]

關於帽子矩陣,我們詳細地做一些討論。

定理 3.2.1 帽子矩陣的性質

  • 顯然帽子矩陣 \(H\)\(n\) 階對稱矩陣,同時還是冪等矩陣,即有

\[H' = H, \quad H^2 = H \]

  • 帽子矩陣 \(H\) 也是一個投影矩陣,從代數學觀點看,\(\bm{\hat{y}}\)\(\bm{y}\) 在自變量 \(X\) 生成的空間上的投影,這個投影過程就是把 \(\bm{y}\) 左乘矩陣 \(H\),因此將 \(H\) 稱為投影陣,且具有投影陣的一般性質

\[(I - H)' =I - H, \quad (I - H)^2 = I - H \]

  • 由對稱冪等陣的性質,帽子矩陣 \(H\) 的秩和跡相等,且有

\[\text{rank} (H) = \text{tr} (H)= p+1 \]

  • 對設計矩陣 \(X\) 做分塊 \(X = \begin{bmatrix}\bm{1}_n& X^* \end{bmatrix}\),對帽子矩陣 \(H\) 有下式

\[H \bm{1}_n= \bm{1}_n, \quad H X^*= X^* \]

證明:證明帽子矩陣的第三點性質,根據跡的性質 \(\text{tr}(A B) = \text{tr}(B A)\),有

\[\begin{align*} \text{tr} (H) & = \text{tr} (X (X'X)^{-1} X') \\ & = \text{tr} ((X'X)^{-1} X' X ) \\ & = \text{tr} (I_{p+1}) = 1+p \end{align*} \]

再證明帽子矩陣第四點性質,由

\[H X = X (X'X)^{-1} X' X = X \]

可得

\[H \begin{bmatrix}\bm{1}_n& X^* \end{bmatrix} = H X = X = \begin{bmatrix}\bm{1}_n& X^* \end{bmatrix} \]

證畢。

(2) 殘差

定義 \(y_i\) 的殘差

\[e_i = y_i - \hat{y}_i \tag{3.2.8} \]

\(\bm{e} = (e_1, \cdots, e_n)' = \bm{y} -\hat{\bm{y}}\)回歸殘差向量。將 \(\hat{\bm{y}} = H \bm{y}\) 帶入得,

\[\bm{e} = (I - H) \bm{y} \tag{3.2.9} \]

\(\text{cov} (\bm{e}, \bm{e}) = (\text{cov}(e_i, e_j))_{n\times n}\) 為殘差向量 \(\bm{e}\) 的協方差陣,或稱為方差陣,記為 \(D(\bm{e})\),因而

\[\begin{align*} D(\bm{e}) & = \text{cov} (\bm{e}, \bm{e}) \\ & = \text{cov} ((I - H) \bm{y}, (I - H) \bm{y}) \\ & = (I - H) \text{cov}(\bm{y}, \bm{y})(I - H)' \\ & = \sigma^2 (I - H) I_n (I - H)' \\ & = \sigma^2 (I - H) \tag{3.2.10} \end{align*} \]

由式 \((3.2.2)\) 可知,殘差滿足關系式

\[\left\{ \begin{align*} & \sum e_i = 0 \\ & \sum e_i x_{i1} = 0 \\ & \quad \, \vdots \\ & \sum e_i x_{ip} = 0 \end{align*} \right. \tag{3.2.11} \]

上式說明殘差平均值為 \(0\),殘差對每個自變量的加權平均值為 \(0\)。式 \((3.2.10)\) 用矩陣表示為

\[X' \bm{e} = \bm{0} \]

歸納殘差的各種性質如下:

定理 3.2.3 殘差的性質

  • 殘差本身是樣本的函數,是一個統計量,因此可視為隨機向量,可以考慮協方差。令帽子矩陣 \(H\) 的主對角元素為 \(h_{ii}\)

\[\text{cov} (\bm{e}, \bm{e})= D(\bm{e}) = \sigma^2(I - H), \quad \text{var} (e_i) = D(e_i) = (1-h_{ii}) \sigma^2 \]

  • 將式 \((3.2.10)\) 表成矩陣形式有

\[X' \bm{e} = 0 \]

  • 考慮殘差的平方和 \(\text{SSE}\),有

\[E(\sum_{i=1}^n e_i^2) = \sum_{i=1}^n D(e_i) = (n - p - 1) \sigma^2 \]

  • 考慮回歸參數 \(\hat{\bm{\beta}}\) 與殘差 \(\bm{e}\) 的協方差,有

\[\text{cov} (\hat{\bm{\beta}}, \bm{e}) = \bm{0} \]

  • 隨機誤差項 \(\sigma^2\) 的無偏估計為

\[\hat{\sigma}^2 = \frac{1}{n - p - 1} \text{SSE} = \frac{1}{n - p - 1} (\bm{e}'\bm{e}) = \frac{1}{n - p - 1} \sum_{i=1}^n e_i^2 \]

  • 由式 \((3.2.9)\) 可以求出殘差的期望

\[E(\bm{e}) = (I - H)X \bm{\beta} = \bm{0} \]

證明:證明第四點性質

\[\begin{align*} \text{cov} (\hat{\bm{\beta}}, \bm{e}) & = \text{cov} ((X'X)^{-1} X' \bm{y}, (I - H) \bm{y}) \\ & = (X'X)^{-1} X' \sigma^2 I_n (I - H) \end{align*} \]

證明第三、第五點性質,對第五點性質的式子兩邊求期望

\[\begin{align*} E(\hat{\sigma}^2) & = \frac{1}{n - p - 1} E(\sum_{i=1}^n e_i^2) \\ & = \frac{1}{n - p - 1} \sum_{i=1}^n D(e_i) \\ & = \frac{1}{n - p - 1} \sum_{i=1}^n (1-h_{ii}) \sigma^2 \\ & = \frac{\sigma^2}{n - p - 1} (n - \sum_{i=1}^n h_{ii}) \\ & = \frac{\sigma^2}{n - p - 1} (n - \text{tr}(H)) = \sigma^2 \end{align*} \]

第三點性質的證明已被包含在上述過程中。

證畢。

我們發現,在由正規方程組求 \(\hat{\bm{\beta}}\) 時,要求矩陣 \(X^{'}X\) 可逆,即要求該矩陣為非奇異矩陣,或要求 \(X^{'}X\)\(p+1\) 階滿秩矩陣,也等價於要求

\[|X^{'}X| \neq 0 \]

因此對矩陣 \(X\) 必須有

\[\text{rank}(X) \geqslant p+1 \]

而矩陣 \(X\)\(n \times (p+1)\) 階矩陣,於是應有

\[n \geqslant p+1 \]

上述推出的結論恰好在多元線性回歸模型的基本假定中存在。這說明,要想用普通最小二乘估計法估計多元線性回歸模型的未知參數,樣本量必須不少於模型中參數的個數

3.2.3 回歸參數的最大似然估計

對於多元線性樣本回歸模型

\[\bm{y} = X \bm{\beta} + \bm{\varepsilon}, \quad \bm{\varepsilon} \sim N(\bm{0}, \sigma^2 I_n) \tag{3.2.12} \]

此時 \(\bm{y}\) 的概率分布為

\[\bm{y} \sim N(X \bm{\beta}, \sigma^2 I_n) \tag{3.2.13} \]

然后可以得到似然函數

\[L(\bm{\beta}, \sigma^2;\bm{y}) = (2 \pi)^{-\frac{n}{2}} (\sigma^2)^{-\frac{n}{2}} \exp (-\frac{1}{2\sigma^2}(\bm{y} - X \bm{\beta})'(\bm{y} - X \bm{\beta})) \tag{3.2.14} \]

其中未知參數為 \(\bm{\beta}\)\(\sigma^2\),最大似然估計就是選取使得似然函數 \(L\) 達到最大的 \(\bm{\beta}\)\(\sigma^2\),對似然函數取自然對數,得到

\[\ln L = -\frac{n}{2} \ln (2 \pi) -\frac{n}{2} \ln (\sigma^2) -\frac{1}{2\sigma^2} (\bm{y} - X \bm{\beta})'(\bm{y} - X \bm{\beta}) \tag{3.2.15} \]

顯然使式子 \((3.2.15)\) 達到最大,等價於下式達到最小。

\[(\bm{y} - X \bm{\beta})'(\bm{y} - X \bm{\beta}) \]

在正態假定下,回歸參數 \(\bm{\beta}\) 的最大似然估計與普通最小二乘估計是一樣的。

估計的回歸參數為

\[\hat{\bm{\beta}} = (X'X)^{-1} X' \bm{y} \]

下面計算隨機誤差項的方差 \(\sigma^2\) 的最大似然估計。先計算對數似然函數的偏導

\[\frac{\partial \ln L(\bm{\beta}, \sigma^2)}{\partial \sigma^2} = -\frac{n}{2} \frac{1}{\sigma^2} + \frac{1}{2\sigma^4} \text{SSE} = 0 \]

由此可得隨機誤差項的方差 \(\sigma^2\) 的最大似然估計為

\[\hat{\sigma}_L^2 = \frac{1}{n} \text{SSE} = \frac{1}{n} (\bm{e}' \bm{e}) \tag{3.2.16} \]

盡管上式為 \(\sigma^2\) 的有偏估計,但它滿足一致性,即在大樣本情況下,是 \(\sigma^2\) 的漸進無偏估計。我們更經常使用的是無偏估計 \(\hat{\sigma}^2\)(見定理 \(3.2.3\))。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM