3.1 多元線性回歸模型
在許多實際問題中,一元線性回歸只不過是回歸分析中的一個特例,我們還需要進一步討論多元線性回歸問題。
3.1.1 多元線性回歸模型的一般形式
設隨機變量 \(y\) 與一般變量 \(x_1\),\(x_2\),\(\cdots\),\(x_p\) 的多元線性理論回歸模型為:
\[y = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p + \varepsilon \tag{3.1.1} \]
式中,\(\beta_0\),\(\beta_1\),\(\cdots\),\(\beta_p\) 是 \(p+1\) 個未知參數,\(\beta_0\) 稱為回歸常數,\(\beta_1\),\(\cdots\),\(\beta_p\) 稱為回歸系數。\(y\) 稱為被解釋變量(因變量),\(x_1\),\(x_2\),\(\cdots\),\(x_p\) 是 \(p\) 個可以精確測量並控制的一般變量,稱為解釋變量(自變量)。\(\varepsilon\) 是隨機誤差,與一元線性回歸一樣,對隨機誤差項我們假定
\[\left\{ \begin{align*} & E(\varepsilon) = 0 \\ & \text{var} (\varepsilon) = \sigma^2 \end{align*} \tag{3.1.2} \right. \]
稱
\[E(y|\bm{x}) = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p \tag{3.1.3} \]
為回歸方程。
對研究的某個實際問題,如果獲得 \(n\) 組觀測數據 \((x_{i1}, x_{i2}, \cdots, x_{ip};y_i)\)(\(i=1,2,\cdots,n\)),則理論回歸模型式 \((3.1.1)\) 可進一步表示為多元線性樣本回歸模型。
\[\left\{ \begin{align*} & y_1 = \beta_0 + \beta_1 x_{11} + \cdots + \beta_p x_{1p} + \varepsilon_1 \\ & y_2 = \beta_0 + \beta_1 x_{21} + \cdots + \beta_p x_{2p} + \varepsilon_2 \\ & \quad \, \vdots \\ & y_n = \beta_0 + \beta_1 x_{n1} + \cdots + \beta_p x_{np} + \varepsilon_n \\ \end{align*} \tag{3.1.4} \right. \]
表成矩陣形式,為
\[\bm{y} = X \bm{\beta} + \bm{\varepsilon} \tag{3.1.5} \]
式中的變量解釋,
\[\bm{y} = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix}, \quad X = \begin{bmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1p} \\ 1 & x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \vdots & & \vdots\\ 1 & x_{n1} & x_{n2} & \cdots & x_{np} \\ \end{bmatrix}, \quad \bm{\beta} = \begin{bmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_p \\ \end{bmatrix}, \quad \bm{\varepsilon} = \begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \\ \end{bmatrix} \tag{3.1.6} \]
注意,\(X\) 是一個 \(n\times (p+1)\) 階矩陣,稱為回歸設計矩陣或資料矩陣。在實驗設計中,\(X\) 元素是預先設定並可以控制的,因此稱 \(X\) 為設計矩陣。
回歸分析的一個任務是通過 \(n\) 組樣本觀測值對 \(\beta_i\) 進行估計。一般用 \(\hat{\beta}_i\) 表示 \(\beta_i\) 的估計值。
\[\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x_1 + \hat{\beta}_2 x_2 + \cdots +\hat{\beta}_p x_p \]
稱上式為多元線性經驗回歸方程。
3.1.2 多元線性回歸模型的基本假定
為了方便地進行模型的參數假設,對回歸方程式 \((3.1.4)\) 有如下一些基本假設。
-
解釋變量 \(x_1\),\(x_2\),\(\cdots\),\(x_p\) 是確定性變量,不是隨機變量,且要求 \(\text{rand} (X) = p+1 < n\)。最后一點對設計矩陣秩的要求,表明設計矩陣 \(X\) 中自變量列之間不相關,樣本量個數應大於解釋變量的個數,\(X\) 是一滿秩矩陣。
-
隨機誤差項具有零均值和等方差,式\((3.1.7)\) 稱為高斯-馬爾可夫條件。\(E(\varepsilon_i) = 0\) 假設觀測值沒有系統誤差,隨機誤差項的平均值為零。隨機誤差項 \(\varepsilon_i\) 的協方差為零,表明隨機誤差項在不同樣本點之間是不相關的(在正態假定下即為獨立的),不存在序列相關,並且有相同的精度。
\[\left\{ \begin{align*} & E(\varepsilon_i) = 0, \quad i = 1,2,\cdots,n \\ & \text{cov} (\varepsilon_i, \varepsilon_j) = \delta_{ij} \sigma^2, \quad i,j = 1,2,\cdots,n \end{align*} \tag{3.1.7} \right. \]
\[\left\{ \begin{align*} & \varepsilon_i \sim N(0, \sigma^2), \quad i = 1,2,\cdots,n \\ & \varepsilon_i \text{相互獨立}, \quad i = 1,2,\cdots,n \end{align*} \tag{3.1.8} \right. \]
由多元線性樣本回歸模型 \((3.1.5)\),正態假定可表示為:
\[\bm{\varepsilon} \sim N(\bm{0}, \sigma^2 \bm{I}_n) \tag{3.1.9} \]
在上述假定和多元正態分布的性質可知,且式 \((3.1.5)\) 表明隨機向量 \(y\) 是隨機向量 \(\varepsilon\) 的線性變換,因此隨機向量 \(y\) 服從 \(n\) 維正態分布,可得
\[\begin{align*} E(\bm{y}) & = X \bm{\beta} \\ D (\bm{y}) & = \sigma^2 \bm{I}_n \end{align*} \]
因此,
\[\bm{y} \sim N(X \bm{\beta}, \sigma^2 \bm{I}_n) \tag{3.1.10} \]
3.1.3 多元線性回歸方程的解釋
為了給多元線性回歸方程及其回歸系數一個解釋,下面以 \(p=2\) 的一個微觀經濟問題為例,給出回歸方程的幾何解釋和回歸系數的經濟意義。在建立空調機銷售量的預測模型時,用 \(y\) 表示空調機的銷售量,\(x_1\) 表示空調機的價格,\(x_2\) 表示消費者的可支配收入,則可建立理論回歸方程:
\[E(y) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 \tag{3.1.11} \]
在式 \((3.1.11)\) 中,假如 \(x_2\) 保持不變,為一常數,則有
\[\frac{\partial E(y)}{\partial x_1} = \beta_1 \tag{3.1.12} \]
對 \(\beta_1\) 可解釋為在消費者收入 \(x_2\) 保持不變時,空調機價格 \(x_1\) 每增加一個單位,空調機銷售量 \(y\) 的平均增加幅度。一般來說,隨着空調機價格提高,銷售量減少,因此 \(\beta_1\) 將是負的。
在式 \((3.1.11)\) 中,假如 \(x_1\) 保持不變,為一常數,則有
\[\frac{\partial E(y)}{\partial x_2} = \beta_2 \tag{3.1.13} \]
對 \(\beta_2\) 可解釋為在空調機價格 \(x_1\) 保持不變時,消費者收入 \(x_2\) 每增加一個單位,空調機銷售量 \(y\) 的平均增加幅度。一般來說,隨着消費者收入提高,銷售量增加,因此 \(\beta_1\) 將是正的。
對一般情況下含有 \(p\) 個自變量的多元線性回歸而言,每個回歸系數 \(\beta_i\) 表示在回歸方程中其他自變量保持不變的情況下,自變量 \(x_i\) 每增加一個單位時因變量 \(y\) 的平均增加幅度。因此也把多元線性回歸的回歸系數稱為偏回歸系數。