深入理解線性模型(二)---基於似然函數的估計


更新時間:2019.10.31

1. 引言

  在上一篇中,我們從損失函數的角度出發討論了\(\beta\)\(\sigma\)的估計。在本篇將換一種極具統計味道的角度,從似然函數出發來討論了\(\beta\)\(\sigma\)的估計。從中我們也將看見,在不同的假設中,損失函數將會發生不同的變化。

2. 關於\(\varepsilon\)假設

  在上一篇(基於損失函數的估計)中,我們提到,對於線性模型,我們常常使用Guass-Markov假設,即:

  1. \(E(\varepsilon) = 0\)
  2. \(cov(\varepsilon) = \sigma^2 I_n\)

  但是,實際上我們同方差的假設是總是不滿足的,完整來說,對\(\varepsilon\)的假設應該有三種:

  1. 同方差,且各個隨機誤差變量不相關:\(cov(\varepsilon) = \sigma^2 I_n\)
  2. 異常差,但各個隨機誤差變量不相關,\(cov(\varepsilon) = diag(\sigma_1^2, \sigma_2^2, \cdots, \sigma_n^2)\)
  3. 異方差,且各個隨機誤差變量是相關的,

\[cov(\varepsilon) = \begin{pmatrix} \sigma_{11}^2 & cov(\varepsilon_1, \varepsilon_2) & \cdots & cov(\varepsilon_1, \varepsilon_n)\\ cov(\varepsilon_2, \varepsilon_1) & \sigma_{22}^2 & \cdots & cov(\varepsilon_2, \varepsilon_n)\\ \vdots & \vdots & & \vdots\\ cov(\varepsilon_n, \varepsilon_1) & cov(\varepsilon_n, \varepsilon_2) & \cdots & \sigma_{nn}^2 \end{pmatrix} \]

  此時,記\(cov(\varepsilon) = \Sigma\)

3. 基於似然函數的估計

  之前是從損失函數的角度進行參數的估計,但是實際上每個損失函數都應該對應着一個分布,並使得分布的似然函數達到最大
  我們知道在X給定的情況下,似然函數\(L(\theta;Y,X) = P_{\theta}(Y_1 = y_1, Y_2 = y_2, \cdots, Y_n = y_n)\)。假設\(Y_1, Y_2, \cdots, Y_n\)是獨立的,有\(L(\theta;Y,X) = \prod_{i=1}^nP(Y = y_i)\)。當是離散情況的時候,可以進一步化為:\(L(\theta;Y,X) = \prod_{i=1}^nP_i(\theta)\)。當是連續情況的時候,則可以化為:\(L(\theta;Y,X) = \prod_{i=1}^n f(y_i;\theta)\)

3.1 基於假設1

  如果滿足假設1,\(cov(\varepsilon) = \sigma^2 I_n\), 並加上一個正態性的假設,即有\(\varepsilon_i \sim N(0, \sigma^2)\),那么,\(y_i = x_i\beta + \varepsilon_i \sim N(x_i\beta, \sigma^2)\),那么有似然函數:
\begin{equation}
\begin{split}
L(\beta, \sigma^2, Y, X) & = \prod_{i=1}^n f(y_i)\\
& = \prod_{i=1}^n \frac{1}{\sqrt{2\pi}\sigma} e^{- \frac{(y_i - x_i \beta)^2}{2 \sigma^2}}\\
& = (\frac{1}{\sqrt{2\pi}\sigma})^n e^{- \frac{1}{2 \sigma^2} \displaystyle \sum_{i=1}^n(y_i - x_i\beta)^2}
\end{split}
\end{equation}

  可以看到,似然函數中含有的\(\sum_{i=1}^n(y_i - x_i\beta)^2\)部分正是我們之前討論的二次損失形式。那么我們便了解到,基於假設1時,確實是應該采用我們之前所使用的二次損失形式
  通常為了簡便計算,我們都會將似然函數對數化

\begin{equation}
\begin{split}
lnL(\beta, \sigma^2, Y, X) & = -nln(\sqrt{2\pi}\sigma)- \frac{1}{2 \sigma^2} \sum_{i=1}^n(y_i - x_i\beta)^2
\end{split}
\end{equation}

  記\(G(\beta, \sigma^2) = nln(\sqrt{2\pi}\sigma) + \frac{1}{2 \sigma^2} \sum_{i=1}^n(y_i - x_i\beta)^2\),令似然函數最大化,即是求\(min \hspace{1mm}G(\beta, \sigma^2)\)

  對\(G(\beta, \sigma^2)\)求關於\(\beta\)的偏導有

\begin{equation}
\begin{split}
\frac {\partial G(\beta, \sigma^2)}{\partial \beta}
&= 0 + \frac{1}{2 \sigma^2}2 \displaystyle \sum_{i=1}^n (y_i - x_i \beta)x_i\\
& = \frac{1}{2 \sigma^2} \displaystyle \sum_{i=1}^n 2(x_i y_i - x_i^2 \beta) = 0
\end{split}
\\
=> \displaystyle \sum_{i=1}^n (x_i y_i - x_i^2 \beta) = 0 => \displaystyle \sum_{i=1}^n x_iy_i = \displaystyle \sum_{i=1}^n x_i^2 \beta\\
=> X^T Y = X^T X \beta => \hat \beta = (X^T X)^{-1} X^T Y
\end{equation}

  對\(G(\beta, \sigma^2)\)求關於\(\sigma\)的偏導有

\begin{equation}
\begin{split}
\frac {\partial G(\beta, \sigma^2)}{\partial \sigma}
&= n\frac{1}{\sqrt{2\pi} \sigma} \sqrt{2\pi} - \frac{2}{2 \sigma^3} \sum_{i=1}^n(y_i - x_i \beta)^2 \\
& = \frac{n}{\sigma} + \frac{1}{\sigma^3} \sum_{i=1}^n(y_i - x_i \beta)^2 = 0
\end{split}
\\
=> \frac{1}{\sigma^3} \sum_{i=1}^n(y_i - x_i \beta)^2 = \frac{n}{\sigma}
=> \hat \sigma^2 = \frac{\displaystyle \sum_{i=1}^n(y_i - x_i\beta)^2}{n}
\end{equation}

  從這里便可以看出,通過似然函數,一次就搞定了參數\(\beta\)\(\sigma\)的估計,而基於損失函數的估計只是估計出了\(\beta\),而\(\sigma\)是另外造一套理論估計的

  • tips:但是基於似然函數的\(\sigma\)估計有一個小問題,它所得到的不是一個無偏估計(和\(\hat \sigma^2 = \frac{SSE}{n-p}\)略顯不同)。因此,有的人也采用限制似然估計(REML)來進行代替。

3.2 基於假設2

  如果滿足假設2,\(cov(\varepsilon) = cov(\varepsilon) = diag(\sigma_1^2, \sigma_2^2, \cdots, \sigma_n^2)\), 並加上一個正態性的假設,即有\(\varepsilon_i \sim N(0, \sigma^2_{ii})\),那么,\(y_i = x_i\beta + \varepsilon_i \sim N(x_i\beta, \sigma^2_{ii})\),那么有似然函數:

\begin{equation}
\begin{split}
L(\beta, \sigma^2, Y, X) & = \prod_{i=1}^n f(y_i)\\
& = \prod_{i=1}^n \frac{1}{\sqrt{2\pi} \sigma_{ii}} e^{- \frac{(y_i - x_i \beta)^2}{2 \sigma^2_{ii}}}\\
& = (\frac{1}{\sqrt{2\pi}})^n \prod_{i=1}^n(\frac{1}{\sigma_{ii}}) e^{- \frac{1}{2} \displaystyle \sum_{i=1}^n(\frac {y_i - x_i \beta}{\sigma_{ii}})^2}
\end{split}
\end{equation}

  我們可以發現基於假設2下,似然函數的核心部分發生了變化,不再是\(\sum_{i=1}^n(y_i - x_i\beta)^2\)。因此,根據之前的經驗,基於假設2,所采用的損失函數也應該發生變化。此時采用的損失函數應該是標准化的二次損失\(\displaystyle \sum_{i=1}^n(\frac {y_i - x_i\beta}{\sigma_{ii}})^2\),我們也把這稱為加權最小二乘估計。
  將似然函數對數化:
\begin{equation}
\begin{split}
lnL(\beta, \sigma^2, Y, X) = -nln(\sqrt{2\pi})- \sum_{i=1}^nln\sigma_{ii} - \frac{1}{2} \displaystyle \sum_{i=1}^n(\frac {y_i - x_i\beta}{\sigma_{ii}})^2
\end{split}
\end{equation}

  記\(G(\beta, \sigma_{ii}^2) = nln(\sqrt{2\pi}) + \sum_{i=1}^nln\sigma_{ii} + \frac{1}{2} \displaystyle \sum_{i=1}^n(\frac {y_i - x_i\beta}{\sigma_{ii}})^2\),令似然函數最大化,即是求\(min \hspace{1mm}G(\beta, \sigma_{ii}^2)\)
  對\(G(\beta, \sigma_{ii}^2)\)求關於\(\beta\)的偏導有

\begin{equation}
\begin{split}
\frac {\partial G(\beta, \sigma_{ii}^2)}{\partial \sigma_{ii}}
&= 0 + 0 - \frac{1}{2}2 \displaystyle \sum_{i=1}^n (\frac {y_i - x_i\beta}{\sigma_{ii}})\frac{x_i}{\sigma_{ii}}\\
& = - \displaystyle \sum_{i=1}^n (\frac {x_iy_i - x_i^2 \beta}{\sigma_{ii}^2}) = 0
\end{split}
\\
=> \displaystyle \sum_{i=1}^n (\frac {x_i y_i}{\sigma_{ii}^2}) = \displaystyle \sum_{i=1}^n (\frac {x_i^2 \beta}{\sigma_{ii}^2}) \\
=> X_c^T Y_c = X_c^T X_c\beta => \hat \beta = (X_c^T X_c)^{-1} X_c^T Y_c
\end{equation}

  記\(X_c = (\frac{x_1}{\sigma_{11}}, \frac{x_2}{\sigma_{22}}, \cdots, \frac{x_n}{\sigma_{nn}})^T, Y_c = (\frac{y_1}{\sigma_{11}}, \frac{y_2}{\sigma_{22}}, \cdots, \frac{y_n}{\sigma_{nn}})^T\)
  對\(G(\beta, \sigma_{ii}^2)\)求關於\(\sigma_{ii}\)的偏導有,以\(\sigma_{11}\)為例

\begin{equation}
\begin{split}
\frac {\partial G(\beta, \sigma_{ii}^2)}{\partial \sigma_{11}}
&= 0 + \frac{1}{\sigma_{11}} - \frac{1}{2} 2 \frac{(y_1 - x_1 \beta)^2}{ \sigma_{11}^3} \\
& = \frac{1}{\sigma_{11}} - \frac{(y_1 - x_1 \beta)^2}{ \sigma_{11}^3} = 0
\end{split}
\\
=> \frac{1}{\sigma_{11}} = \frac{(y_1 - x_1 \beta)^2}{ \sigma_{11}^3}
=> \hat \sigma_{11}^2 = (y_1 - x_1 \beta)^2
\end{equation}

  類似地,也就有\(\hat \sigma_{ii}^2 = (y_i - x_i\beta)^2\)

3.3. 基於假設3

  如果滿足假設3,\(cov(\varepsilon) = \Sigma\), 並加上一個正態性的假設,即有\(\varepsilon\)滿足多維正態分布,\(\varepsilon \sim N_n(0, \sigma^2_{ii})\),那么,\(Y = X\beta + \varepsilon \sim N_n(X\beta, \Sigma)\),那么有似然函數

\begin{equation}
\begin{split}
L(\beta, \Sigma Y, X) & =P(Y_1 = y_1, Y_2 = y_2, \cdots, Y_n = y_n) = P(Y=y)\\
& = \frac{1}{(\sqrt{2\pi})^n |\Sigma|^{\frac{1}{2}}}e ^{- \frac{1}{2}(Y - X\beta)^T \sum^{-1} (Y - X\beta)}
\end{split}
\end{equation}

  其中,\(|\Sigma|\)\(\Sigma\)的行列式
  我們可以發現基於假設3下,似然函數的核同樣也發生了變化。那么,基於這種假設,此時采用的損失函數應該是\((y - x\beta)^T \Sigma^{-1} (y - x\beta)\)。將似然函數對數化:

\[lnL(\beta, \Sigma, Y, X) = -nln(\sqrt{2\pi})- \frac{1}{2} ln|\Sigma| - \frac{1}{2} (Y - X\beta)^T (\Sigma)^{-1} (Y - X\beta) \]

  記\(G(\beta, \Sigma) = nln(\sqrt{2\pi}) + \frac{1}{2}ln|\Sigma| + \frac{1}{2} (Y - X\beta)^T \Sigma^{-1} (Y - X\beta)\),令似然函數最大化,即是求\(min \hspace{1mm}G(\beta, \Sigma)\)
  對\(G(\beta, \Sigma)\)求關於\(\beta\)的偏導有

\begin{equation}
\begin{split}
\frac {\partial G(\beta, \Sigma)}{\partial \beta}
&= 0 + 0 - \frac{1}{2}2 X^T \Sigma^{-1} (Y - X\beta)\\
& = X^T \Sigma^{-1}(X\beta - Y) = 0
\end{split}
\\
=> X^T \Sigma^{-1}X\beta = X^T \Sigma^{-1}Y \\
=> \hat \beta = (X^T \Sigma^{-1} X)^{-1} X^T \Sigma^{-1} Y
\end{equation}

  對\(G(\beta, \Sigma)\)求關於\(\Sigma\)的偏導有

\begin{equation}
\begin{split}
\mathrm{d}G & = \frac{1}{2} |\Sigma|^{-1} d |\Sigma| - \frac{1}{2}(Y - X \beta)^T \Sigma^{-1}d \Sigma \Sigma^{-1}(Y-X \beta)\\
& = \frac{1}{2}tr(\Sigma^{-1} d \Sigma) - tr(\frac{1}{2}(Y - X \beta)^T \Sigma^{-1} d \Sigma \Sigma^{-1}(Y-X \beta))\\
& = \frac{1}{2}tr(\Sigma^{-1} d \Sigma) - tr(\frac{1}{2}\Sigma^{-1}(Y-X \beta)(Y - X\beta)^T \Sigma^{-1} d \Sigma)\\
& = tr(\frac{1}{2}((\Sigma^{-1} - \Sigma^{-1}(Y-X \beta)(Y - X \beta)^T \Sigma^{-1}))d \Sigma)
\end{split}
\\
=> \frac{\partial G}{\partial \Sigma} = \frac{1}{2}(\Sigma^{-1} - \Sigma^{-1} (Y-X \beta)(Y - X \beta)^T \Sigma^{-1} )^T = 0\\
=> \Sigma^{-1}(Y-X \beta)(Y - X \beta)^T \Sigma^{-1} = \Sigma^{-1} \\
=> \hat \Sigma = (Y-X \beta)(Y - X \beta)^T
\end{equation}

4. 估計的優良性

  在基於損失函數的估計中,我們討論了估計的優良性,那么當換了假設和損失函數后,我們的估計是否還是具有優良的性質呢
  對於假設3中,有
\begin{equation}
\begin{split}
L_3(\beta) & = (Y - X\beta)^T \Sigma^{-1} (Y - X\beta) \\
& = (Y - X\beta)^T \Sigma^{- \frac{1}{2}} \Sigma^{-\frac{1}{2}} (Y - X\beta)\\
& = (\Sigma^{-\frac{1}{2}}Y - \Sigma^{-\frac{1}{2}}X \beta)^T( \Sigma^{- \frac{1}{2}}Y - \Sigma^{-\frac{1}{2}}X \beta)\\
& = (Y^* - X^* \beta)^T (Y^* - X^* \beta)
\end{split}
\end{equation}

  其中,記\(\Sigma^{-\frac{1}{2}}Y - \Sigma^{-\frac{1}{2}}X\beta\)\(Y^* - X^* \beta\),由於\(L_1(\beta) = (Y-X\beta)^T(Y - X\beta)\)具有優良的性質,那么\(L_3(\beta) = (Y^* - X^* \beta)^T(Y^* - X^* \beta)\)的估計也應該具有優良的性質。

5. 假設的場景

  為什么總假設線性模型符合假設1呢?實際上當我們基於假設2時,要估計的參數有n+p個(n個不同的\(\sigma_{ii}\),和p個\(\beta_i\)),而我們只有n個樣本,這樣就出現自由度不足的情況;而當我們基於假設3時,要估計的參數就更多了(有\(\frac{n^2 + n}{2}+p\)個)。這樣基本很難做估計,即使是做出出來了,估計也不一定唯一。

  面對這種情況,通常我們都要加大樣本量,像可以一個個體測m次,得到mn個數據,當然這時模型也變成了混合模型。因此,對於假設2和假設3,更加適合一些縱向數據(經濟上的面板數據、心理學上的重復測量數據、社會學上的多水平數據)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM