深入理解線性模型(三)---基於貝葉斯的估計


更新時間:2019.10.31

1. 引言

  在前兩篇,我們分別從損失函數以及似然函數的角度來窺探了線性模型。接下來,繼續從一個新的角度---貝葉斯統計來討論一下線性模型。臉紅

2. 先驗概率和后驗概率

  談起貝葉斯,就不得不提先驗概率和后驗概率。先驗概率通常是通過歷史或者經驗得來的,而后驗概率則是綜合利用了先驗信息和樣本信息。因此,貝葉斯統計的出發點也是基於后驗概率的。
  那么先驗概率和后驗概率實際上是怎樣呢?以一個簡單的例子為,由三家公司A、B、C合作生成一種產品,A公司承包50%的生產,B公司承包30%的生產,C公司承包剩下20%的生產。生產完后,三家公司把全部商品把包在一起,開開心心地去送貨微笑。然而驗貨的時候發現出問題了,於是買家要求這幾家公司作出賠償。但是,各家公司都認為自己生產的產品沒有任何的問題,各家公司的負責人爭得面紅耳赤吐血。最后,買家實在看不下去了,就跟他們說:“既然你們都覺得自家的生產沒有問題,就按生產的份額來賠償吧。”於是,A公司承擔50%的責任,B公司承擔30%的責任,C公司承擔20%的責任。而這里“50%、30%、20%”也其實便是所謂的先驗信息。
  而當我們知道A、B、C公司生產的不合格分別為P(A)、P(B)、P(C)時,對於追究責任時又會發生不同的變化。

\[P(A|不合格) = \frac {0.5P(A)}{0.5P(A)+0.3P(B)+0.2P(C)}\\ P(B|不合格) = \frac {0.3P(B)}{0.5P(A)+0.3P(B)+0.2P(C)}\\ P(C|不合格) = \frac {0.5P(C)}{0.5P(A)+0.3P(B)+0.2P(C)}\\ \]

  這里的\(P(A|不合格)、P(B|不合格)、P(C|不合格)\)就是所謂的后驗概率,它通過綜合利用先驗信息和數據信息來決定A、B、C公司分別應該承擔的責任。而實際上P(A)、P(B)、P(C)也是一種后驗概率,也就是某一家公司生產的不合格率,寫清晰一點就是\(P(不合格|A)、P(不合格|B)、P(不合格|C)\)
  於是便有了著名的貝葉斯公式:

\[P(A_1|B) = \frac{P(A_1)P(B|A_1)}{\sum_{i=1}^nP(A_i)P(B|A_i)} \]

  其中,\(P(B) = \sum_{i=1}^nP(A_i)P(B|A_i)\)為全概率公式

3. 基於貝葉斯統計的估計思想

  在貝葉斯統計中,認為一切參數為隨機變量。因此,對於線性模型\(Y = X\beta +\varepsilon\),貝葉斯統計中同樣也認為\(\beta\)是一個隨機變量,因此也服從一個分布\(\beta \sim F(\beta)\),而這個\(F(\beta)\)也就是\(\beta\)的一個先驗分布。當固定X的時候,就稱\(F(\beta|X)\)\(\beta\)的后驗分布,而這個分布綜合了先驗信息和數據信息。而貝葉斯統計的思路就是利用這個后驗分布求后驗均值/中位數等特征來作為\(\beta\)

  以后驗均值為例:(對於后驗密度函數\(f(\beta|X)\))

\[\hat \beta = E(\beta) = \int_{- \infty}^{+ \infty} \beta f(\beta|X) d\beta = \int_{- \infty}^{+ \infty} \beta \frac{f(\beta) f(X|\beta)}{f(X)} d\beta = \frac{1}{f(X)} \int_{- \infty}^{+ \infty} \beta f(\beta) f(X|\beta) d\beta \]

  其中,我們也把\(f(\beta) f(X|\beta)\)稱為核。由上述可以看出\(f(\beta|X)\)應該是和\(f(\beta)f(X|\beta)\)成正比的,就差了一個常數,即有:

\[f(\beta|X) \propto f(\beta) f(X|\beta) = \pi(\beta)L(\beta, X) \]

  其中,\(\pi(\beta)\)指的是先驗信息,\(f(X|\beta)\)就相當於似然函數,因為我們之前求似然函數的時候也是把\(\beta\)固定后寫出的。

4. 線性模型再議

  這里只議論假設1的情況,其他的假設也是類似的。當我們的模型基於假設1的時候,即\(\varepsilon \sim N(0, \sigma^2I_n)\)

\[L(\beta, \sigma^2, Y, X) = (\frac{1}{\sqrt{2\pi}\sigma})^n e^{- \frac{1}{2 \sigma^2} \displaystyle \sum_{i=1}^n(y_i - x_i\beta)^2} \]

  因此,有:
\begin{equation}
\begin{split}
f(\beta|(x,y)) & \propto \pi(\beta)(\frac{1}{\sqrt{2\pi}\sigma})^n e^{- \frac{1}{2 \sigma^2} \displaystyle \sum_{i=1}^n(y_i - x_i\beta)^2}\\
& \propto \pi(\beta) e^{- \frac{1}{2 \sigma^2} \displaystyle \sum_{i=1}^n(y_i - x_i\beta)^2}
\end{split}
\end{equation}

  其實我們可以發現\(f(\beta|(x,y))\)也有\(\sum_{i=1}^n(y_i - x_i\beta)^2\)的部分,這正好也對應着損失函數,此外在這里的先驗概率\(\pi(\beta)\)實際上是由我們來定的。

5. 先驗信息的確定方法

5.1 無信息先驗

  當我們對\(\beta\)一無所知的時候,那么我們便認為取任何值都是等可能的,此時的先驗概率\(\pi(\beta) \propto k\),k為常數

5.2 共軛先驗

  所謂共軛先驗也就是取一個先驗概率,乘以似然函數,不會改變似然的分布。例如正態分布和正態分布是共軛的,伽馬分布和伽馬分布是共軛的
  根據共軛先驗,我們可以設\(\pi(\beta) \sim N(\beta, \sigma_{\beta}^2)\),即\(\pi(\beta) \propto e^{a\beta^2 + b\beta + c}\),之后只要對\(\pi(\beta)L(\beta, \sigma^2, Y, X)\)進行配平方,配成\(e^{-\frac{(x - \mu)^2}{2\sigma^2}}\)的形式,里面的\(\mu\)就是我們要求的估計
  而如果對\(\sigma^2\)來說,
\begin{equation}
\begin{split}
f(\sigma^2|X,Y) & \propto \pi(\sigma^2)L(\beta, \sigma^2, Y, X)\\
& \propto \pi(\sigma^2) (\sigma^2 )^{ \frac{-n}{2}} e^{\frac{-k}{ \sigma^2}}
\end{split}
\end{equation}

  其中,\(k= \frac{1}{2} \sum_{i=1}^n(y_i - x_i\beta)^2\)
  可以看出似然函數應該是一個伽馬分布(\(p(x) = \frac {\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha - 1}e^{\alpha x}\)),那么根據共軛先驗\(\pi(\sigma)\)應該也是一個伽馬分布。

  • tip:除了這兩種方法之后,還有一種信息最大的方法,因為沒怎么了解過,在這里就不談了。吐血

6. 結語

  至此,我們終於完成了分別從損失函數、似然函數和貝葉斯這三個角度討論線性模型的偉業微笑。實際上,這三種角度其實是模型的三種不同的范式,有許多問題都可以分別從這三個框架來進行研究。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM