機器學習入門(五)之----線性回歸(概率解釋)


這里大家可能已經發現了,到目前為止,我們沒有提到通常課本里所說的什么亂七八糟的正態分布啦,誤差項啦,這其實是屬於線性回歸的概率解釋。現在我們就來看一看線性回歸的概率模型解釋。

img

線性回歸的概率解釋

我們講線性回歸時用到了均方誤差損失,但沒有提到為什么損失函數要具有均方誤差的形式。概率解釋就給你其中一個理由。

下面我們假設輸入變量和輸出變量之間通過以下方程相關聯,

\[\begin{equation} y^{(i)}=\theta^{T} x^{(i)}+\epsilon^{(i)} \end{equation} \]

其中,誤差項\(\epsilon^{(i)}\) 表示沒有被模型考慮到的特征,比如說,除了房子面積之外,是否學區房等其他我們沒有考慮到的可能影響房價的因素,以及還表示一些隨機噪聲。
我們進一步假設各個誤差項之間是獨立同分布(independently and identically distributed,i.i.d.)於\(\mathcal{N}(0, \sigma)\) 。具體的,這個誤差項的密度函數為,

\[\begin{equation} p\left(\epsilon^{(i)}\right)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(\epsilon^{(i)}\right)^{2}}{2 \sigma^{2}}\right) \end{equation} \]

這也就意味着,

\[p\left(y^{(i)}|x^{(i)};\theta\right)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T}x^{(i)}\right)^{2}}{2 \sigma^{2}}\right) \]

我們這里\(p\left(y^{(i)}|x^{(i)};\theta\right)\) 之所以用分號,是因為\(\epsilon^{(i)}\) 是參數,我們這里沒有把參數當成隨機變量。也可以直接將輸出的分布記為$y^{(i)}|x^{(i)};\theta\sim \mathcal{N}(0, \sigma) $ 。
給定數據設計矩陣\(X\) (design matrix)和參數\(\theta\) 之后。所有輸出的概率可以記為\(p\left(\vec{y}|X;\theta\right)\) 。這時,我們通常把它看作是\(p\left(\vec{y}|X;\theta\right)\) 的函數。當我們想要把它明確看成參數\(\theta\) 的函數時,通常用另一個符號表示,

\[L(\theta)=L(\theta;X,\vec{y})=p\left(\vec{y}|X;\theta\right) \]

這叫做數據的似然函數(likelihood function)。
進一步,我們有,

\[\begin{equation} \begin{aligned} L(\theta) &=\prod_{i=1}^{m} p\left(y^{(i)} | x^{(i)} ; \theta\right) \\ &=\prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right) \end{aligned} \end{equation} \]

第一個等式是由於各個誤差項之間的獨立性。
現在若問在給定數據\(X\)\(\vec{y}\) 下,哪個參數才是最好的呢? 一個自然的想法是:在哪個參數下,數據\(X\)\(\vec{y}\) 更有可能出現,則這個參數就是最好的,也就是把最大化似然函數\(L(\theta)\) 的那個參數看成是最好的。注意我們這里把參數看成是變的。
給了將輸入數據\(X\)\(\vec{y}\) 聯系起來的概率模型,不僅可以最大化\(L(\theta)\) ,事實上,可以最大化任何一個關於\(L(\theta)\) 的增函數。因此我們一般最大化對數似然函數 (log likelihood function),也就是,

\[\begin{aligned} \ell(\theta) &=\log L(\theta) \\ &=\log \prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right) \\ &=\sum_{i=1}^{m} \log \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right) \\ &=m \log \frac{1}{\sqrt{2 \pi} \sigma}-\frac{1}{\sigma^{2}} \cdot \frac{1}{2} \sum_{i=1}^{m}\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2} \end{aligned} \]

從最后一個等式可以看到最大化對數似然函數,正是最大化負的平方誤差函數損失函數(忽略系數與沒影響的常數)。完美解釋了之前為什么要用平方誤差函數:它對應於最大似然參數估計。

注意,概率模型的假設,對於最小化均方誤差函數卻不是必須的。就算沒有這個解釋,也存在其他解釋來證明最小均方誤差損失函數的合理性。還注意到假設中模型的方差對最后估計的參數沒有影響。這點我們以后在指數分布族和一般線性模型中還會再講。
總結一下,在相應概率模型假設下,前面的最小化均方誤差過程就對應於尋找參數的最大似然估計

img

放松一下。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM