這里大家可能已經發現了,到目前為止,我們沒有提到通常課本里所說的什么亂七八糟的正態分布啦,誤差項啦,這其實是屬於線性回歸的概率解釋。現在我們就來看一看線性回歸的概率模型解釋。
線性回歸的概率解釋
我們講線性回歸時用到了均方誤差損失,但沒有提到為什么損失函數要具有均方誤差的形式。概率解釋就給你其中一個理由。
下面我們假設輸入變量和輸出變量之間通過以下方程相關聯,
其中,誤差項\(\epsilon^{(i)}\) 表示沒有被模型考慮到的特征,比如說,除了房子面積之外,是否學區房等其他我們沒有考慮到的可能影響房價的因素,以及還表示一些隨機噪聲。
我們進一步假設各個誤差項之間是獨立同分布(independently and identically distributed,i.i.d.)於\(\mathcal{N}(0, \sigma)\) 。具體的,這個誤差項的密度函數為,
這也就意味着,
我們這里\(p\left(y^{(i)}|x^{(i)};\theta\right)\) 之所以用分號,是因為\(\epsilon^{(i)}\) 是參數,我們這里沒有把參數當成隨機變量。也可以直接將輸出的分布記為$y^{(i)}|x^{(i)};\theta\sim \mathcal{N}(0, \sigma) $ 。
給定數據設計矩陣\(X\) (design matrix)和參數\(\theta\) 之后。所有輸出的概率可以記為\(p\left(\vec{y}|X;\theta\right)\) 。這時,我們通常把它看作是\(p\left(\vec{y}|X;\theta\right)\) 的函數。當我們想要把它明確看成參數\(\theta\) 的函數時,通常用另一個符號表示,
這叫做數據的似然函數(likelihood function)。
進一步,我們有,
第一個等式是由於各個誤差項之間的獨立性。
現在若問在給定數據\(X\) 與\(\vec{y}\) 下,哪個參數才是最好的呢? 一個自然的想法是:在哪個參數下,數據\(X\) 與\(\vec{y}\) 更有可能出現,則這個參數就是最好的,也就是把最大化似然函數\(L(\theta)\) 的那個參數看成是最好的。注意我們這里把參數看成是變的。
給了將輸入數據\(X\) 與\(\vec{y}\) 聯系起來的概率模型,不僅可以最大化\(L(\theta)\) ,事實上,可以最大化任何一個關於\(L(\theta)\) 的增函數。因此我們一般最大化對數似然函數 (log likelihood function),也就是,
從最后一個等式可以看到最大化對數似然函數,正是最大化負的平方誤差函數損失函數(忽略系數與沒影響的常數)。完美解釋了之前為什么要用平方誤差函數:它對應於最大似然參數估計。
注意,概率模型的假設,對於最小化均方誤差函數卻不是必須的。就算沒有這個解釋,也存在其他解釋來證明最小均方誤差損失函數的合理性。還注意到假設中模型的方差對最后估計的參數沒有影響。這點我們以后在指數分布族和一般線性模型中還會再講。
總結一下,在相應概率模型假設下,前面的最小化均方誤差過程就對應於尋找參數的最大似然估計。
放松一下。