當我們遇到一個線性回歸問題時,為什么使用最小平方和作為損失函數?
本文中,我們將從概率的角度來解釋,線性回歸和最小平方和的關系。
不妨假設目標值\(y^{{(}i{)}}\)與輸入值\(x^{{(}i{)}}\)關系為
\[y^{(i)}=\theta^{(T)}x^{(i)}+\epsilon^{(i)} \]
其中\(\epsilon^{(i)}\)用於表示一些隨機噪聲或者相關的影響,並且我們假設\(\epsilon^{(i)}\)是獨立同分布的,符合均值為0,方差為\(\sigma^2\)的高斯分布。
也就是說, \(\epsilon^{(i)}\) ~ \(N(0, \sigma^2)\)
\(\epsilon^{(i)}\)的概率密度為$$p(\epsilon^{(i)})=\frac{1}{\sqrt{2{\pi}}\sigma}exp{\Bigg(}{-\frac{{{(}\epsilon^{(i)}{)}}^2}{2\sigma^2}}{\Bigg)}$$
根據我們建立的目標與輸入值的關系,可以代入上述公式,即
\[p(y^{(i)}|x^{(i)};\theta)=\frac{1}{\sqrt{2{\pi}}\sigma}exp{\Bigg(}{-\frac{{{(}y^{(i)}-\theta^Tx^{(i)}{)}}^2}{2\sigma^2}}{\Bigg)} \]
其中,\(p(y^{(i)}|x^{(i)};\theta)\)即為用參數\(\theta\)衡量的,給定\(x^{{(}i{)}}\)下,\(y^{{(}i{)}}\)的分布, 我們也可視作\(\underline{y^{{(}i{)}}|x^{{(}i{)}};\theta}\) \(\,\) ~ \(\,\) \(N(\theta^Tx^{{(}i{)}},\sigma^2)\)
如果我們將輸入矩陣\(X\)定義為
\[\left[ \begin{matrix} \underline{\quad}x^{(1)T} \underline{\quad}\\ \underline{\quad}x^{(2)T} \underline{\quad}\\ \underline{\quad}x^{(3)T} \underline{\quad}\\ \vdots\\ \underline{\quad}x^{(m)T} \underline{\quad}\\ \end{matrix} \right] \]
目標向量\(\vec{y}\)定義為
\[\left[ \begin{matrix} y^{(1)}\\ y^{(2)}\\ y^{(3)}\\ \vdots\\ y^{(m)}\\ \end{matrix} \right] \]
那么在給定\(X\)和參數\(\theta\)時,\(\vec{y}\)的分布可以用\(p{(}\vec{y}|X;\theta{)}\)來衡量
當我們將上式看成是\(\theta\)的函數時,該式即為似然函數
\[L{(}\theta{)}=L{(}\theta;X,\vec{y}{)}=p{(}\vec{y}|X;\theta{)} \]
根據我們之前\(\epsilon^{(i)}\)相互獨立的假設,上式可以寫成
\[\begin{eqnarray} L{(}\theta{)}&=&\prod_{i=1}^mp(y^{(i)}|x^{(i)};\theta{)}\\ &=&\prod_{i=1}^m\frac{1}{\sqrt{2{\pi}}\sigma}exp{\Bigg(}{-\frac{{{(}y^{(i)}-\theta^Tx^{(i)}{)}}^2}{2\sigma^2}}{\Bigg)} \end{eqnarray} \]
根據極大似然估計法,我們應該選擇使得\(L{(}\theta{)}\)最大的\(\theta\),我們同樣可以選擇最大化\(L{(}\theta{)}\)的一個嚴格遞增函數,比如我們可以最大化對數似然函數(方便計算),於是乎
\[\begin{eqnarray} logL{(}\theta{)}&=&log\prod_{i=1}^m\frac{1}{\sqrt{2{\pi}}\sigma}exp{\Bigg(}{-\frac{{{(}y^{(i)}-\theta^Tx^{(i)}{)}}^2}{2\sigma^2}}{\Bigg)}\\ &=&\sum_{i=1}^mlog\frac{1}{\sqrt{2{\pi}}\sigma}exp{\Bigg(}{-\frac{{{(}y^{(i)}-\theta^Tx^{(i)}{)}}^2}{2\sigma^2}}{\Bigg)}\\ &=&mlog\frac{1}{\sqrt{2{\pi}}\sigma}-\frac{1}{\sigma^{2}}\cdot\frac{1}{2}\sum_{i=1}^m{{{(}y^{(i)}-\theta^Tx^{(i)}{)}}^2} \end{eqnarray} \]
因此,最大化上式等價於最小化
\[\frac{1}{2}\sum_{i=1}^m{{{(}y^{(i)}-\theta^Tx^{(i)}{)}}^2} \]
也就是我們的最小平方和損失函數。