均方誤差究竟是怎么來的?

本文轉載自查看原文 2019-05-12 13:51 1000

當我們遇到一個線性回歸問題時，為什么使用最小平方和作為損失函數？
本文中，我們將從概率的角度來解釋，線性回歸和最小平方和的關系。
不妨假設目標值$y^{{(}i{)}}$與輸入值$x^{{(}i{)}}$關系為

\[y^{(i)}=\theta^{(T)}x^{(i)}+\epsilon^{(i)} \]

其中$\epsilon^{(i)}$用於表示一些隨機噪聲或者相關的影響，並且我們假設$\epsilon^{(i)}$是獨立同分布的，符合均值為0，方差為$\sigma^2$的高斯分布。
也就是說, $\epsilon^{(i)}$ ~ $N(0, \sigma^2)$

$\epsilon^{(i)}$的概率密度為$$p(\epsilon^{(i)})=\frac{1}{\sqrt{2{\pi}}\sigma}exp{\Bigg(}{-\frac{{{(}\epsilon^{(i)}{)}}^2}{2\sigma^2}}{\Bigg)}$$

根據我們建立的目標與輸入值的關系，可以代入上述公式，即

\[p(y^{(i)}|x^{(i)};\theta)=\frac{1}{\sqrt{2{\pi}}\sigma}exp{\Bigg(}{-\frac{{{(}y^{(i)}-\theta^Tx^{(i)}{)}}^2}{2\sigma^2}}{\Bigg)} \]

其中，$p(y^{(i)}|x^{(i)};\theta)$即為用參數$\theta$衡量的，給定$x^{{(}i{)}}$下，$y^{{(}i{)}}$的分布，我們也可視作$\underline{y^{{(}i{)}}|x^{{(}i{)}};\theta}$ $\,$ ~ $\,$ $N(\theta^Tx^{{(}i{)}},\sigma^2)$

如果我們將輸入矩陣$X$定義為

\[\left[ \begin{matrix} \underline{\quad}x^{(1)T} \underline{\quad}\\ \underline{\quad}x^{(2)T} \underline{\quad}\\ \underline{\quad}x^{(3)T} \underline{\quad}\\ \vdots\\ \underline{\quad}x^{(m)T} \underline{\quad}\\ \end{matrix} \right] \]

目標向量$\vec{y}$定義為

\[\left[ \begin{matrix} y^{(1)}\\ y^{(2)}\\ y^{(3)}\\ \vdots\\ y^{(m)}\\ \end{matrix} \right] \]

那么在給定$X$和參數$\theta$時，$\vec{y}$的分布可以用$p{(}\vec{y}|X;\theta{)}$來衡量

當我們將上式看成是$\theta$的函數時，該式即為似然函數

\[L{(}\theta{)}=L{(}\theta;X,\vec{y}{)}=p{(}\vec{y}|X;\theta{)} \]

根據我們之前$\epsilon^{(i)}$相互獨立的假設，上式可以寫成

\[\begin{eqnarray} L{(}\theta{)}&=&\prod_{i=1}^mp(y^{(i)}|x^{(i)};\theta{)}\\ &=&\prod_{i=1}^m\frac{1}{\sqrt{2{\pi}}\sigma}exp{\Bigg(}{-\frac{{{(}y^{(i)}-\theta^Tx^{(i)}{)}}^2}{2\sigma^2}}{\Bigg)} \end{eqnarray} \]

根據極大似然估計法，我們應該選擇使得$L{(}\theta{)}$最大的$\theta$，我們同樣可以選擇最大化$L{(}\theta{)}$的一個嚴格遞增函數，比如我們可以最大化對數似然函數（方便計算），於是乎

\[\begin{eqnarray} logL{(}\theta{)}&=&log\prod_{i=1}^m\frac{1}{\sqrt{2{\pi}}\sigma}exp{\Bigg(}{-\frac{{{(}y^{(i)}-\theta^Tx^{(i)}{)}}^2}{2\sigma^2}}{\Bigg)}\\ &=&\sum_{i=1}^mlog\frac{1}{\sqrt{2{\pi}}\sigma}exp{\Bigg(}{-\frac{{{(}y^{(i)}-\theta^Tx^{(i)}{)}}^2}{2\sigma^2}}{\Bigg)}\\ &=&mlog\frac{1}{\sqrt{2{\pi}}\sigma}-\frac{1}{\sigma^{2}}\cdot\frac{1}{2}\sum_{i=1}^m{{{(}y^{(i)}-\theta^Tx^{(i)}{)}}^2} \end{eqnarray} \]

因此，最大化上式等價於最小化

\[\frac{1}{2}\sum_{i=1}^m{{{(}y^{(i)}-\theta^Tx^{(i)}{)}}^2} \]

也就是我們的最小平方和損失函數。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Istio究竟是干嘛的？ JavaScript 究竟是怎樣執行的？究竟是誰彈出的窗 DPC究竟是什么 DCEP究竟是什么？ “利潤”究竟是什么 webpack究竟是什么【翻譯】PATH究竟是什么？ ZigBee究竟是什么？有什么用？爬蟲究竟是合法還是違法的？