均方誤差損失函數


假設我們的模型是二維平面的線性回歸模型: [公式] ,對於這個模型,我們定義損失函數為MSE,將得到如下的表達式:

 

下面我們試着通過概率的角度,推導出上述的MSE損失函數表達式。

在線性回歸模型中,我們最終希望對於輸入 [公式] 進行線性組合得到值Y,考慮到輸入帶有噪聲的情況的表達式如下:

[公式]

為了使模型更合理,我們假設 [公式] 服從均值為0,方差為1的高斯分布,即 [公式] 。所以有:

[公式]

[公式]

所以,Y服從均值為 [公式] ,方差為1的高斯分布,則樣本點的 [公式] 概率為:

[公式]

有了單個樣本的概率,我們就可以計算樣本集的似然概率,我們假設每個樣本是獨立的:

[公式]

對似然函數取對數,得到對數似然函數:

[公式]

這個對數似然函數的形式和我們的MSE損失函數的定義是一樣的。所以,使用MSE損失函數意味着,我們假設我們的模型是對噪聲的輸入做估計,該噪聲服從高斯分布。

缺點

使用MSE的一個缺點就是其偏導值在輸出概率值接近0或者接近1的時候非常小,這可能會造成模型剛開始訓練時,偏導值幾乎消失。

假設我們的MSE損失函數為: [公式] ,偏導為: [公式] ,其中 [公式]  [公式] 。可以看出來,在 [公式] 值接近0或者1的時候, [公式] 的值都會接近於0,其函數圖像如下:

 

 

這導致模型在一開始學習的時候速率非常慢,而使用交叉熵作為損失函數則不會導致這樣的情況發生。

 

ref:https://zhuanlan.zhihu.com/p/35707643

 https://rohanvarma.me/Loss-Functions/(致敬原作者)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM