假設我們的模型是二維平面的線性回歸模型: ,對於這個模型,我們定義損失函數為MSE,將得到如下的表達式:
下面我們試着通過概率的角度,推導出上述的MSE損失函數表達式。
在線性回歸模型中,我們最終希望對於輸入 進行線性組合得到值Y,考慮到輸入帶有噪聲的情況的表達式如下:
為了使模型更合理,我們假設 服從均值為0,方差為1的高斯分布,即
。所以有:
所以,Y服從均值為 ,方差為1的高斯分布,則樣本點的
概率為:
有了單個樣本的概率,我們就可以計算樣本集的似然概率,我們假設每個樣本是獨立的:
對似然函數取對數,得到對數似然函數:
這個對數似然函數的形式和我們的MSE損失函數的定義是一樣的。所以,使用MSE損失函數意味着,我們假設我們的模型是對噪聲的輸入做估計,該噪聲服從高斯分布。
缺點
使用MSE的一個缺點就是其偏導值在輸出概率值接近0或者接近1的時候非常小,這可能會造成模型剛開始訓練時,偏導值幾乎消失。
假設我們的MSE損失函數為: ,偏導為:
,其中
為
。可以看出來,在
值接近0或者1的時候,
的值都會接近於0,其函數圖像如下:
這導致模型在一開始學習的時候速率非常慢,而使用交叉熵作為損失函數則不會導致這樣的情況發生。
ref:https://zhuanlan.zhihu.com/p/35707643
https://rohanvarma.me/Loss-Functions/(致敬原作者)