MSE损失函数和交叉熵损失函数的对比

本文转载自查看原文 2021-02-23 17:37 353 模式识别

为什么要用交叉熵来做损失函数：

在逻辑回归问题中，常常使用MSE（Mean Squared Error）作为loss函数，此时：

$loss=\frac{1}{2m}\sum_{i}^{m}(y_{i}-y^{'})^{2}$

这里的 $y_{i}$ 就表示期望输出， $y^{'}$ 表示原始的实际输出（就是还没有加softmax)。这里的m表示有m个样本，loss为m个样本的loss均值。MSE在逻辑回归问题中比较好用，那么在分类问题中还是如此么？我们来看看Loss曲线。

将原始的实际输出节点都经过softmax后拿出一个样例来看，使用MSE的loss为的loss函数为：

$loss_{i}=(y_{i}-y^{i'})^{2}=(y_{i}-\frac{e^{y_{i'}}}{\sum_{j = 1}^{n}{e^{y_{i'}}}} )^{2}$

其中 $y_{i}$ 和 ${\sum_{j = 1}^{n}{e^{y_{i'}}}}$ 为常数，那么loss就可以简化为

$loss_{i} = (c_{1}-\frac{e^{yi'}}{c_{2}})^{2}$

取c1=1,c2=2，绘制图像：

这是一个非凸函数,只有当损失函数为凸函数时，梯度下降算法才能保证达到全局最优解。所以MSE在分类问题中，并不是一个好的loss函数。

如果利用交叉熵作为损失函数的话，那么：

$loss = -\sum_{i=1}^{n}{y_{i}*log(y_{'})}$

还是一样， $y_{i}$ 就表示期望输出， $y^{'}$ 表示原始的实际输出（就是还没有加softmax),由于one-hot标签的特殊性，一个1，剩下全是0，loss可以简化为：

$loss_{i}=-log(y^{'})$

加入（softmax）得：

$loss_{i} = -log(c_{1}-\frac{e^{x}}{c_{2}})$

取C1=1,C2=2绘制曲线如下 :

相对MSE而言，曲线整体呈单调性，loss越大，梯度越大。便于梯度下降反向传播，利于优化。所以一般针对分类问题采用交叉熵作为loss函数。

Pytorch中的CrossEntropyLoss()函数，计算公式如下:

ref:https://zhuanlan.zhihu.com/p/145533813

交叉熵损失函数相对MSE避免了梯度消失的一些推导：

ref:https://www.cnblogs.com/wanghui-garcia/p/10862733.html

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 经典的损失函数：交叉熵和MSE 交叉熵损失函数损失函数：交叉熵交叉熵损失函数交叉熵损失函数交叉熵损失函数交叉熵--损失函数第五节，损失函数：MSE和交叉熵 [转] 为什么分类问题的损失函数采用交叉熵而不是均方误差MSE？交叉熵损失函数和均方误差损失函数