[轉] 為什么分類問題的損失函數采用交叉熵而不是均方誤差MSE？

本文轉載自查看原文 2021-06-14 15:48 1247

這篇寫的比較詳細：

from: https://zhuanlan.zhihu.com/p/35709485

這篇文章中，討論的Cross Entropy損失函數常用於分類問題中，但是為什么它會在分類問題中這么有效呢？我們先從一個簡單的分類例子來入手。

1. 圖像分類任務

我們希望根據圖片動物的輪廓、顏色等特征，來預測動物的類別，有三種可預測類別：貓、狗、豬。假設我們當前有兩個模型（參數不同），這兩個模型都是通過sigmoid/softmax的方式得到對於每個預測結果的概率值：

模型1：

預測	真實	是否正確
0.3 0.3 0.4	0 0 1 (豬)	正確
0.3 0.4 0.3	0 1 0 (狗)	正確
0.1 0.2 0.7	1 0 0 (貓)	錯誤

模型1對於樣本1和樣本2以非常微弱的優勢判斷正確，對於樣本3的判斷則徹底錯誤。

模型2：

預測	真實	是否正確
0.1 0.2 0.7	0 0 1 (豬)	正確
0.1 0.7 0.2	0 1 0 (狗)	正確
0.3 0.4 0.3	1 0 0 (貓)	錯誤

模型2對於樣本1和樣本2判斷非常准確，對於樣本3判斷錯誤，但是相對來說沒有錯得太離譜。

好了，有了模型之后，我們需要通過定義損失函數來判斷模型在樣本上的表現了，那么我們可以定義哪些損失函數呢？

1.1 Classification Error（分類錯誤率）

最為直接的損失函數定義為： $classification\ error=\frac{count\ of\ error\ items}{count\ of \ all\ items}$

模型1： $classification\ error=\frac{1}{3}$

模型2： $classification\ error=\frac{1}{3}$

我們知道，模型1和模型2雖然都是預測錯了1個，但是相對來說模型2表現得更好，損失函數值照理來說應該更小，但是，很遺憾的是， $classification\ error$ 並不能判斷出來，所以這種損失函數雖然好理解，但表現不太好。

1.2 Mean Squared Error (均方誤差)

均方誤差損失也是一種比較常見的損失函數，其定義為： $MSE=\frac{1}{n}\sum_{i}^n(\hat{y_i}-y_i)^2$

模型1：

$\begin{aligned} \text{sample 1 loss=}(0.3-0)^2 + (0.3-0)^2 + (0.4-1)^2 = 0.54 \\ \text{sample 2 loss=}(0.3-0)^2 + (0.4-1)^2 + (0.3-0)^2 = 0.54 \\ \text{sample 3 loss=}(0.1-1)^2 + (0.2-0)^2 + (0.7-0)^2 = 1.34 \\ \end{aligned} \\$

對所有樣本的loss求平均：

$MSE=\frac{0.54+0.54+1.34}{3}=0.81 \\$

模型2：

$\begin{aligned} & \text{sample 1 loss=}(0.1-0)^2 + (0.2-0)^2 + (0.7-1)^2 = 0.14\\ &\text{sample 2 loss=}(0.1-0)^2 + (0.7-1)^2 + (0.2-0)^2 = 0.14\\ &\text{sample 3 loss=}(0.3-1)^2 + (0.4-0)^2 + (0.3-0)^2 = 0.74\\ \end{aligned} \\$

對所有樣本的loss求平均：

$MSE=\frac{0.14+0.14+0.74}{3}=0.34 \\$

我們發現，MSE能夠判斷出來模型2優於模型1，那為什么不采樣這種損失函數呢？主要原因是在分類問題中，使用sigmoid/softmx得到概率，配合MSE損失函數時，采用梯度下降法進行學習時，會出現模型一開始訓練時，學習速率非常慢的情況（MSE損失函數）。

有了上面的直觀分析，我們可以清楚的看到，對於分類問題的損失函數來說，分類錯誤率和均方誤差損失都不是很好的損失函數，下面我們來看一下交叉熵損失函數的表現情況。

1.3 Cross Entropy Loss Function（交叉熵損失函數）

1.3.1 表達式

(1) 二分類

在二分的情況下，模型最后需要預測的結果只有兩種情況，對於每個類別我們的預測得到的概率為 $p$ 和 $1-p$ ，此時表達式為：

$L = \frac{1}{N}\sum_{i} L_i = \frac{1}{N}\sum_{i}-[y_i\cdot log(p_i) + (1-y_i)\cdot log(1-p_i)] \\$

其中：
- $y_i$ —— 表示樣本 $i$ 的label，正類為 $1$ ，負類為 $0$
- $p_i$ —— 表示樣本 $i$ 預測為正類的概率

(2) 多分類

多分類的情況實際上就是對二分類的擴展：

$L = \frac{1}{N}\sum_{i} L_i = - \frac{1}{N}\sum_{i} \sum_{c=1}^My_{ic}\log(p_{ic}) \\$

其中：
- $M$ ——類別的數量
- $y_{ic}$ ——符號函數（ $0$ 或 $1$ ），如果樣本 $i$ 的真實類別等於 $c$ 取 $1$ ，否則取 $0$
- $p_{ic}$ ——觀測樣本 $i$ 屬於類別 $c$ 的預測概率

現在我們利用這個表達式計算上面例子中的損失函數值：

模型1：
$\begin{aligned} \text{sample 1 loss} = - (0\times log0.3 + 0\times log0.3 + 1\times log0.4) = 0.91 \\ \text{sample 2 loss} = - (0\times log0.3 + 1\times log0.4 + 0\times log0.3) = 0.91 \\ \text{sample 3 loss} = - (1\times log0.1 + 0\times log0.2 + 0\times log0.7) = 2.30 \\ \end{aligned} \\$

對所有樣本的loss求平均：

$L=\frac{0.91+0.91+2.3}{3}=1.37 \\$

模型2：

$\begin{aligned} \text{sample 1 loss} = - (0\times log0.1 + 0\times log0.2 + 1\times log0.7) = 0.35 \\ \text{sample 2 loss} = - (0\times log0.1 + 1\times log0.7 + 0\times log0.2) = 0.35 \\ \text{sample 3 loss} = - (1\times log0.3 + 0\times log0.4 + 0\times log0.4) = 1.20 \\ \end{aligned} \\$

對所有樣本的loss求平均：

$L=\frac{0.35+0.35+1.2}{3}=0.63 \\$

可以發現，交叉熵損失函數可以捕捉到模型1和模型2預測效果的差異。

2. 函數性質

可以看出，該函數是凸函數，求導時能夠得到全局最優值。

3. 學習過程

交叉熵損失函數經常用於分類問題中，特別是在神經網絡做分類問題時，也經常使用交叉熵作為損失函數，此外，由於交叉熵涉及到計算每個類別的概率，所以交叉熵幾乎每次都和sigmoid(或softmax)函數一起出現。

我們用神經網絡最后一層輸出的情況，來看一眼整個模型預測、獲得損失和學習的流程：

神經網絡最后一層得到每個類別的得分scores（也叫logits）；
該得分經過sigmoid(或softmax)函數獲得概率輸出；
模型預測的類別概率輸出與真實類別的one hot形式進行交叉熵損失函數的計算。

學習任務分為二分類和多分類情況，我們分別討論這兩種情況的學習過程。

3.1 二分類情況

二分類交叉熵損失函數學習過程

如上圖所示，求導過程可分成三個子過程，即拆成三項偏導的乘積：

$\frac{\partial L_i}{\partial w_i}=\frac{1}{N}\frac{\partial L_i}{\partial w_i}=\frac{1}{N}\frac{\partial L_i}{\partial p_i}\cdot \frac{\partial p_i}{\partial s_i}\cdot \frac{\partial s_i}{\partial w_i}\\$

3.1.1 計算第一項： $\frac{\partial L_i}{\partial p_i}$

$L_i = -[y_i\cdot log(p_i) + (1-y_i)\cdot log(1-p_i)] \\$

- $p_i$ 表示樣本 $i$ 預測為正類的概率

- $y_i$ 為符號函數，樣本 $i$ 為正類時取 $1$ ，否則取 $0$

$\begin{aligned} \frac{\partial L_i}{\partial p_i} &=\frac{\partial -[y_i\cdot log(p_i) + (1-y_i)\cdot log(1-p_i)]}{\partial p_i}\\ &= -\frac{y_i}{p_i}-[(1-y_i)\cdot \frac{1}{1-p_i}\cdot (-1)] \\ &= -\frac{y_i}{p_i}+\frac{1-y_i}{1-p_i} \\ \end{aligned} \\$

3.1.2 計算第二項： $\frac{\partial p_i}{\partial s_i}$

這一項要計算的是sigmoid函數對於score的導數，我們先回顧一下sigmoid函數和分數求導的公式：

$p = \sigma(s) = \frac{e^{s}}{1+e^{s}} \\$
$f'(x) = \frac{g(x)}{h(x)}=\frac{g'(x)h(x)-g(x){h}'(x)}{h^2(x)} \\$

$\begin{aligned} \frac{\partial p_i}{\partial s_i} &= \frac{(e^{s_i})'\cdot (1+e^{s_i})-e^{s_i}\cdot (1+e^{s_i})'}{(1+e^{s_i})^2} \\ &= \frac{e^{s_i}\cdot (1+e^{s_i})-e^{s_i}\cdot e^{s_i}}{(1+e^{s_i})^2} \\ &= \frac{e^{s_i}}{(1+e^{s_i})^2} \\ &= \frac{e^{s_i}}{1+e^{s_i}}\cdot \frac{1}{1+e^{s_i}} \\ &= \sigma(s_i)\cdot [1-\sigma(s_i)] \\ \end{aligned} \\$

3.1.3 計算第三項： $\frac{\partial s_i}{\partial w_i \\}$

一般來說，scores是輸入的線性函數作用的結果，所以有：
$\frac{\partial s_i}{\partial w_i}=x_i \\$

3.1.4 計算結果 $\frac{\partial L_i}{\partial w_i}$

$\begin{aligned} \frac{\partial L_i}{\partial w_i} &= \frac{\partial L_i}{\partial p_i}\cdot \frac{\partial p_i}{\partial s_i}\cdot \frac{\partial s_i}{\partial w_i} \\ &= [-\frac{y_i}{p_i}+\frac{1-y_i}{1-p_i}] \cdot \sigma(s_i)\cdot [1-\sigma(s_i)]\cdot x_i \\ &= [-\frac{y_i}{\sigma(s_i)}+\frac{1-y_i}{1-\sigma(s_i)}] \cdot \sigma(s_i)\cdot [1-\sigma(s_i)]\cdot x_i \\ &= [-\frac{y_i}{\sigma(s_i)}\cdot \sigma(s_i)\cdot (1-\sigma(s_i))+\frac{1-y_i}{1-\sigma(s_i)}\cdot \sigma(s_i)\cdot (1-\sigma(s_i))]\cdot x_i \\ &= [-y_i+y_i\cdot \sigma(s_i)+\sigma(s_i)-y_i\cdot \sigma(s_i)]\cdot x_i \\ &= [\sigma(s_i)-y_i]\cdot x_i \\ \end{aligned} \\$

可以看到，我們得到了一個非常漂亮的結果，所以，使用交叉熵損失函數，不僅可以很好的衡量模型的效果，又可以很容易的的進行求導計算。

3.2 多分類情況

待整理

4. 優缺點

4.1 優點

在用梯度下降法做參數更新的時候，模型學習的速度取決於兩個值：一、學習率；二、偏導值。其中，學習率是我們需要設置的超參數，所以我們重點關注偏導值。從上面的式子中，我們發現，偏導值的大小取決於 $x_i$ 和 $[\sigma(s)-y]$ ，我們重點關注后者，后者的大小值反映了我們模型的錯誤程度，該值越大，說明模型效果越差，但是該值越大同時也會使得偏導值越大，從而模型學習速度更快。所以，使用邏輯函數得到概率，並結合交叉熵當損失函數時，在模型效果差的時候學習速度比較快，在模型效果好的時候學習速度變慢。

4.2 缺點

Deng [4]在2019年提出了ArcFace Loss，並在論文里說了Softmax Loss的兩個缺點：1、隨着分類數目的增大，分類層的線性變化矩陣參數也隨着增大；2、對於封閉集分類問題，學習到的特征是可分離的，但對於開放集人臉識別問題，所學特征卻沒有足夠的區分性。對於人臉識別問題，首先人臉數目(對應分類數目)是很多的，而且會不斷有新的人臉進來，不是一個封閉集分類問題。

另外，sigmoid(softmax)+cross-entropy loss 擅長於學習類間的信息，因為它采用了類間競爭機制，它只關心對於正確標簽預測概率的准確性，忽略了其他非正確標簽的差異，導致學習到的特征比較散。基於這個問題的優化有很多，比如對softmax進行改進，如L-Softmax、SM-Softmax、AM-Softmax等。

5. 參考

[1]. 博客 - 神經網絡的分類模型 LOSS 函數為什么要用 CROSS ENTROPY

[2]. 博客 - Softmax as a Neural Networks Activation Function

[3]. 博客 - A Gentle Introduction to Cross-Entropy Loss Function

[4]. Deng, Jiankang, et al. "Arcface: Additive angular margin loss for deep face recognition." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.

這篇也不錯

from: https://zhuanlan.zhihu.com/p/104130889

假設給定輸入為x，label為y，其中y的取值為0或者1，是一個分類問題。我們要訓練一個最簡單的Logistic Regression來學習一個函數f(x)使得它能較好的擬合label，如下圖所示。

其中 $z(x) = w*x + b$ ， $a(z) = \sigma(z) = \frac{1}{1+e^{-z}}$ 。

也即，我們要學的函數 $a(x) = \sigma(w*x + b)$ 。目標為使a(x)與label y越逼近越好。用哪種Loss來衡量這個逼近呢？我們可以回憶下交叉熵Loss和均方差Loss定義是什么：

最小均方誤差，MSE（Mean Squared Error）Loss
$L_{mse} = \frac{1}{2}(a - y)^2$
交叉熵誤差CEE（Cross Entropy Error）Loss
$L_{cee} = -(y*ln(a) + (1-y)*ln(1-a))$

我們想衡量模型輸出a和label y的逼近程度，其實這兩個Loss都可以。但是為什么Logistic Regression采用的是交叉熵作為損失函數呢？看下這兩個Loss function對w的導數，也就是SGD梯度下降時，w的梯度。

最小均方差
$\frac {\partial L_{mse}}{\partial w} = \frac {\partial L}{\partial a} * \frac {\partial a}{\partial z} * \frac {\partial z}{\partial w} = (a-y) * \sigma^{'}(z)* x$
交叉熵
$\frac {\partial L_{cee}}{\partial w} = (-\frac {y}{a} + \frac {1-y}{1-a}) * \sigma^{'}(z)* x$
由於 $\sigma^{'}(z) = \sigma(z) * (1 - \sigma(z)) = a * (1-a)$ ，則： $\frac {\partial L_{cee}}{\partial w} = (ay-y+a-ay)*x = (a-y)*x$

sigmoid函數 $\sigma(z)$ 如下圖所示，可知的導數sigmoid $\sigma^{'}(z)$ 在輸出接近 0 和 1 的時候是非常小的，故導致在使用最小均方差Loss時，模型參數w會學習的非常慢。而使用交叉熵Loss則沒有這個問題。為了更快的學習速度，分類問題一般采用交叉熵損失函數。

當label = 1，也即 $y=1$ ，交叉熵損失函數 $L_{cee} = -(y*ln(a) + (1-y)*ln(1-a)) = -ln(a)$

如圖所示，可知交叉熵損失函數的值域為 $[0,+\infty)$

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 損失函數——均方誤差和交叉熵損失函數（均方誤差、交叉熵）交叉熵損失函數和均方誤差損失函數經典的損失函數：交叉熵和MSE 【AI學習總結】均方誤差（Mean Square Error,MSE）與交叉熵（Cross Entropy,CE）損失函數 MSE損失函數和交叉熵損失函數的對比均方誤差和交叉熵損失函數比較直觀理解為什么分類問題用交叉熵損失而不用均方誤差損失? 損失函數：均方誤差函數和交叉熵損失函數的討論第五節，損失函數：MSE和交叉熵