交叉熵損失函數的求導(Logistic回歸)

本文轉載自查看原文 2021-08-05 11:01 170 機器學習

前言

最近有遇到些同學找我討論sigmoid訓練多標簽或者用在目標檢測中的問題，我想寫一些他們的東西，想到以前的博客里躺着這篇文章（2015年讀研時機器學課的作業）感覺雖然不夠嚴謹，但是很多地方還算直觀，就先把它放過來吧。

說明: 本文只討論Logistic回歸的交叉熵，對Softmax回歸的交叉熵類似（Logistic回歸和Softmax回歸兩者本質是一樣的，后面我會專門有一篇文章說明兩者關系，先在這里挖個坑）。首先，我們二話不說，先放出邏輯回歸交叉熵的公式：

$J(\theta)=-\frac{1}{m}\sum_{i=1}^{m}y^{(i)}\log(h_\theta(x^{(i)}))+(1-y^{(i)})\log(1-h_\theta(x^{(i)})),$

以及 $J(\theta)$ 對參數 $\theta$ 的偏導數（用於諸如梯度下降法等優化算法的參數更新），如下：

$\frac{\partial}{\partial\theta_{j}}J(\theta) =\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}$

但是在大多論文或數教程中，也就是直接給出了上面兩個公式，而未給出推導過程，這就給初學者造成了一定的困惑。交叉熵的公式可以用多種解釋得到，甚至不同領域也會有不同，比如數學系的用極大似然估計，信息工程系的的從信息編碼角度，當然更多是聯合KL散度來解釋。但是我這里假設那些你都不了解的情況下如何用一個更加直白和直觀的解釋來得到Logistic Regression的交叉熵損失函數，說清楚它存在的合理性就可以解惑（關於交叉熵的所謂"正統"解釋后續我會專門寫一篇文章來總結，先挖個坑）。因水平有限，如有錯誤，歡迎指正。

廢話不說，下文將介紹一步步得到Logistic Regression的交叉熵損失函數，並推導出其導數，同時給出簡潔的向量形式及其導數推導過程。

交叉熵損失函數(Logistic Regression代價函數)

我們一共有 $m$ 組已知樣本（ $Batch size = m$ ）， $(x^{(i)},y^{(i)})$ 表示第 $i$ 組數據及其對應的類別標記。其中 $x^{(i)}=(1,x^{(i)}_1,x^{(i)}_2,...,x^{(i)}_p)^T$ 為 $p+1$ 維向量（考慮偏置項）， $y^{(i)}$ 則為表示類別的一個數：

logistic回歸（是非問題）中， $y^{(i)}$ 取0或者1；
softmax回歸 （多分類問題）中， $y^{(i)}$ 取1,2...k中的一個表示類別標號的一個數（假設共有k類）。

這里，只討論logistic回歸，輸入樣本數據 $x^{(i)}=(1,x^{(i)}_1,x^{(i)}_2,...,x^{(i)}_p)^T$ ，模型的參數為 $\theta=(\theta_0,\theta_1,\theta_2,...,\theta_p)^T$ ,因此有

$\theta^T x^{(i)}:=\theta_0+\theta_1 x^{(i)}_1+\dots+\theta_p x^{(i)}_p.$

二元問題中常用sigmoid作為假設函數（hypothesis function），定義為：

$h_\theta(x^{(i)})=\frac{1}{1+e^{-\theta^T x^{(i)}} }.$

因為Logistic回歸問題就是0/1的二分類問題，可以有

$P({\hat{y}}^{(i)}=1|x^{(i)};\theta)=h_\theta(x^{(i)}) \\ P({\hat{y}}^{(i)}=0|x^{(i)};\theta)=1-h_\theta(x^{(i)})$

現在，我們不考慮“熵”的概念，根據下面的說明，從簡單直觀角度理解，就可以得到我們想要的損失函數：我們將概率取對數，其單調性不變，有

$\log P({\hat{y}}^{(i)}=1|x^{(i)};\theta)=\log h_\theta(x^{(i)})=\log\frac{1}{1+e^{-\theta^T x^{(i)}} } \\ \log P({\hat{y}}^{(i)}=0|x^{(i)};\theta)=\log (1-h_\theta(x^{(i)}))=\log\frac{e^{-\theta^T x^{(i)}}}{1+e^{-\theta^T x^{(i)}} }$

那么對於第 $i$ 組樣本，假設函數表征正確的組合對數概率為：

$I\{y^{(i)}=1\}\log P({\hat{y}}^{(i)}=1|x^{(i)};\theta)+I\{y^{(i)}=0\}\log P({\hat{y}}^{(i)}=0|x^{(i)};\theta)\\ =y^{(i)}\log P({\hat{y}}^{(i)}=1|x^{(i)};\theta)+(1-y^{(i)})\log P({\hat{y}}^{(i)}=0|x^{(i)};\theta)\\ =y^{(i)}\log(h_\theta(x^{(i)}))+(1-y^{(i)})\log(1-h_\theta(x^{(i)}))$

其中， $I\{y^{(i)}=1\}$ 和 $I\{y^{(i)}=0\}$ 為示性函數（indicative function），簡單理解為{ }內條件成立時，取1，否則取0，這里不贅言。那么對於一共 $m$ 組樣本，我們就可以得到模型對於整體訓練樣本的表現能力：

$\sum_{i=1}^{m}y^{(i)}\log(h_\theta(x^{(i)}))+(1-y^{(i)})\log(1-h_\theta(x^{(i)}))$

由以上表征正確的概率含義可知，我們希望其值越大，模型對數據的表達能力越好。而我們在參數更新或衡量模型優劣時是需要一個能充分反映模型表現誤差的損失函數（Loss function）或者代價函數（Cost function）的，而且我們希望損失函數越小越好。由這兩個矛盾，那么我們不妨領代價函數為上述組合對數概率的相反數：

$J(\theta)=-\frac{1}{m}\sum_{i=1}^{m}y^{(i)}\log(h_\theta(x^{(i)}))+(1-y^{(i)})\log(1-h_\theta(x^{(i)}))$

上式即為大名鼎鼎的交叉熵損失函數。(說明：如果熟悉“信息熵"的概念 $E[-\log p_i]=-\sum_{i=1}^mp_i\log p_i$ ，那么可以有助理解叉熵損失函數）

交叉熵損失函數的求導

這步需要用到一些簡單的對數運算公式，這里先以編號形式給出，下面推導過程中使用特意說明時都會在該步驟下腳標標出相應的公式編號，以保證推導的連貫性。

① $\log \frac{a}{b}=\log a-\log b$

② $\log a+\log b=\log (ab)$

③ $a=\log e^a$ (為了方便這里 $\log$ 指 $\log_e$ ，即 $\ln$ ，其他底數如2,10等，由換底公式可知，只是前置常數系數不同，對結論毫無影響)

另外，值得一提的是在這里涉及的求導均為矩陣、向量的導數（矩陣微商），這里有一篇教程總結得精簡又全面，非常棒，推薦給需要的同學。

下面開始推導：

交叉熵損失函數為：

$J(\theta)=-\frac{1}{m}\sum_{i=1}^{m}y^{(i)}\log(h_\theta(x^{(i)}))+(1-y^{(i)})\log(1-h_\theta(x^{(i)}))\tag{1}$

其中，

$\log h_\theta(x^{(i)})=\log\frac{1}{1+e^{-\theta^T x^{(i)}} }=-\log ( 1+e^{-\theta^T x^{(i)}} )\ ,\\ \begin{align}\log(1- h_\theta(x^{(i)}))&=\log(1-\frac{1}{1+e^{-\theta^T x^{(i)}} })\\ &=\log(\frac{e^{-\theta^T x^{(i)}}}{1+e^{-\theta^T x^{(i)}} })\\&=\log (e^{-\theta^T x^{(i)}} )-\log ( 1+e^{-\theta^T x^{(i)}} ) \\ &=-\theta^T x^{(i)}-\log ( 1+e^{-\theta^T x^{(i)}} ) _{①③}\ . \end{align}$

由此，得到

$\begin{align} J(\theta) &=-\frac{1}{m}\sum_{i=1}^m \left[-y^{(i)}(\log ( 1+e^{-\theta^T x^{(i)}})) + (1-y^{(i)})(-\theta^T x^{(i)}-\log ( 1+e^{-\theta^T x^{(i)}} ))\right]\\ &=-\frac{1}{m}\sum_{i=1}^m \left[y^{(i)}\theta^T x^{(i)}-\theta^T x^{(i)}-\log(1+e^{-\theta^T x^{(i)}})\right]\\ &=-\frac{1}{m}\sum_{i=1}^m \left[y^{(i)}\theta^T x^{(i)}-\log e^{\theta^T x^{(i)}}-\log(1+e^{-\theta^T x^{(i)}})\right]_{③}\\ &=-\frac{1}{m}\sum_{i=1}^m \left[y^{(i)}\theta^T x^{(i)}-\left(\log e^{\theta^T x^{(i)}}+\log(1+e^{-\theta^T x^{(i)}})\right)\right] _②\\ &=-\frac{1}{m}\sum_{i=1}^m \left[y^{(i)}\theta^T x^{(i)}-\log(1+e^{\theta^T x^{(i)}})\right] \end{align}$

這次再計算 $J(\theta)$ 對第 $j$ 個參數分量 $\theta_j$ 求偏導:

$\begin{align} \frac{\partial}{\partial\theta_{j}}J(\theta) &=\frac{\partial}{\partial\theta_{j}}\left(\frac{1}{m}\sum_{i=1}^m \left[\log(1+e^{\theta^T x^{(i)}})-y^{(i)}\theta^T x^{(i)}\right]\right)\\ &=\frac{1}{m}\sum_{i=1}^m \left[\frac{\partial}{\partial\theta_{j}}\log(1+e^{\theta^T x^{(i)}})-\frac{\partial}{\partial\theta_{j}}\left(y^{(i)}\theta^T x^{(i)}\right)\right]\\ &=\frac{1}{m}\sum_{i=1}^m \left(\frac{x^{(i)}_je^{\theta^T x^{(i)}}}{1+e^{\theta^T x^{(i)}}}-y^{(i)}x^{(i)}_j\right)\\ &=\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)} \end{align}$

這就是交叉熵對參數的導數：

$\frac{\partial}{\partial\theta_{j}}J(\theta) =\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}$

向量形式

前面都是元素表示的形式，只是寫法不同，過程基本都是一樣的，不過寫成向量形式會更清晰，這樣就會把 $i$ 和求和符號 $\sum$ 省略掉了。我們不妨忽略前面的固定系數項 $1/m$ ，交叉墒的損失函數(1)則可以寫成下式：

$J(\theta) = -\left[ y^T \log h_\theta(x)+(1-y^T)\log(1-h_\theta(x))\right]\tag{2}$

將 $h_\theta(x)=\frac{1}{1+e^{-\theta^T x} }$ 帶入，得到：

$\begin{align} J(\theta) &= -\left[ y^T \log \frac{1}{1+e^{-\theta^T x} }+(1-y^T)\log\frac{e^{-\theta^T x}}{1+e^{-\theta^T x} }\right] \\ &= -\left[ -y^T \log (1+e^{-\theta^T x}) + (1-y^T) \log e^{-\theta^T x} - (1-y^T)\log (1+e^{-\theta^T x})\right] \\ &= -\left[(1-y^T) \log e^{-\theta^T x} - \log (1+e^{-\theta^T x}) \right]\\ &= -\left[(1-y^T ) (-\theta^Tx) - \log (1+e^{-\theta^T x}) \right] \end{align}$

再對 $\theta$ 求導，前面的負號直接削掉了，

$\begin{align} \frac{\partial}{\partial\theta_{j}}J(\theta) &= -\frac{\partial}{\partial\theta_{j}}\left[(1-y^T ) (-\theta^Tx) - \log (1+e^{-\theta^T x}) \right] \\ &= (1-y^T)x- \frac{e^{-\theta^Tx }}{1+e^{-\theta^T x} }x \\ &= (\frac{1}{1+e^{-\theta^T x} } - y^T)x \\ &= \left(h_\theta(x)-y^T \right)x \end{align}$

3 梯度下降參數更新

$m i n i m i z e J (w)$

轉載請注明出處Jason Zhao的知乎專欄“人工+智能“，文章鏈接：

Jason Zhao：交叉熵損失函數的求導(Logistic回歸)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 softmax交叉熵損失函數求導 logistic回歸算法的損失函數：binary_crossentropy（二元交叉熵）邏輯回歸(Logistic Regression)二分類原理，交叉熵損失函數及python numpy實現交叉熵代價函數(損失函數)及其求導推導交叉熵代價函數(損失函數)及其求導推導交叉熵代價函數(損失函數)及其求導推導交叉熵損失函數來源及求導推導 Logistic回歸中損失函數求導證明過程交叉熵損失函數交叉熵損失函數