原文:https://blog.csdn.net/jasonzzj/article/details/52017438
本文只討論Logistic回歸的交叉熵,對Softmax回歸的交叉熵類似。
交叉熵的公式
以及J(θ)對J(θ)對參數θ的偏導數(用於諸如梯度下降法等優化算法的參數更新),如下:
交叉熵損失函數
假設函數(hypothesis function)定義為:
因為Logistic回歸問題就是0/1的二分類問題,可以有
現在,我們不考慮“熵”的概念,根據下面的說明,從簡單直觀角度理解,就可以得到我們想要的損失函數:我們將概率取對數,其單調性不變,有:
那么對於第i組樣本,假設函數表征正確的組合對數概率為:
其中,I{y(i)=1}和I{y(i)=0}為示性函數(indicative function),簡單理解為{ }內條件成立時取1,否則取0。
由以上表征正確的概率含義可知,我們希望其值越大,模型對數據的表達能力越好。而我們在參數更新或衡量模型優劣時是需要一個能充分反映模型表現誤差的損失函數(Loss function)或者代價函數(Cost function)的,而且我們希望損失函數越小越好。由這兩個矛盾,那么我們不妨領代價函數為上述組合對數概率的相反數:
交叉熵損失函數的求導
這步需要用到一些簡單的對數運算公式,這里先以編號形式給出,下面推導過程中使用特意說明時都會在該步驟下腳標標出相應的公式編號,以保證推導的連貫性。
在這里涉及的求導均為矩陣、向量的導數(矩陣微商)。交叉熵損失函數為:
其中,
由此,得到 :
這次再計算J(θ)對第j個參數分量θj求偏導:
這就是交叉熵對參數的導數: