交叉熵代價函數

本文轉載自查看原文 2015-06-04 16:33 4029

本文是《Neural networks and deep learning》概覽中第三章的一部分，講machine learning算法中用得非常多的交叉熵代價函數。

1.從方差代價函數說起

代價函數經經常使用方差代價函數（即採用均方誤差MSE），比方對於一個神經元（單輸入單輸出，sigmoid函數）,定義其代價函數為：

當中y是我們期望的輸出，a為神經元的實際輸出【 a=σ(z), where z=wx+b 】。

在訓練神經網絡過程中，我們通過梯度下降算法來更新w和b，因此須要計算代價函數對w和b的導數：

然后更新w、b：

w <—— w - η* ∂C/∂w = w - η * a *σ′(z)

b <—— b - η* ∂C/∂b = b - η * a * σ′(z)

由於sigmoid函數的性質，導致σ′(z)在z取大部分值時會非常小（例如以下圖標出來的兩端，幾近於平坦），這樣會使得w和b更新非常慢（由於η * a * σ′(z)這一項接近於0）。

2.交叉熵代價函數（cross-entropy cost function）

為了克服這個缺點，引入了交叉熵代價函數（以下的公式相應一個神經元，多輸入單輸出）：

當中y為期望的輸出，a為神經元實際輸出【a=σ(z), where z=∑Wj*Xj+b】

與方差代價函數一樣，交叉熵代價函數相同有兩個性質：

非負性。（所以我們的目標就是最小化代價函數）
當真實輸出a與期望輸出y接近的時候，代價函數接近於0.(比方y=0，a～0；y=1，a~1時，代價函數都接近0)。

另外，它能夠克服方差代價函數更新權重過慢的問題。我們相同看看它的導數：

能夠看到，導數中沒有σ′(z)這一項，權重的更新是受σ(z)−y這一項影響，即受誤差的影響。所以當誤差大的時候，權重更新就快，當誤差小的時候，權重的更新就慢。這是一個非常好的性質。

3.總結

當我們用sigmoid函數作為神經元的激活函數時，最好使用交叉熵代價函數來替代方差代價函數，以避免訓練過程太慢。
只是，你或許會問，為什么是交叉熵函數？導數中不帶σ′(z)項的函數有無數種，怎么就想到用交叉熵函數？這自然是有來頭的，更深入的討論就不寫了，少年請自行了解。
另外，交叉熵函數的形式是−[ylna+(1−y)ln(1−a)]而不是 −[alny+(1−a)ln(1−y)]，為什么？由於當期望輸出的y=0時，lny沒有意義；當期望y=1時，ln(1-y)沒有意義。而由於a是sigmoid函數的實際輸出，永遠不會等於0或1，僅僅會無限接近於0或者1，因此不存在這個問題。

4.還要說說：log-likelihood cost

對數似然函數也經常使用來作為softmax回歸的代價函數，在上面的討論中，我們最后一層（也就是輸出）是通過sigmoid函數，因此採用了交叉熵代價函數。而深度學習中更普遍的做法是將softmax作為最后一層，此時經常使用的是代價函數是log-likelihood cost。

In fact, it’s useful to think of a softmax output layer with log-likelihood cost as being quite similar to a sigmoid output layer with cross-entropy cost。

事實上這兩者是一致的，logistic回歸用的就是sigmoid函數，softmax回歸是logistic回歸的多類別推廣。log-likelihood代價函數在二類別時就能夠化簡為交叉熵代價函數的形式。詳細能夠參考UFLDL教程

轉載請注明出處：http://blog.csdn.net/u012162613/article/details/44239919

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 交叉熵代價函數與二次代價函數交叉熵代價函數(損失函數)及其求導推導交叉熵代價函數(損失函數)及其求導推導交叉熵代價函數(損失函數)及其求導推導為什么交叉熵可以用於計算代價函數交叉熵代價函數（作用及公式推導） BP神經網絡——交叉熵作代價函數交叉熵代價函數（作用及公式推導）信息量，熵，交叉熵，相對熵與代價函數代價函數——二次代價函數、交叉熵(cross-entropy)、對數似然（log-likelihood cost）(04-1)