【轉】詳解softmax函數以及相關求導過程

本文轉載自查看原文 2018-09-05 18:42 1282 Deep Learning

轉自：詳解softmax函數以及相關求導過程

這幾天學習了一下softmax激活函數，以及它的梯度求導過程，整理一下便於分享和交流！

一、softmax函數

softmax用於多分類過程中，它將多個神經元的輸出，映射到（0,1）區間內，可以看成概率來理解，從而來進行多分類！

假設我們有一個數組，V，Vi表示V中的第i個元素，那么這個元素的softmax值就是

更形象的如下圖表示：

softmax直白來說就是將原來輸出是3,1,-3通過softmax函數一作用，就映射成為(0,1)的值，而這些值的累和為1（滿足概率的性質），那么我們就可以將它理解成概率，在最后選取輸出結點的時候，我們就可以選取概率最大（也就是值對應最大的）結點，作為我們的預測目標！

舉一個我最近碰到利用softmax的例子：我現在要實現基於神經網絡的句法分析器。用到是基於轉移系統來做，那么神經網絡的用途就是幫我預測我這一個狀態將要進行的動作是什么？比如有10個輸出神經元，那么就有10個動作，1動作，2動作，3動作...一直到10動作。（這里涉及到nlp的知識，大家不用管，只要知道我現在根據每個狀態（輸入），來預測動作（得到概率最大的輸出），最終得到的一系列動作序列就可以完成我的任務即可）

原理圖如下圖所示：

那么比如在一次的輸出過程中輸出結點的值是如下：

[0.2,0.1,0.05,0.1,0.2,0.02,0.08,0.01,0.01,0.23]

那么我們就知道這次我選取的動作是動作10，因為0.23是這次概率最大的，那么怎么理解多分類呢？很容易，如果你想選取倆個動作，那么就找概率最大的倆個值即可~（這里只是簡單的告訴大家softmax在實際問題中一般怎么應用）

二、softmax相關求導

當我們對分類的Loss進行改進的時候，我們要通過梯度下降，每次優化一個step大小的梯度，這個時候我們就要求Loss對每個權重矩陣的偏導，然后應用鏈式法則。那么這個過程的第一步，就是對softmax求導傳回去，不用着急，我后面會舉例子非常詳細的說明。在這個過程中，你會發現用了softmax函數之后，梯度求導過程非常非常方便！

下面我們舉出一個簡單例子，原理一樣，目的是為了幫助大家容易理解！

我們能得到下面公式：

z4 = w41*o1+w42*o2+w43*o3

z5 = w51*o1+w52*o2+w53*o3

z6 = w61*o1+w62*o2+w63*o3

z4,z5,z6分別代表結點4,5,6的輸出，01,02,03代表是結點1,2,3往后傳的輸入.

那么我們可以經過softmax函數得到

$a_{4}= \frac{e^{z4} }{z^{z4}+z^{z5}+z^{z6}}$

$a_{5} =\frac{e^{z5} }{z^{z4}+z^{z5}+z^{z6}}$ $a_{6}= \frac{e^{z6} }{z^{z4}+z^{z5}+z^{z6}}$

好了，我們的重頭戲來了，怎么根據求梯度，然后利用梯度下降方法更新梯度！

要使用梯度下降，肯定需要一個損失函數，這里我們使用交叉熵作為我們的損失函數，為什么使用交叉熵損失函數，不是這篇文章重點，后面有時間會單獨寫一下為什么要用到交叉熵函數（這里我們默認選取它作為損失函數）

交叉熵函數形式如下：

$Loss = -\sum_{i}^{}{y_{i}lna_{i} }$

其中y代表我們的真實值，a代表我們softmax求出的值。i代表的是輸出結點的標號！在上面例子，i就可以取值為4,5,6三個結點（當然我這里只是為了簡單，真實應用中可能有很多結點）

現在看起來是不是感覺復雜了，居然還有累和，然后還要求導，每一個a都是softmax之后的形式！

但是實際上不是這樣的，我們往往在真實中，如果只預測一個結果，那么在目標中只有一個結點的值為1，比如我認為在該狀態下，我想要輸出的是第四個動作（第四個結點）,那么訓練數據的輸出就是a4 = 1,a5=0,a6=0，哎呀，這太好了，除了一個為1，其它都是0，那么所謂的求和符合，就是一個幌子，我可以去掉啦！

為了形式化說明，我這里認為訓練數據的真實輸出為第j個為1，其它均為0！

那么Loss就變成了 $Loss = -y_{j}lna_{j}$ ,累和已經去掉了，太好了。現在我們要開始求導數了！

我們在整理一下上面公式，為了更加明白的看出相關變量的關系：

其中 $y_{j} =1$ ,那么形式變為 $Loss = -lna_{j}$

那么形式越來越簡單了，求導分析如下：

參數的形式在該例子中，總共分為w41,w42,w43,w51,w52,w53,w61,w62,w63.這些，那么比如我要求出w41,w42,w43的偏導，就需要將Loss函數求偏導傳到結點4，然后再利用鏈式法則繼續求導即可，舉個例子此時求w41的偏導為:

w51.....w63等參數的偏導同理可以求出，那么我們的關鍵就在於Loss函數對於結點4,5,6的偏導怎么求，如下：

這里分為倆種情況：

j=i對應例子里就是如下圖所示：

比如我選定了j為4，那么就是說我現在求導傳到4結點這！

那么由上面求導結果再乘以交叉熵損失函數求導

$Loss = -lna_{j}$ ，它的導數為 $-\frac{1}{a_{j} }$ ,與上面 $a_{j}(1-a_{j} )$ 相乘為 $a_{j}-1$ （形式非常簡單，這說明我只要正向求一次得出結果，然后反向傳梯度的時候，只需要將它結果減1即可，后面還會舉例子！）那么我們可以得到Loss對於4結點的偏導就求出了了（這里假定4是我們的預計輸出）

第二種情況為：

這里對應我的例子圖如下，我這時對的是j不等於i，往前傳：

那么由上面求導結果再乘以交叉熵損失函數求導

$Loss = -lna_{j}$ ，它的導數為 $-\frac{1}{a_{j} }$ ,與上面 $-a_{j}a_{i}$ 相乘為 $a_{i}$ （形式非常簡單，這說明我只要正向求一次得出結果，然后反向傳梯度的時候，只需要將它結果保存即可，后續例子會講到）這里就求出了除4之外的其它所有結點的偏導，然后利用鏈式法則繼續傳遞過去即可！我們的問題也就解決了！

三、下面我舉個例子來說明為什么計算會比較方便，給大家一個直觀的理解

舉個例子，通過若干層的計算，最后得到的某個訓練樣本的向量的分數是[ 2, 3, 4 ],
那么經過softmax函數作用后概率分別就是=[ $\frac{e^{2} }{e^{2}+e^{3}+e^{4}}$
, $\frac{e^{3} }{e^{2}+e^{3}+e^{4}}$ , $\frac{e^{4} }{e^{2}+e^{3}+e^{4}}$ ] = [0.0903,0.2447,0.665],如果這個樣本正確的分類是第二個的話，那么計算出來的偏導就是[0.0903,0.2447-1,0.665]=[0.0903,-0.7553,0.665]，是不是非常簡單！！然后再根據這個進行back propagation就可以了

到這里，這篇文章的內容就講完了，我希望根據自己的理解，通過列出大量例子，直白的給大家講解softmax的相關內容，讓大家少走彎路，真心希望對大家的理解有幫助！歡迎交流指錯！畫圖整理不易，覺得有幫助的給個贊唄，哈哈！

參考：

softmax的log似然代價函數（公式求導）

交叉熵代價函數（作用及公式推導）

Softmax回歸 - Ufldl

部分圖片來自於網絡！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 softmax求導的過程 Deep Learning基礎--Softmax求導過程 softmax交叉熵損失函數求導 softmax函數，對數似然代價函數及求導反向傳播 softmax函數 softmax詳解【機器學習】BP & softmax求導層次softmax函數（hierarchical softmax）純函數以及為什么要用純函數【機器學習基礎】對 softmax 和 cross-entropy 求導