廢話少說,直接開干!
Sigmoid
函數形式
求導過程
如果求導已經還給數學老師了的話,可以參考鏈式法則版本:Sigmoid 函數的求導過程
Tanh
函數形式
求導過程
鏈式法則求導:Tanh 激活函數及求導過程
ReLU
太簡單,跳過
SoftMax
SoftMax常被用作多分類輸出層的激活函數,用來將輸出結果轉化為概率。SoftMax數學特性很好,因為其與交叉熵損失(log損失)函數一起求導,求導結果剛好等於預測值減去label。
SoftMax函數形式
交叉熵損失函數形式
其中為可能的類別數,
為樣本標簽,通常是一個大小為N維的one-hot向量,即
,只有
,其余位置值為零。
所以損失函數又可以表示為下面的形式
SoftMax函數的輸入是一個向量
經過SoftMax函數后,輸出另一個向量,且向量中所有值的和為1
我們的目標是求 損失函數 對向量
的導數,即
.
根據鏈式法則有:
其中是一個標量,標量對向量求導結果還是一個向量,求導公式如下:
和
都是向量,向量對向量求導,結果為雅可比矩陣,求導公式如下:
逐步求導:
1、求
由 ,可知最終的Loss只跟
有關。
2、求
向量對向量求導的公式剛剛已經做過介紹,是一個雅可比矩陣
由於 只有第j列不為0,由矩陣乘法,其實我們只要求第j行,也即
,
,其中
。
(1)當 時
(2)當 時
綜上所述
推薦一個好用的 LaTeX 公式編輯器:https://www.latexlive.com/##